今年 3 月 14 日,OpenAI 发布了新“核弹”——GPT-4。OpenAI 联合创始人 Sam Altman 表示,GPT-4 是“迄今为止功能最强大的语言模型”。与上一代相比,GPT-4 更强大更可靠,且更有创造性。
GPT-4 的发布让更多的人意识到,在聊天之外,人工智能的能力已不断扩展,并引发了部分人群对职业危机的担忧。有开发者担心,在未来的几十年内,AI 会循序渐进地取代一些开发岗位。
不过,GPT-4 的“野心”似乎不止于此,“取代程序员”浪潮未过,新一轮“取代潮”已经掀起。这一次,GPT-4 瞄准了年薪 60 万的数据分析师。
近日,阿里达摩院与新加坡南洋理工大学发布了一个关于用 GPT-4 取代数据分析师的成本核算的研究论文。论文指出,随着 LLM 的兴起和流行,不仅在 NLP 社区,其他诸多领域的人们都在考虑、或者担心自己的岗位可能被 AI 所取代。其中数据分析师成为 AI 时代下“首当其冲”的取代对象。
论文认为,数据分析师的主要工作内容就是从业务数据中识别出有意义的模式和趋势,并为利益相关者提供有价值的见解、协助制定战略决策。为了实现这个目标,数据分析师必须具备多种技能,包括 SQL 查询编写、数据清洗和转换、可视化生成和数据分析。由于工作流程相对较为固化确定,因此公众对于 AI 是否将取代数据分析师展开了激烈讨论。
论文指出:“除了所有数据分析师和 GPT-4 之间的可比绩效外,我们可以注意到 GPT-4 所花费的时间要比人类数据分析师短得多。我们假设每个月有大约 21 个工作日,每天工作 8 小时左右,并根据每个级别的数据分析师所花费的平均时间计算出每个实例在美元方面的成本。GPT-4 的成本约为初级数据分析师成本的 0.71%和高级数据分析师成本的 0.45%。”
在脉脉上,不少数据分析师岗位给到了月薪 40k 以上,以高级数据分析师年薪 60 万元为例,GPT-4 的成本大概在 2700 元左右。
作为数据分析师,GPT-4 大概是什么水平?
在论文中,研究人员试图分析:作为数据分析师,GPT-4 大概是个什么水平?
首先,研究人员将数据分析师的主要工作内容分成三个步骤:
数据收集:主要包括理解业务需求,并决定哪些数据源与需求有所关联。确定了相关数据后,分析师就可以通过 SQL 查询或其他工具提取所需的数据。
数据可视化:创建视觉辅助工具,例如图形和图表,借此高效传达见解。
数据分析:在数据分析阶段,分析师可能需要确定不同数据点之间的关联性,识别异常和异常值,并跟踪随时间而变化的趋势。在此过程中得出的见解,可以通过书面报告或演示文稿的形式传达给利益相关者。
根据数据分析师的主要工作范围,研究人员专门设计了一个 GPT-4 数据分析师模拟流程。如下图所示,其中,业务问题和数据库等强制输入信息显示在右上角的蓝色框内,参考的外部知识源作为可选输入则位于左上角的红色虚线框内。下方绿色框中的是提取数据(data.txt)、数据可视化(figure.pdf)和分析等输出结果。
图1
具体而言,给定一个与业务相关的问题(q)和一个或多个相关数据库表(d)及其模式(s)。目标是提取所需数据(D),生成可视化图表(G),并提供分析和见解(A)。
根据给定问题,分析师需要从数据库中挑选出生成图表所需要的数据,并对这些数据做有意义的组织排列。例如,“请展示散点图中身高和体重之间的相关性”。可以看到,问题中还包含了图表类型信息,因此应当根据数据的性质和所提问题选择合适的图表类型,并使用合适的软件或编程语言生成图表。最后,需要分析数据以确定有助于回答问题的趋势、模式和见解。
研究人员希望使用 GPT-4 实现整个数据分析过程的自动化,并按图 1 所示的步骤进行。这主要涉及三个步骤:代码生成(蓝色箭头所示)、代码执行(橙色箭头所示、分析生成(绿色箭头所示)。该框架的算法如下图所示:
图2
为了判断 GPT-4 作为数据分析师的水平如何,研究人员选取了 200 个样本,并对 GPT-4 的输出进行了系统且专业的人工评估,整个评估共分为两组。研究人员主要通过以下指标,对 LLM 的数据分析能力做定量评估:性能、时间和成本。具体来说,研究人员让 GPT-4 作为数据分析师解决几个端到端数据分析问题。由于此类数据分析问题没有可供参考的现成数据集,所以研究人员选择了相关度最高的数据集 NvBench,并在其中添加了数据分析部分。研究人员还设计了几项自动和人工评估指标,用以综合评估提取的数据、绘制的图表和生成的数据分析结论的实际质量。
图3
结果发现,在正确选取图表类型方面,两个评估组几乎都拿下了满分。这说明对于“绘制条形图”、“显示饼状图”等简单明了的指令,GPT-4 能够轻松理解其含义,并结合关于图表类型的背景知识正确绘制出适合的图表。在美学得分方面,GPT-4 的平均得分为 2.73 分(满分 3 分),这表明生成的大部分图形对受众来说清晰、不存在格式错误。但在所绘制图表的信息正确性方面,GPT-4 的得分无法令人满意。研究人员手动检查了这些图表,从中发现了一些小错误,但大部分图表仍给出了基本正确的数字。研究人员的评估标准非常严格,只要任何数据或者 x 轴/y 轴标签有误就必须扣分。从这个角度看,GPT-4 的工作能力仍有进一步改进的空间。
在对分析能力的评估方面,GPT-4 的对齐度和流畅度均获得满分。这再次证明 GPT-4 特别善于生成顺畅且语法正确的句子。不过,分析的平均正确性分数远高于数字的信息正确性分数,也就是说,GPT-4 可能会生成错误数字,但分析结论却是正确的。图表当中只有少数会产生重要影响的数据错误点。而在复杂度得分上,GPT-4 的 2.16 分(满分 3 分)也合理且令人满意。
人类数据分析师 VS GPT-4,谁更胜一筹?
同样的任务,专业的数据分析师会做得比 GPT-4 更好吗?
为了对比 GPT-4 与人类数据分析师的表现,研究人员聘请了几位不同背景的专业数据分析师重复完成任务,并与 GPT-4 做了全面比较。结果发现,总体来看,GPT-4 的表现与人类数据分析师基本相当,但双方在不同指标上各有优势侧重。
图4
图 4 第一部分表示一位在金融行业有 6 年以上工作经验的高级数据分析师(Senior Data Analyst 1)在 10 个样本上的表现。从表中可以看到,GPT-4 的性能在大多数指标上都与这位专业分析师相当。虽然 GPT-4 的正确性得分比人类分析师低,但复杂度得分和对齐度得分更高。
第二部分为 GPT-4 同另一位在互联网领域拥有 5 年以上经验的高级数据分析师(Senior Data Analyst 2)在 8 个样本上的性能比较。由于样本量相对较小,结果显示人类分析师与 AI 之间存在较大差异。人类分析师在信息正确性、图形美观性、见解正确性和复杂度等方面均超过了 GPT-4,表明大语言模型仍有改进的空间。
第三部分比较了 GPT-4 同一位在咨询公司工作不足 2 年的初级数据分析师间在 9 个随机样本上的性能。GPT-4 不仅在数字和分析正确性上表现更好,而且也比人类分析师更倾向于生成较为复杂的分析结论。
此外,研究人员还对比了 GPT-4 与人类分析师所需的成本,结果发现 GPT-4 花费的时间比人类分析师短得多。
图5
图 5 为不同受试方之间的成本比较。研究人员从 level.fyi 提取了新加坡数据分析师的年薪中位数,从 Glassdoor 查到了新加坡数据分析师的平均年薪。假定每个月约有 21 个工作日,每天工作 8 个小时左右,并按不同级别的数据分析师平均花费的时间来计算各个实例的具体成本(以美元计价)。最终结果是:在根据市场价格为各位数据分析师计费时,GPT-4 的成本约是初级数据分析师的 0.71%,是高级数据分析师的 0.45%。
GPT-4 这样的大语言模型真能取代人类数据分析师吗?在论文的结尾,研究人员并未给出明确结论。虽然从分析结果来看,GPT-4 的实际表现几乎与人类相当,并且所需的成本更低,但能否全面取代人类数据分析师仍需要进一步研究。
本文转载来源:
https://www.infoq.cn/news/6LAGtDef93ytGip8YVd1