OpenAI于周四发布了一项新基准测试GDPval,旨在衡量其人工智能模型在广泛行业和职业中相较于人类专业人士的表现。该测试是初步尝试,旨在了解OpenAI的系统在具有经济价值的工作上超越人类还有多远——这是该公司实现通用人工智能(AGI)这一创始使命的关键部分。

Cover Image

OpenAI表示,其研究发现其GPT-5模型和Anthropic公司的Claude Opus 4.1模型“已经在接近行业专家的工作质量”。

但这并非意味着OpenAI的模型将立即开始取代人类的工作。尽管一些首席执行官预测人工智能将在短短几年内取代人类的工作,但OpenAI承认,目前的GDPval仅覆盖了人们实际工作中非常有限的一部分任务。然而,这是该公司衡量人工智能向这一里程碑迈进的最新方式之一。

GDPval基于对美国国内生产总值贡献最大的九个行业,包括医疗保健、金融、制造业和政府等领域。该基准测试评估人工智能模型在这些行业中的44种职业上的表现,职业范围从软件工程师到护士再到记者。

OpenAI的测试初版GDPval-v0中,OpenAI邀请经验丰富的专业人士将人工智能生成的报告与其他专业人士生成的报告进行比较,然后选出最佳报告。例如,一项提示要求投资银行为最后一英里配送行业创建竞争格局图,并将其与人工智能生成的报告进行比较。OpenAI随后计算人工智能模型在所有44种职业上相对于人类报告的“胜率”平均值。

对于GPT-5-high(一个配备了额外计算能力的增强版GPT-5),该公司表示,该人工智能模型在40.6%的情况下被评为优于或与行业专家持平。

OpenAI还测试了Anthropic公司的Claude Opus 4.1模型,该模型在49%的任务中被评为优于或与行业专家持平。OpenAI表示,他们认为Claude得分如此之高是因为其倾向于生成讨喜的图表,而非纯粹的性能优势。

值得注意的是,大多数在职专业人士所做的工作远不止向老板提交研究报告,而这仅仅是GDPval-v0测试的内容。OpenAI承认这一点,并表示计划在未来创建更全面的测试,以涵盖更多行业和交互式工作流程。

尽管如此,该公司认为GDPval上的进展是显著的。

OpenAI首席经济学家阿伦·查特吉博士(Dr. Aaron Chatterji)在接受采访时表示,GDPval的结果表明,从事这些工作的人现在可以利用人工智能模型将时间花在更有意义的任务上。

查特吉说:“因为模型在某些方面已经变得很擅长,随着能力不断提升,从事这些工作的人现在可以利用模型来分担部分工作,并可能从事更具价值的事情。”

OpenAI的评估负责人特贾尔·帕特瓦丹(Tejal Patwardhan)表示,她对GDPval的进展速度感到鼓舞。大约15个月前发布的OpenAIGPT-4o模型得分仅为13.7%(相对于人类的胜率和持平率)。如今,GPT-5的得分几乎是其三倍,帕特瓦丹预计这一趋势将持续下去。

硅谷拥有多种基准测试来衡量人工智能模型的进展,并评估给定模型是否处于最先进水平。其中最流行的包括AIME 2025(一项竞争性数学问题测试)和GPQA Diamond(一项博士级科学问题测试)。然而,一些人工智能模型在这些基准测试上的表现正接近饱和,许多人工智能研究人员指出需要更好的测试来衡量人工智能在现实任务中的熟练程度。

随着OpenAI证明其人工智能模型对广泛行业具有价值,像GDPval这样的基准测试在这类讨论中可能变得越来越重要。但OpenAI可能需要一个更全面的测试版本来明确宣称其人工智能模型能够超越人类。


文章标签: #OpenAI #GDPval #GPT5 #AI基准 #职业评估

负责编辑

  菠萝老师先生 

  让你的每一个瞬间都充满意义地生活,因为在生命的尽头,衡量的不是你活了多少年,而是你如何度过这些年。