当地时间4月2日,美国开放人工智能研究中心(OpenAI)宣布推出PaperBench——一个评估AI智能体复现前沿AI研究能力的基准,旨在评估AI代理在复制先进 AI 研究方面的能力。该测试要求 AI 代理从头开始复制20篇2024年国际机器学习会议(ICML)中的重点和口头论文,整个过程涉及理解论文贡献、开发代码库以及成功执行实验。
PaperBench 一共包含8316个可以单独评分的任务,所有评分量规均与每篇论文的作者合作开发,以保证其准确性和真实性。在对多个前沿 AI 模型进行评测后,研究发现表现最佳的代理是 Claude3.5Sonnet(新版本),其平均复制得分为21.0%。为了进一步验证这些结果,研究人员还邀请了多位顶尖的机器学习博士生尝试 PaperBench 的部分任务,结果显示,目前的 AI 模型尚未超越人类的复制能力。
为了推动后续研究,OpenAI 团队决定将其开发的代码开源,以便更多的研究者能够利用这一平台,深入探索 AI 代理的工程能力及其在复制 AI 研究方面的潜力。
同时,据外媒报道,OpenAI 旗下 AI 应用 ChatGPT 的付费订阅用户已突破 2000 万,较 2024 年底的 1550 万增长了 450 万,增幅约 30%。
目前,ChatGPT 每月的收入至少达到 4.15 亿美元(年化收入约 50 亿美元),而且 OpenAI 还在推广每月 200 美元的 Pro 版,实际收入数字会更高。
AI发展迅速,前景广阔,现在正是学习AI的绝佳时机。近屿智能精心策划并推出了《AIGC大模型应用工程师》、《AIGC多模态大模型应用工程师》及《AIGC多模态大模型产品经理》三大AIGC大模型课程,结合实战项目演练,帮助学员快速掌握前沿AI技术和大模型应用,课程还提供求职辅导、面试机会和就业推荐,三大AI培训课程助力学员在AI时代脱颖而出。
OpenAI开源PaperBench,重塑顶级AI Agent评测,学AI就选近屿智能
点赞
收藏