OpenAI开源PaperBench，重塑顶级AI Agent评测,学AI就选近屿智能

当地时间4月2日，美国开放人工智能研究中心（OpenAI）宣布推出PaperBench——一个评估AI智能体复现前沿AI研究能力的基准，旨在评估AI代理在复制先进 AI 研究方面的能力。该测试要求 AI 代理从头开始复制20篇2024年国际机器学习会议（ICML）中的重点和口头论文，整个过程涉及理解论文贡献、开发代码库以及成功执行实验。 OpenAI开源PaperBench，重塑顶级AI Agent评测,学AI就选近屿智能 PaperBench 一共包含8316个可以单独评分的任务，所有评分量规均与每篇论文的作者合作开发，以保证其准确性和真实性。在对多个前沿 AI 模型进行评测后，研究发现表现最佳的代理是 Claude3.5Sonnet（新版本），其平均复制得分为21.0%。为了进一步验证这些结果，研究人员还邀请了多位顶尖的机器学习博士生尝试 PaperBench 的部分任务，结果显示，目前的 AI 模型尚未超越人类的复制能力。为了推动后续研究，OpenAI 团队决定将其开发的代码开源，以便更多的研究者能够利用这一平台，深入探索 AI 代理的工程能力及其在复制 AI 研究方面的潜力。同时，据外媒报道，OpenAI 旗下 AI 应用 ChatGPT 的付费订阅用户已突破 2000 万，较 2024 年底的 1550 万增长了 450 万，增幅约 30%。目前，ChatGPT 每月的收入至少达到 4.15 亿美元（年化收入约 50 亿美元），而且 OpenAI 还在推广每月 200 美元的 Pro 版，实际收入数字会更高。 AI发展迅速，前景广阔，现在正是学习AI的绝佳时机。近屿智能精心策划并推出了《AIGC大模型应用工程师》、《AIGC多模态大模型应用工程师》及《AIGC多模态大模型产品经理》三大AIGC大模型课程，结合实战项目演练，帮助学员快速掌握前沿AI技术和大模型应用，课程还提供求职辅导、面试机会和就业推荐，三大AI培训课程助力学员在AI时代脱颖而出。

Android进阶之旅-(NDK实战篇之C/C++进阶)

Andriod第三方源码分析

热门文章