OpenAI开源PaperBench,重塑顶级AI Agent评测,学AI就选近屿智能

近屿智能
• 阅读 21

当地时间4月2日,美国开放人工智能研究中心(OpenAI)宣布推出PaperBench——一个评估AI智能体复现前沿AI研究能力的基准,旨在评估AI代理在复制先进 AI 研究方面的能力。该测试要求 AI 代理从头开始复制20篇2024年国际机器学习会议(ICML)中的重点和口头论文,整个过程涉及理解论文贡献、开发代码库以及成功执行实验。 OpenAI开源PaperBench,重塑顶级AI Agent评测,学AI就选近屿智能 PaperBench 一共包含8316个可以单独评分的任务,所有评分量规均与每篇论文的作者合作开发,以保证其准确性和真实性。在对多个前沿 AI 模型进行评测后,研究发现表现最佳的代理是 Claude3.5Sonnet(新版本),其平均复制得分为21.0%。为了进一步验证这些结果,研究人员还邀请了多位顶尖的机器学习博士生尝试 PaperBench 的部分任务,结果显示,目前的 AI 模型尚未超越人类的复制能力。 为了推动后续研究,OpenAI 团队决定将其开发的代码开源,以便更多的研究者能够利用这一平台,深入探索 AI 代理的工程能力及其在复制 AI 研究方面的潜力。 同时,据外媒报道,OpenAI 旗下 AI 应用 ChatGPT 的付费订阅用户已突破 2000 万,较 2024 年底的 1550 万增长了 450 万,增幅约 30%。 目前,ChatGPT 每月的收入至少达到 4.15 亿美元(年化收入约 50 亿美元),而且 OpenAI 还在推广每月 200 美元的 Pro 版,实际收入数字会更高。 AI发展迅速,前景广阔,现在正是学习AI的绝佳时机。近屿智能精心策划并推出了《AIGC大模型应用工程师》、《AIGC多模态大模型应用工程师》及《AIGC多模态大模型产品经理》三大AIGC大模型课程,结合实战项目演练,帮助学员快速掌握前沿AI技术和大模型应用,课程还提供求职辅导、面试机会和就业推荐,三大AI培训课程助力学员在AI时代脱颖而出。

点赞
收藏
评论区
推荐文章
Wesley13 Wesley13
3年前
30行代码消费腾讯人工智能开放平台提供的自然语言处理API
腾讯人工智能AI开放平台上提供了很多免费的人工智能API,开发人员只需要一个QQ号就可以登录进去使用。腾讯人工智能AI开放平台的地址:https://ai.qq.com/(https://www.oschina.net/action/GoToLink?urlhttps%3A%2F%2Fai.qq.com%2F)!(https://oscim
飞速创软发布「飞速AI智能体开发平台」:引领AI技术在企业级应用的新篇章
​随着科技的日新月异,人工智能(AI)已经渗透到我们生活的方方面面。3月12日,飞速创软公司宣布推出其革命性产品——「飞速AI智能体开发平台」,旨在推动AI前沿技术在企业级应用的普及与创新。这一平台不仅是飞速创软自主研发的核心AI技术的集中体现,更是为开发
胡赤儿 胡赤儿
1年前
AI换脸技术:探索人工智能在图像合成领域的前沿
AI换脸技术:探索人工智能在图像合成领域的前沿引言人工智能(ArtificialIntelligence,AI)的迅猛发展给图像处理领域带来了革命性的变化。其中,一项备受关注的技术就是AI换脸(FaceSwapping),它使得将一个人的面部特征迅速、准确
高耸入云 高耸入云
1年前
如何选择正确的AIGC学习课程?分享一些参加了各种AIGC培训课的经历
2023年11月30日,非营利性研究机构OpenAI推出AI聊天机器人ChatGPT,它所展现出的智能涌现能力在全球范围内引发了一场AI“狂飙”,也在业界点燃了一场百模大战。这一切都是因为以ChatGPT为代表的大语言模型向世人展露出了前所未有的能力,一条
公孙度 公孙度
8个月前
「AI得贤招聘官」通过工信部工业文化发展中心“AI产业创新场景应用案例”评估
近日,上海近屿智能科技有限公司的「AI得贤招聘官」,经过工业和信息化部工业文化发展中心数字科技中心的严格评估,荣获首批“AI产业创新场景应用案例”。据官方介绍,为积极推进通用人工智能产业高质量发展,围绕人工智能垂直产业应用案例升级迭代,以场景应用为牵引、加