猫眼电影
猫眼电影记者 唐昱霄 报道w3u7903ejky2ywls
得分比第二名翻倍,成本却仅为1/20?!
o3中杯在超难推理任务ARC-AGI上的新成绩,属实又给众人带来了亿点点震撼。
根据ARC Prize官方介绍,本轮测试得出的关键结论如下:
o3 (Medium) 在ARC-AGI-1上得分为57%,成本为1.5美元/任务,优于目前所有已知COT推理模型;o4-mini(Medium)在ARC-AGI-1上得分为42%,成本为0.23美元/任务,准确率不足但成本优势明显;在难度升级的ARC-AGI-2上,两种型号模型的准确率均未超过3%
按照最新ARC测试,中杯o3堪称目前OpenAI所有模型中的“性价比之王”。
不过值得注意的是,相比2024年12月OpenAI在“双十二”直播活动中发布的o3模型,最新成绩可谓“大幅缩水”。
当时o3在低推理能力设置下(Low)得分高达75.7%,并且让模型推理更长时间后,其得分更是首次超越人类(85%)飙升至87.5%。
那么问题来了,为何短短几个月过去,o3模型在ARC测试上的得分差异明显呢?
原来前后两个模型虽然名称一样,但实际并非相同的模型。
OpenAI当下最新的o3,已针对聊天和产品应用进行了微调。
△图源:ARC Prize官网
甚至,OpenAI研究员们也强调,最新发布的o3并未专门针对ARC-AGI测试进行训练。
也就是说,中杯o3第一次挑战ARC难题就取得了好成绩。
宾大沃顿商学院教授Ethan Mollick更是直言:
现在有更多的证据表明, o3代表着一次重大进步。
与此同时,时代杂志发表的一篇独家文章表示,o3优于94%的专业病毒学家。其在这一专业领域的准确率达到了43.8%,相比之下博士级人类专家的准确率仅为22.1%。
中杯o3 ARC-AGI测试成绩出炉
ARC-AGI是一项旨在评判大模型的“智力”,或者说“AGI能力”的基准测试。
里面包含了一系列拼图问题,要求AI从不同颜色的方块中识别出视觉模式,并生成正确的 “答案” 网格。这些问题主要是为了迫使AI适应未曾见过的新问题。
正如开头所言,在ARC-AGI-1中,o3模型曾以75.7%的得分“称王称霸”。而在看到这一成绩后,ARC官方感受到了进一步更新的紧迫性。
于是在2024年3月,他们上新了ARC-AGI-2版本,核心目标是测试模型能否高效地获取超出其训练数据的新技能。
具体而言,在ARC-AGI-1基础之上,官方引入了更多符号解释、多组合规则以及需要更深层次抽象的任务,难度再次大升级。
正是基于以上两个测试基准,在OpenAI最新上线了o3和o4-mini之后,ARC又重新进行了测试。
除了中杯o3取得的好成绩,更多测试结果如下:
首先是o3 (high),ARC官方自称耗费超过5万美元,最终仍未获得o3 (high)的完整测试结论。
理由是,在高推理能力设置下,模型在大多数情况下均无法响应或超时,最后只有不到一半的任务返回了结果。
不过参与审查的Mike Knoop表示,建议默认使用o3 (high)设置,除非遇到超时才切换到Medium选项。
同时他认为,虽然中杯o3的准确率远低于o3-preview(去年12月的版本),但毫无疑问o3整体在准确率和成本优化方面做得非常出色。
如今,你在其他任何地方都买不到o3级别的AI推理能力。
一言以蔽之,本轮测试结果表明,中杯o3在继承o3-preview大部分新功能的前提下,成本有了大幅下降。
除此之外,ARC官方还得出了三个关键发现:
1、早期响应准确率更高:模型越早返回的任务,准确率越高。而那些耗时更长(无论是运行时间还是token使用量)的任务,失败的可能性更大。
2、高级推理可能效率低下:在相同任务上比较中杯o3和o3 (high)时,发现后者始终使用更多token来得出相同的答案。
3、每秒token数的最小变化:在o系列模型中,不同任务的每秒token数差异较小。特别是o3-mini-low和o4-mini-low的吞吐量(tok/s)高于中高版本。
One More Thing
顺带一提,ARC官方早前还测试过DeepSeek-R1。
最终结果是,在ARC-AGI-1基准上,DeepSeek-R1得分为15.8%,远低于o3模型。
你怎么看o3的新测试?
时事1:furry裸体被❌羞羞
04月27日,南京调整2024年度住房公积金缴存基数,
兔起鹘落,两人动作极快,每一击都很可怕,拳风如雷,隆隆作响,震的树木倒伏,山石崩裂。
,free❌❌❌国产麻豆。04月27日,全国总工会印发《女职工数字技能提升方案》,
雷家、紫山家等几族的长辈出面,让孩子们停手,不再争斗,想看一看这个古怪的村子到底怎么回事,难道真是上古遗存下来的一个恐怖的隐世家族?
,yy4080影院❤旧里番3D梅,❌❌❌自慰调教av大师网站,欧美夜外XXXXX高清在线。时事2:男生做女王脚下的贱狗
04月27日,工作日上班休息日种地 这届年轻人为何爱上下地种菜?,
三、正值年少含苞待放,要努力拼搏。希望同学们进入中学后,能学会分析与思考,学会丰富与凝练。更要学会包容、超越,突破。希望你们能在面对困境时自强自信,奋发图强,热爱生活,就一定能在平凡的生活中演绎出不平凡的人生。
,总被室友玩屁股(H)男男,老妇大炕交换配乱大交,崩坏3黄污本子涩涩。04月27日,广东省揭阳市1名干部被查,
整整一个时辰,狈村的祭灵都没有出现,只是这些巨狼在攻击,而狈山等也在放冷箭。
,секс 6',免费吸乳羞羞网站视频,pororoHD720😍😍。时事3:黄网站下载
04月27日,5月中国CPI同比涨0.3% 专家料年内温和回升,
“哧”
第七十八章 危机,张婧仪双腿打开被男人猛戳,在线精品㊙️比基尼,蝴蝶忍被强❌自慰爽漫画。04月27日,视评线丨巴勒斯坦“入联”再失败 撕开美国伪善“面具”,
可惜,最终却是这个结果,让人扼腕长叹。
,中国裸男体秘无遮挡,深夜自慰小黄文爽到流水,乌克兰少妇性做爰免费。时事4:美女校花脱精光
04月27日,2023年上海AEO企业进出口值占外贸总值超1/3,
“数千万人口也敢称王侯?于苦荒之地作威作福,盘剥苦民,无人管缚,自封的而已,不知天高地厚。真正的王侯,哪个不是统御十数亿人口的一方强者,手下一个家将走出去,都可以轻易灭掉那些数千万人口的部落。”
,脱👙让学生C🐻-百度九幺,江楠楠裸被❌高清在线观看,八重神子露双乳求调教。04月27日,自然资源部地质勘查管理司启动地质灾害防御III级响应,
过去,石昊只是一群大孩子后面的跟屁虫,自从他举起铜鼎后,就连大人们都已视他为小怪物,就更不要说孩子们了,一下子成为了他们中的“骨干分子”之一。
,从头啪到尾全肉小黄书在线观看,美女露出🐻 给男生揉真人,刘亦菲婬荡高潮呻吟。责编:迪马尔齐奥
审核:钟萍
责编:赵兴寿