机器之心报说念ai 人妖
机器之心剪辑部
从韦氏智商测试来看,要是 o3 的 IQ 真这样高,则称得上特地优秀。
OpenAI o3 的智商(IQ)果然依然这样高了吗
今天,Reddit 上一则热帖声称「OpenAI o3 的 IQ 预计为 157」,并放出了一张数据图。
这意味着什么呢?东说念主类中的 0.0075% 才能达到这个智商水平。更具体地说,每 13,333 个东说念主中才出来一个这样高智商的。
对比之下,GPT-4o 的 IQ 为 115、o1 preview 为 123、o1 为 135、o1 pro 为 139、o3 mini 为 141。
相通更具体地讲,GPT-4o 每 6 东说念主中有一个、o1 preview 是每 16 东说念主、o1 是每 93 东说念主、o1 pro 是每 200 东说念主、o3 mini 是每 333 东说念主。
这些 IQ 是怎样打算出来的呢?疑似原作家示意,他字据 Codeforces 编码评级来纰漏地预计 IQ,并假定报名时竞争体式员名次前 15%,临了得出 GPT-4o、o1 preview、o1、o1 pro、o3 mini 和 o3 的 IQ 以及在东说念主类中的名次。
图源:X@i_dg23ai 人妖
此前还有东说念主整理了 GPT-4o 与 o1 preview、o1、o3 在 2024 年 AIME 数学竞赛题目测试(AIME 2024)中的截止,从 13.4 到如今的 96.7,七个月的技术,数学才略完了了飞跃式晋升。
天天天国产视频在线观看图源:X@zbgoodwin
仅从以上数据来看,AI 大模子的逾越速率的确令东说念主胆怯。不外,毕竟开局一张图,o3 的 IQ 简直如表格中那么高吗?
有东说念主找到了「Tracking AI」中 o1 在挪威门萨智商测试(Mensa Norway)IQ 测试中的截止(为 133,与上头表格中预计的 135 收支不大),一定流程上考据了 o3 预计智商的可靠性。
图源:X@facundo_fagalde
图源:https://www.trackingai.org/home
因此,改日等 o3 负责发布以后,它的挪威门萨智商测试截止将愈加值得期待。
图源:X@AILeaksAndNews
o3 IQ 如斯之高,骤然引爆了公共伙的挑剔关注。
网友热评
有网友直呼:「这张图是我见过最愚蠢的东西之一,这些数据压根不成代表智商。他们用编码进展的 z 分数代表智商。但编码不是智商测试,尤其是关于插足编码测试的 LLM 来说,它们对统统在互联网上共享的代码具有完好的数字系念。o3 以致无法解答我 6 岁和 8 岁的孩子不错解答的问题。」
也等于说,要是 LLM 针对编码测试进行考试,那么用编码进展分数代表智商是绝不测想的。
但另一位网友示意:「并非如斯,这是一种基于关连性的『调整』,但当先关连性有点弱,其次它漂泊为机器智能的效能尚不解确,即东说念主工智能模子可能擅长编码,但在其他范围却不行。」
网友指出:「IQ 本人等于用来评估东说念主类的认识。它评估与智商关连的特定手段,并理所固然地以为东说念主类应该领有很多其他特征。而这张图通过接头东说念主工智能不错擅长的单一认识来假定广义智能,他们以致莫得使用智商测试来得出这个论断,而是字据与智商关连的认识来推断。」
总的来说,东说念主们关于所谓的「o3 智商高达 157」并不认同。大要,这又是一场炒作吧。
参考联结:https://www.reddit.com/r/singularity/comments/1hkxmi6/o3s_estimated_iq_is_157/