【新智元导读】2022年,专家们笃定AI到2025年赢得IMO金牌概率不足10%。谁料短星空智能科技短3年,OpenAI和谷歌DeepMind的LLM双双摘金,不仅打破纪录,更宣告群体智能时代的到来!AI震撼人心,巨变势不可挡。
2022年,预言家放言:到2025年,押注90%的概率AI拿不下国际奥数IMO金牌。
从语言生成到逻辑推理,从通用能力到专业领域竞技,生成式AI正以惊人的速度越过每一道人类设下的「智力高墙」。
刚刚,宾大沃顿商学院教授、生成式人工智能实验室联合主任Ethan Mollick非常笃定:过去,人们低估了AI发展的速度。
当时,他们分别给出结论:到2025年,仅有2.3%和8.6%概率,AI能赢得国际数学奥林匹克金牌。
结果,被现实啪啪打脸:谷歌DeepMind的Gemini、OpenAI的ChatGPT,这两个通用大模型拿下了2025年国际数学奥赛的金牌。
谷歌DeepMind和OpenAI争夺AI史上第一块「IMO金牌」:OpenAI抢先发布了自家结果,但谷歌DeepMind的模型成绩获得了IMO官方认证。
而且需要注意的是,这些预测说的「任何」一种AI系统能夺得奥赛金牌。 如果换成是「大语言模型」这类通用AI系统,他们眼中的概率更低。
而且就在国际奥数成绩发布前,MathArena测评了当时的可用的大模型,没一个能拿到铜牌:
事实上,在MATH、MMLU和QuALITY三个标准的AI基准测试,预测几乎全军覆没。
在MATH数据集基准测试,GPT-4 Turbo在2024年4月达到了87.82%,而领域专家和超级预测者认为截至2024年6月30日,达到这一水平的概率为21.4%和9.3%。
两组人群都低估了截至2024年底AI的最大算力,其中超级预测者的预测值只有实际最大值的1/5。与此同时,他们又高估了机器学习模型的上限:
与此类似,麦肯锡发布过一份报告,展示了人工智能专家小组在2017年(在LLMs之前)的预测。
例如,麦肯锡预测AI将在2037年达到人类平均创造力水平。但实际上,在2023年这一目标已经实现。
而对于达到前1/4创造力水平的预测,麦肯锡原本估计要到2055年,但这一目标也已经提前30年达成。
由于生成式人工智能的发展,技术性能预计将比之前估计的更快地达到与人类中位数水平相当的性能,并在广泛的能力范围内达到人类前25%的顶尖水平
再例如,麦肯锡全球研究院(MGI)之前认为,在自然语言理解方面,技术最早可能在2027年达到与人类中位数相当的水平,但在新的分析中,这一时间点已提前到2023年。
在2025年的报告中,麦肯锡表示在过去的两年里,人工智能取得了飞速发展,许多重要的AI创新涌现⬇️。
2022年11月30日,ChatGPT正式公布。而之前,生成模型或GenAI更多指图像、视频等生成模型,OpenAI还在探索GPT的应用场景。
在ChatGPT和GPT-4问世之前的所有预测,几乎都注定严重低估了AI的实际进展。因为这些模型的横空出世,让外界第一次真正看清了AI的潜力和速度。
威斯康星大学计算机科学教授Pedro Domingos就质疑了这种概括性结论:
AI在某些领域确实领先,但在其他领域则不然。基于预测家考虑的少数领域,很难做出这样一概而论的判断。
而一个更大的转变正在酝酿:我们正进入「大众智能」时代,强AI变得像谷歌搜索一样容易获取。
2. 成本:顶级模型很贵,免费用户往往用不了,或者只有非常有限的访问权限。
而GPT-5本计划解决这两个问题:利用路由机制,避免简单问题浪费算力,自动选择模型,从而让更多人有机会使用推理模型等强AI。
这套机制在上线初期解释不足,路由判断也经常失灵,看起来乱七八糟、让人困惑。尽管如此,奥特曼很快宣布GPT-5取得了初步成功:
上线几天内,经常使用推理模型的付费用户比例从7%升至24%,而免费用户中能接触到顶尖模型的比例也从几乎为零提高到了7%。
这些改进带来的直接后果就是:哪怕AI越来越强大,它也变得足够便宜,可以普惠大众。
这就是十亿人突然拥有强大AI的真正原因:并不是因为某个宏大的「平民化AI」愿景,而是因为算力经济学终于走到这一步。
如今的顶尖模型越来越擅长直接理解并完成请求,甚至能「揣摩」用户的真实意图,自动超出预期去完成任务。
最近,谷歌发布了一款全新的图像模型,内部代号「nano banana」。
它不仅在图像编辑上表现出色(甚至比生成全新画面还更稳定),而且便宜到足以开放给免费用户使用。
更关键的是,它终于能很好地理解自然语言指令,省去了复杂的「提示词工程」。
AI巨头——无论你是否相信它们关于「安全」的承诺——根本无法完全消化这股浪潮。
我们所有的制度——学校、医院、法庭、公司、政府——过去都建立在「智能稀缺而昂贵」的前提之上。