到目前为止,法学硕士的大部分进展都是由语言驱动的。这种新模式进入了复杂推理领域,对物理、编码等都有影响。
上周末,我在一个夏令营里举行了婚礼,白天,我们的宾客们参加了一系列游戏,这些游戏的灵感来自我和现任妻子策划的电视节目《幸存者》。当我们在 8 月计划游戏时,我们想让其中一个环节成为记忆挑战,我们的朋友和家人必须记住一首诗的一部分,然后将其传达给他们的队友,让他们用一组木片重新创作。
我认为 OpenAI 当时领先的模型 GPT-4o 非常适合提供帮助。我要求它创作一首以婚礼为主题的短诗,但限制是每个字母只能出现一定次数,这样我们才能确保团队能够使用提供的一组瓷砖重现这首诗。GPT-4o 惨败。该模型反复坚持认为它的诗歌在限制范围内有效,但事实并非如此。它只会在事后正确计算字母数量,同时继续提供不符合提示的诗歌。由于没有时间手工精心创作诗句,我们放弃了诗歌的想法,而是挑战客人记住一系列由彩色瓷砖制成的形状。(这最终在我们的朋友和家人中大受欢迎,他们还参加了躲避球、扔鸡蛋和夺旗比赛。)
然而,上周 OpenAI发布了一个名为 o1 的新模型(之前的代号为“Strawberry” ,再之前为 Q*),在这种用途上,该模型将 GPT-4o 完胜。
https://buy.tinypass.com/checkout/template/cacheableShow?aid=WUOCNSUgpu&templateId=OTCBIZBLG8WE&templateVariantId=OTVNSKAXZEPPU&offerId=fakeOfferId&experienceId=EX43E7JR539R&iframeId=offer_211398bdc8f0f7fb6e1c-1&displayMode=inline&pianoIdUrl=https%3A%2F%2Fauth.technologyreview.com%2Fid%2F&widget=template&url=https%3A%2F%2Fwww.technologyreview.com
与之前非常适合写作和编辑等语言任务的模型不同,OpenAI o1 专注于多步骤“推理”,这是高等数学、编码或其他基于 STEM 的问题所需的过程类型。据 OpenAI 称,它使用了一种“思维链”技术。该公司在其网站上的一篇博客文章中写道:“它学会了识别和纠正错误。它学会了将棘手的步骤分解成更简单的步骤。它学会了在当前方法不起作用时尝试不同的方法。”
OpenAI 的测试表明它取得了巨大的成功。该模型在竞争性编码组织 Codeforces 的问题中排名 89%,并将成为美国数学奥林匹克竞赛中前 500 名高中生之一,该竞赛涵盖几何、数论和其他数学主题。该模型还经过训练,可以回答从天体物理学到有机化学等学科的博士级问题。
在数学奥林匹克问题中,新模型的准确率为 83.3%,而 GPT-4o 的准确率为 13.4%。在博士级问题中,它的平均准确率为 78%,而人类专家的准确率为 69.7%,GPT-4o 的准确率为 56.1%。(鉴于这些成就,新模型在为我们的婚礼游戏写诗方面相当出色也就不足为奇了,尽管它仍然不完美;它使用的 T 和 S 比指示的要多。)
那么这为什么重要?到目前为止,LLM 的大部分进展都是由语言驱动的,从而产生了能够解释、分析和生成单词的聊天机器人或语音助手。但除了大量事实错误之外,这些 LLM 还未能展示出解决药物发现、材料科学、编码或物理等领域重要问题所需的技能。OpenAI 的 o1 是 LLM 可能很快成为这些领域人类研究人员真正有用的伙伴的首批迹象之一。
这是一件大事,因为它将人工智能模型中的“思路链”推理带给大众,人工智能研究员、法学硕士初创公司 Fixie 的创始人马特·威尔士 (Matt Welsh) 说。
“推理能力直接存在于模型中,而不必使用单独的工具来实现类似的结果。我的期望是,它将提高人们对人工智能模型能力的期望标准,”韦尔什说。
尽管如此,伦敦帝国理工学院数学与计算机科学副教授 Yves-Alexandre de Montjoye 表示,最好对 OpenAI 与“人类水平技能”的比较持保留态度。很难有意义地比较法学硕士和人类如何完成从零开始解决数学问题等任务。
此外,人工智能研究人员表示,衡量像 o1 这样的模型的“推理”能力比听起来要难得多。如果它正确回答了一个给定的问题,那是因为它成功地推理出了合乎逻辑的答案吗?还是因为模型中内置了足够的知识起点?谷歌人工智能研究员 François Chollet在 X 上写道,该模型“在开放式推理方面仍然不足”。
最后,还有价格。这种推理能力强的模型并不便宜。尽管高级 OpenAI 订阅中包含对该模型某些版本的访问,但通过 API 使用 o1 的开发人员将支付的费用是 GPT-4o 的三倍——o1 每 100 万个输入令牌 15 美元,而 GPT-4o 为 5 美元。根据 OpenAI 的用户调查,新模型也不会成为大多数用户在语言密集型任务中的首选,GPT-4o 仍然是更好的选择。
它将解锁什么?除非研究人员和实验室有足够的时间和预算来改进这种新模式并找出其极限,否则我们无法知晓。但这无疑表明,超越人类的模型竞赛已经开始。
现在阅读算法的其余部分
深度学习
聊天机器人可以说服人们不再相信阴谋论
研究人员认为,他们发现了一种打击虚假阴谋论的新工具:人工智能聊天机器人。麻省理工学院斯隆管理学院和康奈尔大学的研究人员发现,使用大型语言模型 (LLM) 谈论阴谋论可以降低人们对该理论的信任度约 20%——即使是那些声称自己的信仰对其身份很重要的参与者也是如此。
重要性:技术心理学研究所博士后研究员、研究人工智能对社会影响的张云浩(Jerry)表示,这些发现可能代表着我们在与支持此类毫无根据的理论的人接触和教育方面迈出了重要一步。“他们表明,借助大型语言模型,我们可以——我不会说解决这个问题,但我们至少可以缓解这个问题,”他说。“它指出了一条让社会变得更好的道路。”点击此处阅读更多 Rhiannon Williams 的文章。
位和字节
谷歌的新工具可让大型语言模型对其响应进行事实核查
这个名为 DataGemma 的项目使用两种方法帮助法学硕士 (LLM) 根据可靠数据检查他们的答复,并向用户更透明地引用他们的来源。(《麻省理工技术评论》)
见见这位痴迷于无线电、致力于建设乌克兰无人机防御系统的平民
自俄罗斯入侵以来,Serhii “Flash” Beskrestnov 已成为一股颇具影响力的力量,尽管有时也引发争议——他分享专家建议和情报,介绍不断演变的空中技术。他的工作可能决定乌克兰的未来,以及更远的战争。(《麻省理工技术评论》)
科技公司已加入白宫承诺,防止人工智能生成性虐待图像
OpenAI、Anthropic 和微软等公司签署的承诺旨在“遏制基于图像的性虐待行为”。这些公司承诺对模型生成的内容设置限制,并尽可能从训练数据集中删除裸照。(财富)
OpenAI 的估值现已达到 1500 亿美元
该估值源自目前正在进行的 65 亿美元融资谈判。鉴于 OpenAI 的运营成本越来越高,今年可能亏损高达 50 亿美元,很难看出这一切会如何。(The Information)
AI最新资讯、技术文章、工具推荐、学习资料
