智谱版o1终于也来了 一句话就能做小游戏! 直接拿下考研数学 (智谱app)

智谱版o1终于也来了 一句话就能做小游戏! 直接拿下考研数学 (智谱app)

智谱版o1终于也来了:直接拿下考研数学,一句话就能做小游戏!

十三 来源: 量子位

赶在2024年的最后一天

终于,在2024年的最后一天, 智谱版o1 也来了!

名字叫做GLM-Zero-Preview, Zero推理模型 (下文简称Zero模型),自称是擅长通过逻辑推理来解决 数理问题

智谱版o1终于也来了:直接拿下考研数学,一句话就能做小游戏!

既然如此,那么我们就直接一套 2024年考研数学真题 来伺候一下吧~

规则也很简单,就是把真题的题目以 截图 的方式“喂”给Zero模型,这样也可以顺便考验一下它的视觉理解能力。

例如我们小试牛刀地截取第一道 函数选择题

智谱版o1终于也来了:直接拿下考研数学,一句话就能做小游戏!

从Zero模型生成的结果来看,主要分为 四大部分

智谱版o1终于也来了:直接拿下考研数学,一句话就能做小游戏!

有意思的是,Zero模型在深度思考过程中,它的思维方式像极了人类,而且每一步思考也描述的非常详细,最终给出了 正确答案:C

但同样的问题给到了ChatGPT o1……Emmm,先败在了“识图”这一步。

智谱版o1终于也来了:直接拿下考研数学,一句话就能做小游戏!

再来第二道测试题—— 线性代数

智谱版o1终于也来了:直接拿下考研数学,一句话就能做小游戏!

还是同样的“配方”,来看下Zero的解题过程:

智谱版o1终于也来了:直接拿下考研数学,一句话就能做小游戏!

Zero模型按照逻辑顺序一步步拆解了这个问题,从基本定义、条件推导到最终结果,展示了较为清晰的解题思路。

在过程中,Zero模型对关键条件还进行了分步分析,同时对结果的数学意义进行了验证。

最终,依旧是给出了 正确答案:D

在函数、线性代数之后,我们再来一道 概率统计

智谱版o1终于也来了:直接拿下考研数学,一句话就能做小游戏!

我们来看下Zero模型的解析过程:

智谱版o1终于也来了:直接拿下考研数学,一句话就能做小游戏!

回答依然正确:D。

在尝试不同类型的选择题之后,我们不妨再来测一波大题。

直接上 压轴题!

智谱版o1终于也来了:直接拿下考研数学,一句话就能做小游戏!

值得注意的一点是,这道题需要同时解答两个问题,我们来看下结果:

智谱版o1终于也来了:直接拿下考研数学,一句话就能做小游戏!

Zero模型 统统答对了!

看来智谱版o1敢把 “擅长数理问题” 直接打出来,确实是有点东西在身上的。

据官方介绍,同基座模型相比,GLM-Zero-Preview 在不显著降低通用任务能力的情况下,在专家任务能力方面表现大幅提升。

并且它在AIME 2024、MATH500 和 LiveCodeBench评测中,已经取得了与OpenAI o1-preview相当的效果。

智谱版o1终于也来了:直接拿下考研数学,一句话就能做小游戏!

而且有一说一,抛出解析过程和结果,相比其它类o1大模型来说,单是整体的布局这块,不论是文字和公式,似乎更加符合 数学之美

但毕竟数学还是只是评测大模型推理能力的维度之一,因此,我们继续开启更多维度的 “极限挑战”

一句话让马斯克跳舞变字符画

代码编程 能力,同样也是类o1推理模型重要的一面。

我接下来就实测一下Zero模型能否用 一句话生成小游戏

Zero模型根据要求,一步一步推理过后生成了一段完整的代码(上下滑动查看所有内容):

智谱版o1终于也来了:直接拿下考研数学,一句话就能做小游戏!

然后我们只需复制粘贴到了IDE里,并在浏览器中运行,一个可玩的简单版贪吃蛇游戏就做好了。

智谱版o1终于也来了:直接拿下考研数学,一句话就能做小游戏!

再来一个有意思的:

我们同样先来看下生成出来的代码(上下滑动查看所有内容):

智谱版o1终于也来了:直接拿下考研数学,一句话就能做小游戏!

还是一个复制粘贴的动作,来看下效果:

智谱版o1终于也来了:直接拿下考研数学,一句话就能做小游戏!

嗯,确实是有点那个味道了。

或许你会说,这些代码功能过于简单了,别急,我们这就来上点难度——

把马斯克跳舞名场面视频,一句话变成 字符画 版本!

智谱版o1终于也来了:直接拿下考研数学,一句话就能做小游戏!

我们的Prompt是这样的:

然后Zero模型就给出了代码(上下滑动查看所有内容):

智谱版o1终于也来了:直接拿下考研数学,一句话就能做小游戏!

同样仅需复制粘贴,然后设置一些输入、输出文件的路径,运行代码后我们就可以得到这样的视频啦:

(PS:背景音乐为后期所配)

智谱版o1终于也来了:直接拿下考研数学,一句话就能做小游戏!

视频地址:

如果想再来点颜色,也是一句话的是:

智谱版o1终于也来了:直接拿下考研数学,一句话就能做小游戏!

视频地址:

由此可见,Zero模型在代码生成方面可以说是过关的。

更多维度实测

在数学和代码之后,我们继续从更多维度来全方面测试一下Zero模型。

视觉推理

请听题:

上下滑动查看所有内容:

智谱版o1终于也来了:直接拿下考研数学,一句话就能做小游戏!

Zero模型能够根据数字与符号的关系,分析出潜在规律,推导过程的过程也是清晰地阐述了出来。

再来:

智谱版o1终于也来了:直接拿下考研数学,一句话就能做小游戏!

Zero模型给出的答案是这样的(上下滑动查看所有内容):

智谱版o1终于也来了:直接拿下考研数学,一句话就能做小游戏! 可以看到,Zero模型先是准确识别出了台球上的数字,然后用推理能力一步步尝试将能够组合成的最大数值给了出来,但很可惜差了一点。

加密问题

我们再来一道可以考验大模型能力的 加密问题

请听题:

而这里出现的结果就比较有意思了。

智谱版o1终于也来了:直接拿下考研数学,一句话就能做小游戏!

Zero模型给出的答案是: hard work pays off.

但我们同时还用ChatGPT o1和DeepSeek V3做了比较:

各家大模型的结果均不相同,这道题到底是谁正确,小伙伴们可以亲测一下,然后在评论留言讨论哦~

经典问题:9.9和9.11哪个大?

最后一道测试,我们还是用那个非常经典的问题:

智谱版o1终于也来了:直接拿下考研数学,一句话就能做小游戏!

嗯,这个问题已经是难不倒Zero模型了。

智谱的大模型再添一块拼图

在2024年的最后一天,智谱也是终于在各大玩家之后发布了类o1模型。

由此,其大模型的矩阵也变得更加庞大:

文本生成(GLM)、图像生成(CogView)、视频生成(CogVideoX)、音效生成(CogSound)、音乐生成(CogMusic)、端对端语音(GLM-4-Voice)、自主代理(AutoGLM)、AI推理(GLM-Zero-Preview)。

能够以如此“全栈”姿态在大模型时代角逐的玩家,着实是屈指可数。

智谱版o1终于也来了:直接拿下考研数学,一句话就能做小游戏!

这也有就很好理解为何在前不久,智谱能够拿到30亿元的新一轮融资,估值已超200亿元。

模型够全栈,技术够密集,市场够认可,智谱可以说是给今年画上了较为圆满的句号。

除此之外,智谱选择在今年最后一天发布类o1模型,其实也在预示着明年的大模型发展依旧会在 推理Scaling Law 上发力。

但与此同时,诚如ChatGPT o3这般“烧钱猛兽”目前也无法完全应对Frontier Math、ARC-AGI等超高难度的测试。

那么智谱又将会在推理这块如何出奇制胜,是值得期待一波。

Zero模型体验地址:1、智谱清言: 2、智谱开放平台:

2000万token免费体验资源包领取地址:

参考链接:

版权所有,未经授权不得以任何形式转载及使用,违者必究。
声明:本文来自用户分享和网络收集,仅供学习与参考,测试请备份。