GT
GT
发布于 2025-04-16 / 4 阅读 / 0 评论 / 0 点赞

test

公众号关注 “GitHubDaily”

设为 “星标”,每天带你逛 GitHub!

<img width="578" height="325" src=":/8149545b308945bc81680efa1213659b"/>

推理,是人类智慧的核心。

自 2025 年初以来,推理能力被各大公司赋予到各自大模型当中,试图让模型拥有人类的思维。

但依然存在明显不足,在处理复杂推理任务时,往往需要数十秒甚至更长时间才能做出回应,严重影响到我们使用体验。

直至今天,智谱给我们带来了新的突破,将推理模型交互体验上升到新的高度。

### 突破天际,开启新纪元

智谱重磅开源 GLM-Z1-32B-0414 推理模型,推理速度最高可达 200 Tokens/秒,成为目前商业模型中速度最快。

<img width="667" height="225" src=":/13dbcb9a4ded4fdda1ecc88733d1f06b"/>

而且它仅仅凭借着 32B 参数,性能已能与拥有 671 参数的 DeepSeek-R1 相媲美。

并且在多项基准测试中,GLM-Z1-32B-0414 展现了较强的数理推理能力,能够支持解决更广泛复杂任务。

![开源新闻稿 截屏 Apr 14](data:image/svg+xml,%3C%3Fxml%20version='1.0'%20encoding='UTF-8'%3F%3E%3Csvg%20width='1px'%20height='1px'%20viewBox='0%200%201%201'%20version='1.1'%20xmlns='http://www.w3.org/2000/svg'%20xmlns:xlink='http://www.w3.org/1999/xlink'%3E%3Ctitle%3E%3C/title%3E%3Cg%20stroke='none'%20stroke-width='1'%20fill='none'%20fill-rule='evenodd'%20fill-opacity='0'%3E%3Cg%20transform='translate%28-249.000000,%20-126.000000%29'%20fill='%23FFFFFF'%3E%3Crect%20x='249'%20y='126'%20width='1'%20height='1'%3E%3C/rect%3E%3C/g%3E%3C/g%3E%3C/svg%3E)

此外,模型还采用的是 MIT 许可协议开源,意味着我们可以直接免费用于商业。

我们可以在智谱 BigModel 开发平台调用 API,价格仅仅是 DeepSeek-R1 的 1/30,也可以在 Z.ai 上免费体验。

![image-20250415182457002](data:image/svg+xml,%3C%3Fxml%20version='1.0'%20encoding='UTF-8'%3F%3E%3Csvg%20width='1px'%20height='1px'%20viewBox='0%200%201%201'%20version='1.1'%20xmlns='http://www.w3.org/2000/svg'%20xmlns:xlink='http://www.w3.org/1999/xlink'%3E%3Ctitle%3E%3C/title%3E%3Cg%20stroke='none'%20stroke-width='1'%20fill='none'%20fill-rule='evenodd'%20fill-opacity='0'%3E%3Cg%20transform='translate%28-249.000000,%20-126.000000%29'%20fill='%23FFFFFF'%3E%3Crect%20x='249'%20y='126'%20width='1'%20height='1'%3E%3C/rect%3E%3C/g%3E%3C/g%3E%3C/svg%3E)

除此之外,还同步上线到智谱 MaaS 开放平台 (bigmodel.cn),面向企业和开发者提供 API 服务。

目前上线的推理模型有三个版本,分别满足我们不同场景需求:

- GLM-Z1-AirX(极速版):定位国内最快推理模型,推理速度可达 200 tokens/秒,比常规快 8 倍;

- GLM-Z1-Air(高性价比版):价格仅为 DeepSeek-R1 的 1/30,适合高频调用场景;

- GLM-Z1-Flash(免费版):支持**免费使用**,旨在进一步降低模型使用门槛。

![image-20250415212125227](data:image/svg+xml,%3C%3Fxml%20version='1.0'%20encoding='UTF-8'%3F%3E%3Csvg%20width='1px'%20height='1px'%20viewBox='0%200%201%201'%20version='1.1'%20xmlns='http://www.w3.org/2000/svg'%20xmlns:xlink='http://www.w3.org/1999/xlink'%3E%3Ctitle%3E%3C/title%3E%3Cg%20stroke='none'%20stroke-width='1'%20fill='none'%20fill-rule='evenodd'%20fill-opacity='0'%3E%3Cg%20transform='translate%28-249.000000,%20-126.000000%29'%20fill='%23FFFFFF'%3E%3Crect%20x='249'%20y='126'%20width='1'%20height='1'%3E%3C/rect%3E%3C/g%3E%3C/g%3E%3C/svg%3E)

### 经典哲学 AI 辩论

下面就带大家直观感受 GLM-Z1-AirX 模型惊艳的速度,我将通过构建一个 “**AI 辩论擂台**” 应用, 并与 DeepSeek-R1 模型进行对比测试。

同时准备了一条经典测试推理模型的哲学问题:“**博物馆着火,只能救一个,救猫还是救《蒙娜丽莎》?**”

![image-20250415145222925](data:image/svg+xml,%3C%3Fxml%20version='1.0'%20encoding='UTF-8'%3F%3E%3Csvg%20width='1px'%20height='1px'%20viewBox='0%200%201%201'%20version='1.1'%20xmlns='http://www.w3.org/2000/svg'%20xmlns:xlink='http://www.w3.org/1999/xlink'%3E%3Ctitle%3E%3C/title%3E%3Cg%20stroke='none'%20stroke-width='1'%20fill='none'%20fill-rule='evenodd'%20fill-opacity='0'%3E%3Cg%20transform='translate%28-249.000000,%20-126.000000%29'%20fill='%23FFFFFF'%3E%3Crect%20x='249'%20y='126'%20width='1'%20height='1'%3E%3C/rect%3E%3C/g%3E%3C/g%3E%3C/svg%3E)

开始准备

首先我们前往智谱 BigModel 开放平台申请 API Key。

目前新用户能免费获得 2000 万 Tokens 的使用额度,足够我们进行充分测试。

```

申请地址:https://www.bigmodel.cn/usercenter/proj-mgmt/apikeys

```

![image-20250415184331614](data:image/svg+xml,%3C%3Fxml%20version='1.0'%20encoding='UTF-8'%3F%3E%3Csvg%20width='1px'%20height='1px'%20viewBox='0%200%201%201'%20version='1.1'%20xmlns='http://www.w3.org/2000/svg'%20xmlns:xlink='http://www.w3.org/1999/xlink'%3E%3Ctitle%3E%3C/title%3E%3Cg%20stroke='none'%20stroke-width='1'%20fill='none'%20fill-rule='evenodd'%20fill-opacity='0'%3E%3Cg%20transform='translate%28-249.000000,%20-126.000000%29'%20fill='%23FFFFFF'%3E%3Crect%20x='249'%20y='126'%20width='1'%20height='1'%3E%3C/rect%3E%3C/g%3E%3C/g%3E%3C/svg%3E)

此外,我们还需要自行去申请 DeepSeek-R1 的 API Key。接着看下核心实现代码:

核心代码

模型 API 的调用

```

this.glmClient = new AIClient(                  'https://open.bigmodel.cn/api/paas/v4/chat/completions',                  glmApiKey || '',                  'glm-z1-airx'            );            `this.deepseekClient = new AIClient(`                  'https://api.deepseek.com/chat/completions',                  deepseekApiKey || '',                  'deepseek-reasoner'                  );

```

准备的 Prompt:

```

const prompt = '博物馆着火,只能救一个,救猫还是救《蒙娜丽莎》?' +                     '请从"救猫"的立场,给出三个有力论点支持你的选择。' +                     '请详细论证每个论点,包括价值观、实际考量因素和哲学依据。';

```

主要逻辑处理代码:

![图片](data:image/svg+xml,%3C%3Fxml%20version='1.0'%20encoding='UTF-8'%3F%3E%3Csvg%20width='1px'%20height='1px'%20viewBox='0%200%201%201'%20version='1.1'%20xmlns='http://www.w3.org/2000/svg'%20xmlns:xlink='http://www.w3.org/1999/xlink'%3E%3Ctitle%3E%3C/title%3E%3Cg%20stroke='none'%20stroke-width='1'%20fill='none'%20fill-rule='evenodd'%20fill-opacity='0'%3E%3Cg%20transform='translate%28-249.000000,%20-126.000000%29'%20fill='%23FFFFFF'%3E%3Crect%20x='249'%20y='126'%20width='1'%20height='1'%3E%3C/rect%3E%3C/g%3E%3C/g%3E%3C/svg%3E)

可以上下滚动的图片

### 实际测试过程

一切准备好,启动运行应用,点击「**开始辩论**」按钮,即可在界面实时展示它们的输出。如下视频:

GLM-Z1-AirX 模型以肉眼可见的超高速输出,DeepSeek-R1 还在思考问题时,它就已经完成了完整的阐述。

在调用模型之时,我记录下了所有关键信息,包括最终输出内容、首字响应时间、生成时间以及完成时间等等信息。

有了这些数据后,下面跟大家详细分析测试结果。

### 测试结果与数据分析

响应时间对比

![image-20250415151733445](data:image/svg+xml,%3C%3Fxml%20version='1.0'%20encoding='UTF-8'%3F%3E%3Csvg%20width='1px'%20height='1px'%20viewBox='0%200%201%201'%20version='1.1'%20xmlns='http://www.w3.org/2000/svg'%20xmlns:xlink='http://www.w3.org/1999/xlink'%3E%3Ctitle%3E%3C/title%3E%3Cg%20stroke='none'%20stroke-width='1'%20fill='none'%20fill-rule='evenodd'%20fill-opacity='0'%3E%3Cg%20transform='translate%28-249.000000,%20-126.000000%29'%20fill='%23FFFFFF'%3E%3Crect%20x='249'%20y='126'%20width='1'%20height='1'%3E%3C/rect%3E%3C/g%3E%3C/g%3E%3C/svg%3E)

首字输出时间是作为户体验的关键指标。在实际测试中:

- GLM-Z1-AirX:收到请求后 2777ms 开始输出

- DeepSeek-R1:收到请求后 2779ms 开始输出

有趣的是,两个模型在首次响应时间上几乎相同,都在 2.8 秒左右。

这表明首字输出不是 GLM-Z1-AirX 的核心优势所在,真正的差距在后续的生成速度上。

生成速度对比

![image-20250415151901241](data:image/svg+xml,%3C%3Fxml%20version='1.0'%20encoding='UTF-8'%3F%3E%3Csvg%20width='1px'%20height='1px'%20viewBox='0%200%201%201'%20version='1.1'%20xmlns='http://www.w3.org/2000/svg'%20xmlns:xlink='http://www.w3.org/1999/xlink'%3E%3Ctitle%3E%3C/title%3E%3Cg%20stroke='none'%20stroke-width='1'%20fill='none'%20fill-rule='evenodd'%20fill-opacity='0'%3E%3Cg%20transform='translate%28-249.000000,%20-126.000000%29'%20fill='%23FFFFFF'%3E%3Crect%20x='249'%20y='126'%20width='1'%20height='1'%3E%3C/rect%3E%3C/g%3E%3C/g%3E%3C/svg%3E)

在这实际生成过程中,速度差异极为显著:

- GLM-Z1-AirX:实测平均维持 165 tokens/秒的生成速度

- DeepSeek-R1:实测平均仅有 33 tokens/秒的生成速度

这里可以直观看出 GLM-Z1-AirX 的输出速度是 DeeSeek-R1 的 5 倍。

虽然没有达到官方说的 8 倍,但这个速度也足够给我们带来了出色的使用体验。

完成时间对比

![image-20250415152815277](data:image/svg+xml,%3C%3Fxml%20version='1.0'%20encoding='UTF-8'%3F%3E%3Csvg%20width='1px'%20height='1px'%20viewBox='0%200%201%201'%20version='1.1'%20xmlns='http://www.w3.org/2000/svg'%20xmlns:xlink='http://www.w3.org/1999/xlink'%3E%3Ctitle%3E%3C/title%3E%3Cg%20stroke='none'%20stroke-width='1'%20fill='none'%20fill-rule='evenodd'%20fill-opacity='0'%3E%3Cg%20transform='translate%28-249.000000,%20-126.000000%29'%20fill='%23FFFFFF'%3E%3Crect%20x='249'%20y='126'%20width='1'%20height='1'%3E%3C/rect%3E%3C/g%3E%3C/g%3E%3C/svg%3E)

对于相同任务的总完成时间差异更加惊人:

- GLM-Z1-AirX:仅用 17001ms (约 17 秒)

- DeepSeek-R1:耗时 57860ms (近 58 秒)

DeepSeek-R1 完成同样内容所需的时间是 GLM-Z1-AirX 的 3.4 倍。

可想象一下,当你需要分析 10 篇论文时,GLM-Z1-AirX 可以在 3 分钟内完成,而其他模型则需要 10 分钟以上,直接让我们工作效率飙升。

### 思维深度对比

由上数据分析可以看出,GLM-Z1-AirX 的生成和响应速度明显优于 DeepSeek-R1。

那么 GLM-Z1-AirX 是否以牺牲思维深度为代价换取的速度优势?

我们一起来看看,两个模型的输出内容:

GLM-Z1-AirX 分别从生命价值优先、现实决策和文明演进论三个论点进行论述,强调生命不可替代。

![GLM-Z1-AirX](data:image/svg+xml,%3C%3Fxml%20version='1.0'%20encoding='UTF-8'%3F%3E%3Csvg%20width='1px'%20height='1px'%20viewBox='0%200%201%201'%20version='1.1'%20xmlns='http://www.w3.org/2000/svg'%20xmlns:xlink='http://www.w3.org/1999/xlink'%3E%3Ctitle%3E%3C/title%3E%3Cg%20stroke='none'%20stroke-width='1'%20fill='none'%20fill-rule='evenodd'%20fill-opacity='0'%3E%3Cg%20transform='translate%28-249.000000,%20-126.000000%29'%20fill='%23FFFFFF'%3E%3Crect%20x='249'%20y='126'%20width='1'%20height='1'%3E%3C/rect%3E%3C/g%3E%3C/g%3E%3C/svg%3E)

而 DeepSeek-R1 则从生命神圣体、在场责任以及文明存续三个论点进行论述。

![GLM-Z1-AirX2](data:image/svg+xml,%3C%3Fxml%20version='1.0'%20encoding='UTF-8'%3F%3E%3Csvg%20width='1px'%20height='1px'%20viewBox='0%200%201%201'%20version='1.1'%20xmlns='http://www.w3.org/2000/svg'%20xmlns:xlink='http://www.w3.org/1999/xlink'%3E%3Ctitle%3E%3C/title%3E%3Cg%20stroke='none'%20stroke-width='1'%20fill='none'%20fill-rule='evenodd'%20fill-opacity='0'%3E%3Cg%20transform='translate%28-249.000000,%20-126.000000%29'%20fill='%23FFFFFF'%3E%3Crect%20x='249'%20y='126'%20width='1'%20height='1'%3E%3C/rect%3E%3C/g%3E%3C/g%3E%3C/svg%3E)

从一个普通人的角度来看两者输出的结果,GLM-Z1-AirX 更加通俗易懂地论述了为什么选择 “救猫”,而 DeepSeek-R1 引用大量的哲学观点,直接看得一脸懵逼。

### 写在最后

通过这次 “博物馆着火” 的哲学辩论测试,充分体现到 GLM-Z1-AirX 不仅思考得快,而且思考得深,给我们带来 “思考不打折” 的极速体验。

随着 GLM-Z1-AirX 这样的模型推出,相信不久,会有越来越多实时性的应用场景出现,如实时翻译对话、AI 伴侣等等,人们与 AI 的对话将变得更加自然流畅。

不禁遐想,当推理模型无限接近人类思考时,我们的生活又将会发生什么样改变?

*

值得一提的是,智谱 AI 团队的技术实力已获得全球认可!

刚看到 OpenAI 最新发布的 GPT-4.1 系列模型评测正采用的是智谱团队提出的 ComplexFuncBench 标准。

这意味着国产评测基准将会引领着全球大模型能力的评估方向。


评论