10月24日智谱 AI 发布AutoGLM 一句话手机自动帮你点外卖、订酒店买东西-kai的工具箱

前天，Claude 才发布 Computer Use，让AI可以像人一样操控你的电脑来干活，已经很炸裂了。

这都还没热乎。

没想到国内的智谱 AI 就搞出了个“Phone Use ”，布了他们首个产品化的智能体——AutoGLM。

简单来说，它是一个能代替你在手机和网页上完成各种操作的AI助手，不需要手动搞那些复杂的流程，只需要说出你的需求，AutoGLM就可以可以模拟像人类操作手机打开APP一路火花带闪电全自动搞定。

视频播放器

它可以帮你：

在微信上「给老板的朋友圈点赞并写评论」……
在淘宝上「购买某一款历史订单产品」……
在携程上预订酒店……
在 12306 上购买火车票……
在美团上点个外卖……
给微信好友发信息打语音电话，总结公众号文章……
小红书自动评论点赞关注……

使用场景

假如你正在做饭、洗漱、洗澡、运动、开车、忙着工作的时候，突然有一个事情要在手机上完成，而你抽不开手，很好的解放你的双手。

比如，看到老板发的朋友圈想点个赞并留个评论，或者在淘宝上重复购买之前买过的某样东西，甚至是预订酒店、购买火车票、叫车、导航这些琐碎的事情？

现在只需要对着你的手说出你想要干的事情，AutoGLM就能帮你全部搞定。

让我们一起来看看它有多神奇吧！

给微信好友发信息

给微信好友朋友圈点赞回复

AutoGLM并不仅限于简单的应用场景，它的目标是“做你在手机上能做的所有事情”。这意味着它可以帮你做任何你想做的手机操作——

从淘宝购物清空你的购物车

视频播放器

帮你点外卖，而且还可以自己选规格，比如咖啡的大中小杯、甜度、冰的还是热的等

视频播放器

帮你订酒店，而且还能筛选日期、位置、酒店价位、床型等各种复杂选项

AutoGLM 的核心技术创新

从浏览网页到下单购物，再到订酒店、订机票、设置导航无所不能。

这得益于它对手机界面的深刻理解和强大的学习能力。

为了让AutoGLM不断学习，智谱团队研发了“自进化在线课程强化学习框架”，这样AutoGLM可以像人一样，通过不断的学习和实践来变得越来越强大。它不仅能学会新技能，还能自我纠正和改进，保证在实际应用中能越来越好地满足用户的需求。

“任务规划”和“动作执行”解耦
- 就像分工合作一样，AutoGLM 把“任务规划”（想干什么）和“动作执行”（怎么操作）这两个步骤分开处理，用自然语言作为桥梁。
- 这样做的好处是：智能体能更精准地执行操作。例如，当它需要在手机上点外卖时，能更准确地点击“提交订单”按钮。
- 这就像先列一个购物清单，然后按单子去超市找东西。AutoGLM 通过用自然语言作为中间沟通桥梁，将这两个步骤分开进行，让每一步都更准确。
- 这种设计使得智能体可以像人类一样，通过自然语言理解界面上的按钮、选项等元素。例如，在手机上点外卖时，它能先计划点击哪些按钮，然后精准地执行点击，确保订单被正确提交。
自我学习和逐步提升的框架
- AutoGLM 有点像“学得快的小学生”：它在不断挑战自己，从简单到复杂，边学边做，并在过程中改进自己。
- 每次完成任务后，它能够自我评估并找到下一步需要改进的地方。就像一个学生通过“刷题”不断挑战自己，从简单题目到复杂题目，逐步提升成绩。
- 通过这个自我改进的机制，在不同的任务和环境中都能保持稳定的表现，比如在淘宝上购物、预定酒店等任务上，都能越来越得心应手。

AutoGLM 解决的关键挑战

动作执行不够精确
- 问题： 智能体在操作屏幕时，可能会因为轨迹不准确而误点击，类似于你想点“支付”却点成了“取消”。
- 解决方法： AutoGLM 使用了解耦设计，把“想做什么”和“怎么做”分开处理。这样它能先想好每一步的操作，再去精准地点击或滑动界面。这让智能体的操作更像人类，减少了错误几率。
任务规划不够灵活
- 问题： 面对复杂的任务（比如在一个新网站上查找特定信息），传统的智能体可能会“卡住”，因为它缺乏灵活应对的能力。
- 解决方法： AutoGLM 使用了一个自进化的学习框架，它在真实环境中边学边做，不断调整策略。就像你第一次用新手机时不太熟练，但用久了就变得越来越快，AutoGLM 也是这样通过不断适应和改进来提升自己。
- 此外，AutoGLM 还会根据自己的表现调整学习难度，确保在应对复杂任务时依然灵活、准确。

在多种评测基准中表现优异：

在 AndroidLab 评测基准上，AutoGLM 超越了 GPT-4o 和 Claude-3.5-Sonnet，在手机环境中的任务执行表现显著提升。
在 WebArena-Lite 评测基准中，AutoGLM 的任务成功率相对 GPT-4o 提升了约200%，大大缩小了人类与大模型智能体在 GUI 操控上的成功率差距。

目前，AutoGLM的Web能力已经通过“智谱清言”插件对外公开使用，而在手机端，AutoGLM也已开放给部分安卓用户进行内测。如果你是安卓用户，不妨去申请体验，看看AutoGLM会如何让你的手机生活更加便捷有趣！

内测申请：https://chatglm.cn/main/gdetail/6715f75ec8d0a702dff1e4e6?lang=zh

更令人期待的是，智谱还和荣耀等手机厂商展开了合作，未来会有更多手机直接内置AutoGLM，让每个人都可以享受到这种极致的AI体验。

GLM-4-Voice

除了AutoGLM ，智谱AI还发布了GLM-4-Voice，一个新型的情感语音模型，具备高级情感理解和表达能力，是一款端到端的多模态语音模型。

这款模型实现了从文字到语音的无缝转换，不再需要传统的语音转文字再转语音的链式方案，从而减少信息损失与延迟。

视频播放器

GLM-4-Voice 的核心特点包括：

情感表达和共鸣：声音表现自然，可模拟不同的情感（如高兴、悲伤、害怕等）。
调节语速：允许在同一对话中快速或慢速输出语音。
多语言、多方言支持：支持中英文及多种地方方言（如粤语、重庆话、北京话等）。
随时打断和灵活输入：能根据实时用户指令调整语音输出。
视频通话结合：即将支持视频通话，真正实现“能看也能说”的AI助理。

GLM-4-Voice 的技术架构基于12.5Hz音频token建模，通过高效的预训练数据和流式思考架构，实现低延迟、端到端的语音理解和生成。这种设计大大提高了语音对话的流畅性和智能性，支持即时语音合成，最低只需输出20个token即可完成。

同时，GLM-4-Voice 发布即开源

代码仓库：

https://github.com/THUDM/GLM-4-Voice

目录CONTENT

10月24日智谱 AI 发布AutoGLM 一句话手机自动帮你点外卖、订酒店买东西

AutoGLM 的核心技术创新

AutoGLM 解决的关键挑战

在多种评测基准中表现优异：

GLM-4-Voice

评论区

10月24日 智谱 AI 发布AutoGLM 一句话手机自动帮你点外卖、订酒店买东西

AutoGLM 的核心技术创新

AutoGLM 解决的关键挑战

在多种评测基准中表现优异：

GLM-4-Voice

评论区

10月24日智谱 AI 发布AutoGLM 一句话手机自动帮你点外卖、订酒店买东西