目 录CONTENT

文章目录

10月24日 智谱 AI 发布AutoGLM 一句话手机自动帮你点外卖、订酒店买东西

前天,Claude 才发布 Computer Use,让AI可以像人一样操控你的电脑来干活,已经很炸裂了。

这都还没热乎。

没想到国内的智谱 AI 就搞出了个“Phone Use ”,布了他们首个产品化的智能体——AutoGLM。

简单来说,它是一个能代替你在手机和网页上完成各种操作的AI助手,不需要手动搞那些复杂的流程,只需要说出你的需求,AutoGLM就可以可以模拟像人类操作手机打开APP一路火花带闪电全自动搞定。

视频播放器

它可以帮你:

  • 在微信上「给老板的朋友圈点赞并写评论」……
  • 在淘宝上「购买某一款历史订单产品」……
  • 在携程上预订酒店……
  • 在 12306 上购买火车票……
  • 在美团上点个外卖……
  • 给微信好友发信息打语音电话,总结公众号文章……
  • 小红书自动评论点赞关注……

使用场景

假如你正在做饭、洗漱、洗澡、运动、开车、忙着工作的时候,突然有一个事情要在手机上完成,而你抽不开手,很好的解放你的双手。

比如,看到老板发的朋友圈想点个赞并留个评论,或者在淘宝上重复购买之前买过的某样东西,甚至是预订酒店、购买火车票、叫车、导航这些琐碎的事情?

现在只需要对着你的手说出你想要干的事情,AutoGLM就能帮你全部搞定。

让我们一起来看看它有多神奇吧!

给微信好友发信息

给微信好友朋友圈点赞回复

AutoGLM并不仅限于简单的应用场景,它的目标是“做你在手机上能做的所有事情”。这意味着它可以帮你做任何你想做的手机操作——

从淘宝购物 清空你的购物车

视频播放器

帮你点外卖,而且还可以自己选规格,比如咖啡的大中小杯、甜度、冰的还是热的等

视频播放器

帮你订酒店,而且还能筛选日期、位置、酒店价位、床型等各种复杂选项

AutoGLM 的核心技术创新

从浏览网页到下单购物,再到订酒店、订机票、设置导航无所不能。

这得益于它对手机界面的深刻理解和强大的学习能力。

为了让AutoGLM不断学习,智谱团队研发了“自进化在线课程强化学习框架”,这样AutoGLM可以像人一样,通过不断的学习和实践来变得越来越强大。它不仅能学会新技能,还能自我纠正和改进,保证在实际应用中能越来越好地满足用户的需求。

  1. “任务规划”和“动作执行”解耦
    • 就像分工合作一样,AutoGLM 把“任务规划”(想干什么)和“动作执行”(怎么操作)这两个步骤分开处理,用自然语言作为桥梁。
    • 这样做的好处是:智能体能更精准地执行操作。例如,当它需要在手机上点外卖时,能更准确地点击“提交订单”按钮。
    • 这就像先列一个购物清单,然后按单子去超市找东西。AutoGLM 通过用自然语言作为中间沟通桥梁,将这两个步骤分开进行,让每一步都更准确。
    • 这种设计使得智能体可以像人类一样,通过自然语言理解界面上的按钮、选项等元素。例如,在手机上点外卖时,它能先计划点击哪些按钮,然后精准地执行点击,确保订单被正确提交。
  2. 自我学习和逐步提升的框架
    • AutoGLM 有点像“学得快的小学生”:它在不断挑战自己,从简单到复杂,边学边做,并在过程中改进自己。
    • 每次完成任务后,它能够自我评估并找到下一步需要改进的地方。就像一个学生通过“刷题”不断挑战自己,从简单题目到复杂题目,逐步提升成绩。
    • 通过这个自我改进的机制,在不同的任务和环境中都能保持稳定的表现,比如在淘宝上购物、预定酒店等任务上,都能越来越得心应手。
AutoGLM 解决的关键挑战
  1. 动作执行不够精确
    • 问题: 智能体在操作屏幕时,可能会因为轨迹不准确而误点击,类似于你想点“支付”却点成了“取消”。
    • 解决方法: AutoGLM 使用了解耦设计,把“想做什么”和“怎么做”分开处理。这样它能先想好每一步的操作,再去精准地点击或滑动界面。这让智能体的操作更像人类,减少了错误几率。
  2. 任务规划不够灵活
    • 问题: 面对复杂的任务(比如在一个新网站上查找特定信息),传统的智能体可能会“卡住”,因为它缺乏灵活应对的能力。
    • 解决方法: AutoGLM 使用了一个自进化的学习框架,它在真实环境中边学边做,不断调整策略。就像你第一次用新手机时不太熟练,但用久了就变得越来越快,AutoGLM 也是这样通过不断适应和改进来提升自己。
    • 此外,AutoGLM 还会根据自己的表现调整学习难度,确保在应对复杂任务时依然灵活、准确。
在多种评测基准中表现优异:
  • AndroidLab 评测基准上,AutoGLM 超越了 GPT-4o 和 Claude-3.5-Sonnet,在手机环境中的任务执行表现显著提升。
  • WebArena-Lite 评测基准中,AutoGLM 的任务成功率相对 GPT-4o 提升了约200%,大大缩小了人类与大模型智能体在 GUI 操控上的成功率差距。

目前,AutoGLM的Web能力已经通过“智谱清言”插件对外公开使用,而在手机端,AutoGLM也已开放给部分安卓用户进行内测。如果你是安卓用户,不妨去申请体验,看看AutoGLM会如何让你的手机生活更加便捷有趣!

内测申请:https://chatglm.cn/main/gdetail/6715f75ec8d0a702dff1e4e6?lang=zh

更令人期待的是,智谱还和荣耀等手机厂商展开了合作,未来会有更多手机直接内置AutoGLM,让每个人都可以享受到这种极致的AI体验。

GLM-4-Voice

除了AutoGLM ,智谱AI还发布了GLM-4-Voice,一个新型的情感语音模型,具备高级情感理解和表达能力,是一款端到端的多模态语音模型。

这款模型实现了从文字到语音的无缝转换,不再需要传统的语音转文字再转语音的链式方案,从而减少信息损失与延迟。

视频播放器

GLM-4-Voice 的核心特点包括:

  • 情感表达和共鸣:声音表现自然,可模拟不同的情感(如高兴、悲伤、害怕等)。
  • 调节语速:允许在同一对话中快速或慢速输出语音。
  • 多语言、多方言支持:支持中英文及多种地方方言(如粤语、重庆话、北京话等)。
  • 随时打断和灵活输入:能根据实时用户指令调整语音输出。
  • 视频通话结合:即将支持视频通话,真正实现“能看也能说”的AI助理。

GLM-4-Voice 的技术架构基于12.5Hz音频token建模,通过高效的预训练数据和流式思考架构,实现低延迟、端到端的语音理解和生成。这种设计大大提高了语音对话的流畅性和智能性,支持即时语音合成,最低只需输出20个token即可完成。

同时,GLM-4-Voice 发布即开源

代码仓库:

https://github.com/THUDM/GLM-4-Voice

0

评论区