通过摄像头“现场解说” 记者实测国内首个C端视频通话AI应用

作者：新京报发布时间：2024-08-30

8月29日晚间，智谱GLM团队推出了新一代基座大模型GLM-4-Plus，同时宣布智谱清言APP迎来了重要更新：视频通话功能。

自OpenAI展示了GPT-4o音视频交互功能后，这是国内首个正式开放同款功能的大模型厂商，该功能目前已经支持内测，新京报贝壳财经记者在拿到内测资格后，第一时间进行了实测。

可准确识别物体、牌子但反应速度还需加快

今年5月，OpenAI展示了接入GPT-4o的ChatGPT语音助手可以识别人类情绪、进行音视频交互的能力。

而本次智谱方面上线的GLM-4-Plus显然有对标GPT-4o的野心，乃至其在进行视频演示时和OpenAI一样，也采取了两男一女三个测试人员在沙发上使用手机和智谱清言APP进行交互的展示方式。

在演示中，测试人员拿出一张纸，画了一个蛇的简笔画，又加上了几只“脚”。AI随即表示这可能表示的是“画蛇添足”这个成语。

贝壳财经记者拿到测试资格后发现，该功能可以通过点击智谱清言APP交互界面右下角的小电话图标，再点击视频通话发起。

开通视频通话功能后，记者的手机就通过摄像头成为了“现场解说员”，例如当摄像头面对客厅，AI立刻说出了“我看到了灰色的瓷砖，这是一个白色的柜子，下面放着很多双鞋。”对准卫生间，AI则立刻识别出了洗衣机，甚至包括牌子，“这是一个西门子洗衣机，滚筒是黑色的，机身是白色的。”

记者发现，该功能特别适合盲人出行，因为当打开智谱清言APP的该功能后举起手机出门，AI就可以描述路上看到的一切事物:“这是一个建筑物的入口（实际为出口），路边有美丽的花，旁边有信箱。”如果手指某一个事物并直接提问，AI也可以给出回答，“你指的是一组绿色储物柜，上面有黄色的标识写着丰巢，是快递存放的地方。”

记者与智谱清言APP视频通话功能的交互截图。

当记者反转摄像头照向自己，AI也给出了评价，“你的头发非常凌乱，好像刚刚起床，你穿着一件粉色的T恤，上面有白色的字。”

不过，记者在测试中也发现了一些不足之处，例如和GTP-4o在测试视频中表现出的“毫秒级”反应相比，该AI的反应速度略慢，在交互中有时需要等待它的回答，而且如果记者打断它的回复，可能会出现重复同一句话的情况，还做不到和真人对话一样自然。

基座大模型升级将通过“小步快走”持续迭代

值得注意的是，对于持续一段时间的视频，智谱的GLM-4V-Plus大模型也能够理解并分析，这说明其具备时间感知能力。如看完一段篮球比赛视频后，询问“绿衣服的球员在做什么，这个视频的精彩时刻发生在第几秒？”AI会给出精确回答“绿衣球员在场上运球投篮，精彩时刻在第4秒，球员跳起并将球投入篮筐。”

此外，GLM-4-Plus使用了大量模型辅助构造高质量合成数据以提升模型性能；利用PPO有效提升模型推理（数学、代码算法题等）表现，更好反映人类偏好。

记者实测发现，相比实时解说周围的环境，智谱清言APP在专业辅助上表现更佳，如可以直接将手机摄像头对准英语文章，让它直接语音翻译内容，或者直接拍摄问卷内容，让它帮助分析题目，辅助学习。

此外，即便在音视频功能里，该AI也呈现出了一定的长文本能力，如当记者将摄像头对准余秋雨的所著的《文化苦旅》中“白发苏州”这一小节的书页时，AI立刻总结出了这一页的内容，“这段文字在赞颂苏州，说它历史悠久，有园林和古建筑，让人感受到宁静和历史的魅力，作者觉得苏州像是中国历史上的散文。”

记者与智谱清言APP视频通话功能的交互截图。

令人惊叹的是，智谱清言APP还有记忆功能，当贝壳财经记者第二次打开音视频通话功能时，其立刻和记者打招呼“下午好，最近有没有想起我们之前聊过的苏州，那个美丽的地方给你留下了怎样的印象？”

智谱方面表示，该模型将上线开放平台，提供国内首个通用视频理解模型API，“通过小步快走持续迭代，清言努力让大模型技术更好赋能更多用户。”

该公司称，随着开源模型和开放平台模型的广受欢迎，将继续推动 AI 力量惠及更多人群，为千行百业带来持续创新与变革，加速迈向通用人工智能时代。