AI手机第一个杀手级应用，是“AI读屏”？

风中摇曳 10-29 5 抢沙发

默认

摘要： 世界足坛近期的热点好像都围绕着打官司这件事儿前有曼城反诉英超的关联方交易成功给不久之后的项财政违规案打响了前哨战后有拉斯迪亚拉状告国际足联胜诉拿到了获赔万欧元的判决书作者山竹出品锌...

世界足坛近期的热点，好像都围绕着打官司这件事儿。前有曼城反诉英超的APT（关联方交易）成功，给不久之后的“115项财政违规案”打响了前哨战；后有拉斯-迪亚拉状告国际足联胜诉，拿到了获赔6万欧元的判决书。

作者 | 山竹

出品 | 锌产业

经过一年多的摇旗呐喊，AI手机终于还是在2024年完成了对智能手机的替代。

至少在概念上，几大主流手机厂商今年在传播口径上都已经陆续完成了向AI手机的转变，就连苹果也高调选择了与OpenAI联姻。

即便如此，对于大多数消费者来说，依然没有弄明白「AI手机」和「智能手机」究竟有何不同。

关于AI手机，我今年看到最多、也是最直接的AI功能是「AI读屏」：

手机搭载的智能体像人类一样识别出手机屏幕上的内容，然后一步一步按人类的思维逻辑完成常见的诸如线上购物、朋友圈点赞评论等功能。

与智能手机中的AI不同的是：

这样的AI有了明显的“思维链”，实现逻辑更为复杂。

与智能手机时代的功能设计逻辑不同的是：

这次，「AI读屏」功能的后台执行逻辑，被手机厂商在手机屏幕上完整呈现了出来。

对于大多数普通消费者来说，人工智能的自动化能力次被具象化，带来的是最直接的视觉冲击。

‍那么，这样的“读屏术”在技术上是如何实现的？

大模型炸场后，微软和谷歌的往来过招，成了这场旷世之争的看点，AI手机的“读屏术”正是在这样的神仙过招中逐渐成形。

2023年2月8日，微软New Bing（Bing AI）发布，这是微软与OpenAI联手后，借生成式AI面向搜索引擎发起的新一轮冲击，New Bing在Ch GPT加持下，曾斩获不小市场热度，也一度把谷歌吓得不轻。

面对被视为Ch GPT版的New Bing，谷歌随后祭出了自己的Bard。

Bard是由谷歌内部早在2021年就已经对外发布、同样是基于Tran ormer架构的LaMDA提供支持，但当时还是一个实验性的聊天机器人。

这是谷歌和微软在生成式AI领域次正面较量，双方的这次较量，让搜索引擎这一互联网老产品，有了一些Ch 新花样。

不过，此时的生成式AI，还没有对端侧造成直接冲击。

真正的冲击，是在微软Copilot发布后。

2023年3月16日，微软对外官宣，正式为Microsoft 365应用加持Copilot服务（Microsoft 365 Copilot），在将生成式AI叠加到办公软件后，真正的内容生成魔力开始成为生产力工具的一部分。

大模型由此也在企业办公软件领域形成了一股潮流，开启了抢滩登陆模式。

就谷歌和微软两大科技巨头而言，为了做出生成式AI技术模式下的杀手级应用，他们动用了生态力量——分别将Windows生态和安卓生态面向大模型打开。

这之后，二者的大模型之争开始下沉到端侧。

经过大概半年试错和打磨后，谷歌和微软分别在端侧拿出了自己的“关键作品”：

谷歌是在2023年10月发布的pixel 8系列手机上增一个名为Circle to Search的功能。

有了这一功能，只要你对着手机屏幕上的图片圈出你想了解的产品，谷歌AI就可以自动搜索出这一产品的相关信息和出处。

这一功能后来也被三星拿去作为Galaxy AI的主打功能，对外宣传推广。

实际上，在这一功能出现之前谷歌对Bard进行过一次升级，更新后的Bard可以从 ail、Do 、谷歌地图、YouTube等应用中总结信息，也是在那时，个人本地知识库开始被谷歌用于深度检索（也就是RAG），并由此衍生出为用户提供出行建议、日程安排等功能的个人助理。

Circle to Search自然是承袭了这一能力。

微软则是在2024年5月20日AI PC发布会上官宣发布了Recall功能。

这一功能是通过微软Copilot，帮助用户根据记忆点或时间线来跳回到此前某个时间点电脑上显示的原始内容。

实际上，除了这两位AI大佬外，当初为了拿下苹果的大模型订单并获得新一轮融资，OpenAI发布了GPT-4o，并秀了一波视觉识别的功能。

通过手机摄像头，让GPT-4o解写在纸上的数学题，甚至识别出现在镜头前用户的情绪。