李彦宏说大模型幻觉基本消除了，实测文心一言到底怎么样？

xxzx 前天 1 抢沙发

默认

摘要： 如果你要问我过去这个月对行业而言最大的变化是什么那我的回答一定是大模型基本了幻觉它回答问题的准确性大大地提升了在昨日的世界大会上董事长李彦宏谈及变化时这样说在这背后增强检索技术功不...

...

“如果你要问我，过去这24个月，对行业而言，最大的变化是什么？那我的回答一定是，大模型基本了幻觉，它回答问题的准确性大大地提升了。”在昨日的世界大会上，董事长李彦宏谈及变化时这样说。

在这背后，增强检索（RAG）技术功不可没，大模型会利用检索到的信息来指导文本或的生成，从而极大地提高了内容的质量和准确性。今天，文字层面的RAG已经改善不少，但完全基于大语言模型的文生图系统，生成的图片常常“一眼假”，甚至逻辑不合常理。

说，今年年初，就在整个中文互联网都为Sora而捶胸顿足的时候，决定图像生成的幻觉问题，开发了iRAG（image based RAG），也就是检索增强的文生图技术。该技术通过将搜索的亿级图片资源跟强大的基础模型能力进行结合，可以生成各种超真实的图片。

在演讲中，他例举了大众揽巡汽车飞越长城、爱因斯坦游遍全世界等文生图片来印证，iRAG整体效果远远超过文生图的原生系统，去掉了机器味儿。

文心一言的文生图效果到底怎么样？今日财经记者做了实测发现，部分图片确实有着很高的真实度，有一定创意，但总体仍有不小的改善空间，例如，有些特定人物生成并非本人，比如，而且图片的机器味儿依然存在，尤其在一些细节，比如数字、文字上，几乎都是以乱码居多。

昨天，发布了智能眼镜，记者请画一个苹果CEO库克戴着眼镜的图片，图片呈现了苹果的LOGO，但显然人物并不是库克本人，只是长相相似，图片中所戴眼镜的形状也并不完全相同。

昨天，李彦宏还通过提示词，让爱因斯坦游遍全世界，比如悉尼歌剧院、复活节岛巨石阵、长城、鸟巢等等，形象逼真。但今天记者在让AI画图霍金和爱因斯坦一起在深秋的老北京胡同里遛弯，放大图来看，除了爱因斯坦发型相似，两个人物都并非特定人物本身，而且长有亚洲面孔。

当记者提醒AI这两个人并不是霍金和爱因斯坦本人，请AI重画后，得到的图片仍然并非二人。

当我们把画图的人物对象变成董事长李彦宏，这次AI画得像多了。AI创作了一张“李彦宏在北京大学门口摊煎饼”的图片，人物本身和北京大学的建筑真实度较高，但是放大图后可以看到，建筑上“北京大学”四个字出现了乱码，并非真实的文字。

我们让AI画了一张马斯克在故宫喝豆汁的图片，AI画的人物很像马斯克本人，故宫场景也较为逼真，但放大图来看，马斯克喝的并不是豆汁，碗上的文字也是乱码。

画一张运动员身穿队服在长城上打乒乓球的图片中，无论长城背景还是乒乓球桌，场景的真实还原度很高，但同样，运动员队服的数字呈现是乱码。

我们让AI作图发现，数字、文字乱码的情况出现频率较高，例如这张猫咪观看时刻表的图片中，有正常的数字，但也有乱码；一张坐在公园拿着报纸喝咖啡的图片中，手中的报纸文字也出现了乱码。

有时，AI还不能够准确理解人类的想法，比如当希望它创作一张写实风格的图片，提示词为热闹的街区，一位白裙少女坐着一只巨型猫咪，AI的绘画结果却都为漫画效果，而且少女并没有坐在猫咪上，有的图片是猫咪骑在自行车上，有的是少女和猫咪前后脚走，还有些是少女怀中抱着猫咪。

李彦宏说大模型幻觉基本消除了，实测文心一言到底怎么样？

但是当给出AI更加真实和细节的场景，绘画的效果好了不少。例如“武康大楼的街头，一只巨型猫咪堵在车流拥挤的马路上，猫爪和汽车一样大”，这样超现实主义的作品完成度很高，对于武康大楼等细节还原也不错。

天冷了，让AI给东方明珠织一件彩色毛衣，AI完成度较高。

但相似的提示词换成建筑“水立方”，效果却大打折扣，变成了一位穿着彩色毛衣的男士在水立方前方站立，AI还给水立方织了一件“并不合身”的人类毛衣。

在演讲中，李彦宏提到作为一项基础技术，iRAG在很多领域都有着很好的应用空间。比如，影视作品、漫画作品，连续画本，海报制作等，大幅降低创作成本，“试想一下，如果大众的海报生成的车型长得像丰田，那可就糟心了。”于是，我们让AI生成一张汽车海报，雷军开着小米su7穿越月球，结果显示场景表达较为准确，人物形象相似，但一些图片中汽车和真实的小米su7外形并不相同，小米汽车的LOGO也不够准确。

在创作艺术海报方面，记者让AI画一张《只此青绿》演出海报，要求有水墨风格，AI的绘画基本符合要求，有意境，但放大图片看，其中一张海报的文字出现了乱码。

标签：文生乱码爱因斯坦