当前位置:首页|资讯|百度|文心一言

百度文心一言陷套皮质疑:核心原因或是中文训练数据不足

作者:雷递发布时间:2023-03-23

原标题:百度文心一言陷套皮质疑:核心原因或是中文训练数据不足

雷递网 雷建平 3月23日

近期,百度文心一言进入了测试阶段,不过,也陷入了套皮的质疑。

比如,有网友称生成一幅总线和狗的图片,总线是BUS,这可能是百度先翻译,再调用的海外开源内容。

百度回应称,注意到对文心一言文生图功能的相关反馈。回应说明如下:

1、文心一言完全是百度自研的大语言模型,文生图能力来自文心跨模态大模型ERNIE-ViLG。

2、在大模型训练中,我们使用的是全球互联网公开数据,符合行业惯例。大家也会从接下来文生图能力的快速调优迭代,看到百度的自研实力。

文心一言在回应是否为“套皮”时,称作为一个人工智能语言模型,文心一言没有自己的数据源。文心一言的训练数据来自多种来源:

1,文心一言是百度全新一代知识增强大语言模型,利用了飞桨深度学习平台和文心知识增强技术,持续从海量数据和大规模知识中融合学习,具备知识增强、检索增强和对话增强的技术特色。

2,在使用过程中,也会不断地抓取网络上最新的内容,更新到系统里面。

百度称,文心一言在大家的使用过程中不断学习和成长,请大家给自研技术和产品一点信心和时间,不传谣信谣,希望文心一言能够给大家带来更多欢乐。

上周,百度也在北京总部召开发布会,邀请测试主题围绕新一代大语言模型、生成式AI产品文心一言。

百度创始人、董事长兼首席执行官李彦宏并展示了文心一言在文学创作、商业文案创作、数理推算、中文理解、多模态生成五个使用场景中的综合能力。

目前,文心一言依然逊色于Open AI旗下Chat-4,也逊色于Midjourney V5,比如,由Midjourney V5画的一对中国情侣在网上引起轩然大波。

这个图片给人感觉是拿相机拍的真人,即便放大去看也是这样,但却是AI合成的,现实中并没有这对情侣。但Midjourney V5这种过于真实的图片,不如文心一言凭借种种搞笑的图片出圈,吸引社会广泛的关注。

比如,AI作画的《唐伯虎点秋香》,一只胖胖的老虎,在秋天里面点着香,喜感十足,这种画面其实也挺有创意。

AI作画

当问文心一言:春江水暖鸭先知时,文心一言可以回答出正首诗:

竹外桃花三两枝,春江水暖鸭先知。

蒌蒿满地芦芽短,正是河豚欲上时。

而根据春江水暖鸭先知做一幅画,还真能画出一幅古香古色的画作来,不得不说,胜过很多初学画画的人。

这是文心一言画出的两个活泼可爱的孩子,妥妥的中国风。

一位业内人士指出,文心一言主要还是中文训练数据不足的问题:“因为目前开源的图文数据大部分是英文的,可参考laion这个开源数据库,所以目前diffusion model基本都是英文驱动,这导致了怪异现象;当然我们期待同等规模的中文开源数据库的出现;stable diffusion是一种网络结构,开发者完全可以使用laion数据集和sd结构训练一个自己的网络,无需要套皮”。

聊天正在重塑人们搜索的方式,这会是一个重要的流量入口。

文心一言已展示部分商业化潜能,API接口调用价格初定是0.012元/1000tokens,结算汉字约1元=83000汉字。文生图暂时还没公布价格。

一位创业者说,这就是以后AI世界的水费,电费,这些基础设施的钱可能会赚到手软。“电通了以后,到底是用来照明,还是取暖,应用层的机会太多,这个层面就不能落下了。”

后续随着文心一言的不断演化,也会有更大进展,外界还是要给予文心一言更多发展的时间。

———————————————

雷递由媒体人雷建平创办,若转载请写明来源。


Copyright © 2024 aigcdaily.cn  北京智识时代科技有限公司  版权所有  京ICP备2023006237号-1