越来越像人了
作为人造的智能,AI人工智能拥有着人类难以企及的强大智慧量和信息处理能力,而现在,人类正在赋予其更多的“感官”,让它越来越“像”人了。
就在最近,OpenAI宣布将为ChatGPT加上语音功能,相当于给人工智能加上了“嘴”,而此前OpenAI已经为ChatGPT加上了图片识别的“眼睛”,将在10月正式上线,面向付费的Plus和企业版用户。
不仅如此,最近已经有研究团队正在努力以AI模型为基础,让机器拥有比肩甚至超越人类的嗅觉。
人工智能拥有“视、听、嗅”这样的感官究竟有什么必要,今天笔者就和大家一同探究。
“眼”应该是人工智能较早拥有的人类感官。
研究者从很早就开始让机器能够学会“看”,其原理也非常简单,就是用大量的数据进行“投喂”。通过标注区分每张照片、视频中的结构、模型、色彩等信息,由计算机形成对图片内容的数字信息概念,进而完成区分。也就有了“计算机视觉”。
(图源:小米)
现有的计算机视觉在日常生活中应用已经很多,尤其在大家的智能手机当中,在拍照时无论是人像模式的主体抠像、背景虚化,还是美颜相机等一众强大算法,都离不开计算机视觉。
这次ChatGPT加入的“眼睛”则更进一步,直接整合了另一家文生图大模型DALL·E 3,拥有图片搜索功能,类似谷歌Lens,只要上传照片,ChatGPT就可以发现照片中的问题,并且提供相应的回应。
(图源:OpenAI)
而在文生图部分,DALL·E 3相比同为AI画图应用的Midjourney,在语义理解、关键词处理等方面也都更加强大,尤其改善了很多大模型对提示词断章取义的问题,“刘德华为什么很少演反派”触发水军关键词的类似问题以后应该会少很多(笑)。
相比于“看”,“听”对人工智能来说要更简单不少。
在很早之前,互联网公司们就已经开始积极布局“智能语音助手”了。现如今,诸如苹果Siri、小米小爱同学、百度小度等等都已经有了相对成熟的应用。
但传统的“智能语音助手”现在也只能做一些诸如开关灯、播报天气这样的简单应用,一些复杂的操作还需要人工介入或者依赖预设的自动化选项。
而这次ChatGPT加上语音功能则能够支持以5个“角色”视角来进行回答,相比传统语音助手,语气更接近真人,并且在ChatGPT庞大的语言模型支撑下,能够回答更长的问题或执行更复杂的操作。
(图源:公众号 小米公司)
国内厂商也在布局,在去年5月20日当天,小米以自家小爱同学音箱为主角,举办了一场特殊的“脱口秀”,这就是小米所做的“情感对话”功能。
其准确把握到了当代社会人普遍存在的心理情感问题,并以一个“感情陪伴者”“倾听者”的角度给予一定的陪伴和安慰。
此后,“智能语音助手”将可能被大模型更多改造,以适应情感陪伴、个性化对话等更具象化的需求。
在2013年愚人节期间,谷歌上线了一个愚人项目Google Nose,用户只需要在谷歌搜索框内输入关键词,然后点击“闻一闻”,就能在电脑旁闻到相应的味道,比如新车的气味、早餐培根的香味等等。
(图源:《复仇者联盟3》)
这当然是一个愚人节玩笑(当然,如果你想闻电脑烧糊的味道的话,那还是有机会的,笑),不过现在正在有人试图将这个项目落地。
今年9月初的《科学》杂志刊登了一篇由初创公司Osmo(从谷歌分拆)和莫奈尔化学感官中心(Monell Chemical Senses Center)等多个研究团队共同发布的论文,其中称,AI模型可以让机器拥有比人类更好的“嗅觉”。
相比于图片、语音、文字这样已经可数字化记录和呈现的内容,目前还没有一个量化的指标能够采集归纳出“气味”。
(图源:品玩)
实验人员通过模拟人类嗅觉系统对于特定气味分子的识别传递过程,搭建了一套“消息传递神经网络”机器学习的模型,随后引入了一个包含约5000个分子的香精香料数据库,最终得出了一套嗅觉高维图谱。最终其对气味的识别准确率还要高过人类气味专家。
而这样一套让人工智能能够“闻”到味道的系统,可能有着大家想象之外的巨大意义。
回望人类利用嗅觉的主要场景,除了品味食物等日常场景,能够最先想到的就是“警犬”——由于犬类比人发达数十倍的嗅觉系统,往往被训练用作扫毒、排爆这样的执法场景。而让机器拥有嗅觉就能够让生物远离潜在的威胁。
另一方面,早年笔者还曾看过,由于犬类发达的嗅觉,能够对人类癌症等病灶有明显的感知,而由机器来“闻”则更加具象化且易于诊断,是医疗诊断的新发展路径。
同时,这对于香水行业、餐饮业、环保业都有可能的帮助。
各位读者觉得,让机器、人工智能拥有人类的“五感”是有意义的吗?欢迎在评论区留下你的看法。
本文作者:Visssom,观点仅代表个人,题图源:pixabay
欢迎关注微信公众号:镁客网(im2maker),更多干货在等你!