AI视野：多模态ChatGPT即将上线；抖音“AI美式证件照”走红；

作者：站长之家发布时间：2023-09-26

📰🤖📢AI新鲜事

多模态ChatGPT即将上线会看图、听声音、说话

OpenAI在美东时间9月25日宣布对ChatGPT进行重磅升级，实现了看图、听声音、输出语音内容的三大功能，为通用人工智能（AGI）迈出重要一步。

AiBase提要:

📸 ChatGPT实现多模态功能，支持看图、听声音、说话

🗣️ 新语音功能能生成人类音频，图片理解功能提供多种应用

🔐 OpenAI重视安全，逐步推出功能，防范风险

🌐 Spotify和Be My Eyes已经使用新功能，拓宽应用领域

DeepMind研究:LLMs在图像和音频压缩方面出色表现

Google旗下的DeepMind研究人员发现，大型语言模型（LLMs）除了在文本领域表现出色，还在图像和音频数据的压缩方面具备出色能力，超越了专用的压缩算法如PNG和FLAC。

AiBase提要:

🔍 研究人员发现LLMs不仅在文本上表现出色，还在图像和音频压缩上取得显著成功。

💡 这项研究将LLMs视为强大的数据压缩器，提供了新的理解模型能力的视角。

📈 LLMs的性能与数据集大小相关，压缩率成为评估模型学习数据集信息的指标。

SambaNova发布全新AI芯片SN40L，可运行5万亿参数模型

SambaNova发布了一款新型AI芯片SN40L，支持运行高达5万亿参数的大模型，提升模型质量和推理速度，降低总体拥有成本。

AiBase提要

☑️ SambaNova的新AI芯片SN40L支持单节点上运行5万亿参数模型，大大提升了模型质量和推理速度。

☑️ SN40L采用先进设计，同时支持HBM和DRAM内存，算法可以根据需要选择合适的内存类型。

☑️ SN40L集成到SambaNova的全栈大语言模型平台，帮助客户训练和部署大模型如GPT-4。

SK电讯宣布AI金字塔战略，力争成为全球AI巨头

SK电讯宣布AI金字塔战略，加速创新与投资，重点聚焦AI基础设施、转型和服务，力争成为全球AI巨头。

AiBase提要:

SK电讯未来5年AI相关投资将从12%大幅提升至33%

AI基础设施包括数据中心、AI芯片和多语言模型，是SK电讯AI能力的集中体现

SK电讯正式推出个人AI助手A.，并计划带入全球市场

Snap 与微软合作在其「My AI」聊天机器人对话中投放广告

Snapchat 与微软合作，将在其 AI 产品 My AI 中插入广告。这个合作意味着用户与 AI 聊天机器人对话时，可能会收到与他们的查询相关的赞助商链接建议。这个广告形式类似于与对话相关的 Sponsored Links，而微软的广告业务正取得新的进展，与其他科技公司竞争合作伙伴。Snapchat 表示这一功能还处于早期实验阶段，但他们计划与更多合作伙伴合作，以增强 My AI。

🤖 AiBase提要:

1. Snapchat 与微软合作，为 My AI 聊天机器人插入广告，提供用户相关的赞助商链接建议。

2. 微软的广告业务取得进展，与超过7500个合作伙伴品牌合作，在 AI 聊天机器人中插入广告。

3. Snap 表示这一功能仍在早期实验阶段，计划与更多合作伙伴合作，以增强 My AI。

哈佛研究发现GPT-4使得企业员工绩效提升了40%

哈佛大学领导的研究发现，使用生成式人工智能的波士顿咨询集团顾问的任务完成质量、速度和频率均有显著提升，相较不使用AI的同行，提高了40%的绩效。

AiBase提要

👥研究发现GPT-4使波士顿咨询集团顾问的绩效提高了40%

🔍这是首次大规模研究企业中生成式AI的实际应用效果

🤖部分顾问采用“Cyborg”和“Centaur”方式使用AI，为未来应用提供启示

抖音网友用AI生成各国版蜘蛛侠获赞6.7万

一位抖音网友使用AI软件生成不同国家风格的蜘蛛侠形象，获得了大量好评和点赞。这些蜘蛛侠形象充满了各国的特色和代表性元素，例如中国风格的武侠风、冰岛冰霜气息、牙买加的红黄绿经典三色以及沙特的富裕感。目前，该系列作品已获得6.7万点赞。

AiBase提要:

⛹️‍♂️ 一位抖音网友使用AI软件生成不同国家风格的蜘蛛侠形象。

👍这些蜘蛛侠形象融入了各国的文化特色，获得了6.7万的点赞。

🔥 AI软件生成热门IP形象成为获得更高曝光的趋势。

抖音上线“亚运加油盲盒”AI特效

抖音官方在杭州亚运会期间推出了“亚运加油盲盒”AI特效，可以给用户照片添加卡通化的亚运造型，已有超过147万人使用。

AiBase提要:

🏀 亚运加油盲盒AI特效可以为用户照片生成卡通化的亚运造型，衣服可变为运动装

🔥 特效可能使用了ControlNet等技术来分析人物动作和体态

🎨 本届亚运还展示了多项AI技术应用，如修复老照片、数字人点燃火炬等

抖音“AI美式证件照”走红相关话题播放量过亿

AI生成的证件照模板越来越受欢迎，抖音上AI美式证件照话题播放量过亿，但部分网友认为生成效果不太像。

AiBase提要:

🔥 AI证件照走红，抖音相关话题播放过亿

🔥 剪映AI美式证件照受欢迎，但部分网友认为生成效果不像

🔥 相比抖音，AI写真软件生成效果更好，门槛更高

富士通推出新技术保护对话型AI免受幻觉和对抗性攻击

富士通推出两项新技术可检测对话型AI中的幻觉和网络钓鱼网址，以提高对话型AI的可靠性和安全性。

AiBase提要:

💡 富士通推出技术可检测对话AI回复中的幻觉，提高检测准确率约22%。

💡 富士通开发技术可检测对话AI中植入的网络钓鱼网址，防止用户受到欺骗。

💡 两项新技术将集成到富士通AI平台，有助保护企业用户免受各种威胁。

DeepMind利用无监督学习开发AlphaMissense，预测7100万种基因突变

DeepMind开发AlphaMissense，利用AlphaFold模型预测蛋白质结构，再结合无监督学习对7100万种基因错义突变进行预测，在多个数据集上的预测正确率达90%以上。

论文地址:https://www.science.org/doi/10.1126/science.adg7492

AiBase提要

☝️ 利用AlphaFold分析蛋白质结构，基于此开发AlphaMissense模型

☝️ 训练数据集包括已知的良性和预测的致病错义突变

☝️ 在多个数据集上表现优异，总体预测正确率达90%以上

💻💡🎯聚焦开发者

Rerender A Video源代码放出!解决AI视频闪烁问题

Rerender A Video项目通过零训练的文本引导视频到视频翻译框架，实现了低成本的时间一致性，解决了AI视频闪烁问题。

项目地址:https://github.com/williamyang1991/Rerender_A_Video

AiBase提要:

❤️ 通过交叉帧约束实现时间一致性

🔥 无需训练即可应用于各类视频翻译任务

💡 支持结合现有图像生成模型进行自定义翻译

高效开源LLM框架Haystack 助力打造高效应用程序

Haystack是一个端到端的自然语言处理框架，能够帮助构建由大型语言模型、Transformer模型、向量搜索等驱动的应用程序。

项目地址:https://github.com/deepset-ai/haystack

AiBase提要

📋 Haystack的核心功能包括流水线、节点、代理、工具和文档存储。

🔎 Haystack支持多种文档存储，包括ElasticSearch、Opensearch、Weaviate等。

💡 Haystack可以帮助使用最先进的NLP模型构建端到端的NLP应用程序。

万能AI编程工具包插件Sidekick 提供个性化编程帮助

文章介绍了微软开发的万能AI编程工具包插件Sidekick，通过GPT-4引擎提供支持，根据用户编程习惯提供个性化编程帮助，提高编程效率。

体验地址:

https://marketplace.visualstudio.com/items?itemName=InvisibleTools.sidekickai&%3Butm_source=9527ai&utm_source=talkingdev.uwl.me

AiBase 提要:

Sidekick AI能根据用户编程需求提供个性化编程帮助

Sidekick AI具有快速聊天、代码附加等功能帮助开发

Sidekick AI通过GPT-4提高编码效率，重新定义AI编程工具

EmoPP模型开源:一款基于情感感知的韵律短语生成模型

EmoPP-Demo是一款基于情感感知的韵律短语生成模型，通过预测短语分隔符来提升端到端文本转语音的自然度和情感表达能力，开源代码在GitHub。

地址:https://ai-s2-lab.github.io/EmoPP/

AiBase提要:

📝 EmoPP-Demo可以自动识别话语中的情感线索，并生成韵律短语分隔符。

📐 经过评估，EmoPP-Demo在情感表达方面表现出色，优于基线模型。

🔊 EmoPP-Demo提供语音演示，验证其在人类感知中的优越性。

🤖📱💼AI应用

Getty Images与Nvidia合作开发生成式AI图片工具

图片库巨头Getty Images与芯片制造商Nvidia宣布合作，共同开发生成式AI图片工具，这引发了有关创作者应获取创作权的争议，将推动思考AI如何影响文化创意产业。

AiBase提要:

📷 Getty推出基于自有图库训练的生成AI，为AI艺术品提供版权保障

🎨 该技术为艺术家提供新的创作工具，也带来创作灵感和资源

🚨 合作引发版权和创作者权益保护等争议，需要找到平衡

Spotify 将使用 OpenAI 人工智能技术克隆播客声音

Spotify正在测试使用OpenAI的语音生成技术，让播客主持人用自己的声音模拟不同语言版本，以方便触达其他语言区的听众。

AiBase提要:

☁️ Spotify与部分播客主持人合作，用AI技术把他们的英语内容翻译成其他语言。

🔊 Spotify表示该技术来自OpenAI，可以保留播客独特的语音特征。

🌎 这种新技术被称为“语音翻译”，已在西班牙推出，其他语言版本也将陆续推出。

🤖📈💻💡大模型动态

百度智能云发布交通行业大模型“ACE3.0”

百度智能云在全球可持续交通高峰论坛上，发布了基于大模型重构的智能交通解决方案ACE3.0，利用大模型的知识压缩能力，实现对交通行业的AI原生重构。

AiBase提要:

💡百度表示，ACE3.0利用大模型强大的知识压缩能力，将车、路、云、图的基本能力进行了聚合和泛化升级，打造交通大模型。

💡模型层即交通行业大模型，基于语言、视觉和跨模态大模型构成;应用层则包含智慧网联、智慧交管等智能交通场景。

💡百度智能交通已联合140多家生态伙伴，为200多个城市提供智能交通服务。未来还将依托行业大模型，继续推动交通智能化。

什么值得买开发大模型

值得买表示，大数据和大模型是公司非常关注的领域，公司已经在该领域加大了投入。在大数据层面，目前随着公司逐步沉淀来自于消费内容业务板块和营销服务业务板块等的更多数据资源，已形成一个能够涵盖人、货、场等多种维度的底层数据体系。

AiBase提要

📈 公司关注大数据和大模型领域，加大投入

💼 积累多维度数据资源，包括人、货、场

🚀 开发“值得买消费内容大模型”和应用产品探索

聆心智能开源定制角色对话交互模型CharacterGLM-6B

聆心智能发布了CharacterGLM-6B模型，用于定制化角色对话。该模型基于ChatGLM模型，有6B、12B和66B三个不同参数量的版本。聆心智能将开放12B和66B模型的API访问，并开源CharacterGLM-6B模型，以促进AI角色扮演和AI在心理学中的应用。性能评估结果显示，CharacterGLM在大多数类别和话题下表现优于竞争对手，并提供了不同类别角色的对话交互效果示例。

开源地址:

https://huggingface.co/LingxinAI/CharacterGLM-6b

API调用地址:

CharacterGLM API: https://bigmodel.cn/dev/api#characterglm

AiBase提要

🔥 聆心智能发布CharacterGLM-6B，定制角色对话交互模型

💡 基于ChatGLM模型，包括6B、12B和66B版本

🚀 开源CharacterGLM-6B，推动AI角色扮演和心理学应用

AI视野：多模态ChatGPT即将上线；抖音“AI美式证件照”走红；

推荐体验

相关资讯

复古美式换脸写真！mj海马体证件照教程

【简单好用】证件照制作APP，快速制作证件照

抖音“AI证件照”特效爆火，排队生图需等1750分钟| AI一周热门

爆红AI证件照制作项目 HivisionIDPhotos 本地搭建教程分享

ChatGPT大更新！能看能听也能说，多模态功能即将上线

近期资讯

华为音频年货节教你挑选一款最适合自己的华为耳机

影视飓风2024年度相机颁奖：iPhone 16 Pro Max获最佳手机视频

半导体存储新高度，longsys江波龙引领品牌企业创新

荣耀首席影像工程师罗巍：手机拍照只有 2 家友商可比

快科技2024年度评奖：主板篇

三部门：鼓励企业探索智能研发新应用开发“人工智能+”研发设计软件

安徽迪诺取得连续酸解固相物连续溶解装置专利，保证固相物在一级溶解槽充分溶解

投影仪连接方式详解：HDMI、VGA与无线连接的使用指南

家电新选择，海尔滚筒洗衣机EG100MATE29S：补贴下的性价比之王

影视大全投屏电视的详细步骤与注意事项分享

推荐体验

AIGC重要产品

AI对话：类ChatGPT产品体验

好用的AI绘画工具

火热的AIGC产品

AIGC近期要闻

大公司发布的大模型产品都有哪些？

政府对AIGC的扶持政策

AIGC对就业的影响：我们会失业吗？

AIGC产业影响

AIGC对内容创作的影响

AIGC对绘画设计领域的影响

AIGC对各行各业的影响