这里是“AI新榜”的月更栏目:AIGC月刊。每月更新,以下是我们梳理汇总的2024年7月AIGC行业趋势、AI热点要闻、新上线的AI工具和AIGC热门应用案例。希望能带给你一些启发和思考,也欢迎在评论区和我们交流你的所思所想。
7月是小模型狂飙的一月,继HuggingFace推出小模型SmoILM、OpenAI发布GPT-4o mini以来,多家科技巨头下场发布小模型,将AI圈的视野引导到了小模型的方向。
首先是在GPT-4o mini发布当天,法国最强AI公司Mistral和英伟达联手发布12B参数模型Mistral Nemo,在性能上击败了Gemma 2 9B和Llama 3 8B;随后,苹果官宣并开源7B模型DCLM,模型分数和Mistral-7B-v0.3、Gemma 8B的大致相当;紧接着,Salesforce发布xLAM 1.35B和7B大型动作模型,能够满足不同参数需求下的应用场景;再到Meta本轮更新Llama3.1大模型时,也同步端出了新版本的8B和70B参数模型。
这波小模型竞争潮在市场看来有以下三点原因:第一是相比大模型,小模型更有性价比,能花费更少的数据、训练时间和训练成本;第二是小模型的好用程度能够媲美大模型,一个微调优化过的小模型,能在知识密度上将一众大模型甩在身后;第三是小模型适用于更多的应用场景,专注于特定领域的小模型更易于出现,能够更好满足不同场景下的需求。
不过需要承认的是,由于规模限制,小模型在一些复杂任务的能力上还无法与大模型较量。这意味着AI未来的发展,关键在于找到模型参数、性能和具体场景间的平衡,让不同规模的模型在适配的场景下更好发挥价值。
SmoILM项目地址:https://huggingface.co/blog/smollm
DCLM开源地址:https://github.com/mlfoundations/dclm
Mistral Nemo基础模型:https://huggingface.co/mistralai/Mistral-Nemo-Base-2407
7月初,在内置Llama的智能眼镜Ray-Ban Meta销量破百万之际,Solos发布了全球首款集成GPT-4o的智能眼镜——Solos AirGo Vision。这款眼镜可在摄像头上搭载GPT-4o,根据视觉输入提供实时信息,识别物体,以及为用户导航。
Solos AirGo Vision
不仅是Solos,随着AI的迅猛发展,许多厂商越来越注重设备互联,正在从可穿戴的AI设备中获益。7月10日,三星发布智能魔戒Galaxy Ring,重量不足3g,戴在手指上几乎无感,却内置了数个传感器,具备睡眠监测、健身监测和心率预警三大功能。
三星“智能魔戒”
近日,有消息称,罗永浩新公司细红线将在今年9月推出两款AI硬件,一款为AI耳机,一款为AI原生硬件。其中,AI原生硬件由电池单元、指纹识别、Wi-Fi、麦克风和蓝牙模块组成,用户可通过触摸指纹识别区来输入语音指令。
从目前的应用情况来看,AI耳机、智能眼镜、智能手环是搭载AI技术的三大主流可穿戴产品。在AI技术的加持下,可穿戴产品最明显的变化是交互能力的提升,比如即时问答、同声传译、健康监测等。但是,软硬件适配是这个赛道的核心关注点,研究出适配AI的配套元器件仍是可穿戴设备的一大技术挑战。
7月4日至7月7日,世界人工智能大会(WAIC)在上海世博中心和世博展览馆举办。本届大会展览面积超5.2万平方米,500余家企业确认参展,展品数量已超1500项,会议涉及大模型、数据、算力、具身智能、智慧工业、自动驾驶等重点议题。其中,本届大会有两大核心看点:“百模大战”和具身智能(人形机器人)。
7月6日,快手宣布可灵AI网页端正式上线,所有功能限时免费(需自行申请)。“文生视频”开放最长10秒生成能力,“图生视频”新增运镜控制、自定义首尾帧等功能。同时,除了AI生成视频外,可灵AI还覆盖AI舞王、AI情感视频、AI小说转漫画、AI头像壁纸等功能。7月24日,可灵AI宣布基础模型再次升级,全面开放内测,并正式上线会员体系。
体验地址:https://kling.kuaishou.com/
近日,法国开源实验室Kyutai发布全新多模态大模型Moshi,功能与GPT-4o相当,能模拟70种不同的情绪和风格。它可以聆听和生成音频和语音,同时保持文本思维的无缝流动。目前,团队计划发布技术报告和开放模型版本,以促进广泛采用和创新。
体验地址:https://moshi.chat/
7月12日,路透社报道称OpenAl内部正在进行一个代号为“草莓(Strawberry)”的项目研究,该研究前身是Q*。知情人士透露,该项目旨在让OpenAI的AI模型不仅能生成查询答案,还具备提前规划能力,从而能自主、可靠地浏览互联网,进行OpenAl所称的“深度研究”。
7月12日,世界首位AI选美大赛“Miss AI”冠军诞生。来自摩洛哥的AI美女蕾莉(Kenza Layli)凭借美貌、精通7国语言、在Ins上高达19.4万粉丝等优势,成功夺下冠军。法国选手拉丽娜和葡萄牙选手奥利维亚·C则分列第二和第三位。据悉,此次比赛吸引了全球超过1500名AI角色的参与, 评审团则由2名真人和2名AI评审组成。
相关阅读:《人类发起AI选美比赛,还让AI做评委,结果被网友骂惨了!》
7月19日,OpenAI发布新模型GPT-4o mini,更小、更快、更强,价格更便宜,并直接取代GPT-3.5 Turbo作为ChatGPT入门级模型。GPT-4o mini具有128K token的上下文窗口,截至2023年10月,在API中支持文本和视觉,很快也将支持文本、图像、视频和音频输入和输出。目前,GPT-4o mini已面向ChatGPT免费、Plus和Team用户开放,企业用户也在之后一周开始获得访问权限。
相关阅读:《9.11和9.9哪个大?OpenAI刚官宣的GPT-4o mini竟然也翻车了》
抖音集团方对此回应称,豆包是基于公开搜索结果呈现作品及概述,不存在盗用信息行为。番茄小说对于已经签署补充协议、或签约条款中包含AI条款的作者,已开放相关通道,将协助作者尽快解除相关AI条款约定。
7月25日,OpenAI宣布邀请部分用户测试AI搜索引擎SearchGPT,并计划在未来接入到ChatGPT中。据介绍,SearchGPT搜索引擎基于GPT-4系列AI模型,目前处于“原型”阶段,初期计划仅邀请1万名用户测试。
近日,一支“奥运8分钟”短片《永不失色的她》(To the Greatness of HER)受到关注。阿里云和国际奥委会携手,用AI修复技术为百年奥运史上女运动员们的历史照片和视频进行了上色和基于生成技术的补全。
此外,巴黎奥运会是史上首次广泛应用AI技术的奥运会。据了解,14个场馆部署了阿里云AI增强技术,可以在直播信号中迅速制作高自由度回放画面,这在过去需要十多个小时才能生成。
7月30日,清华系LLM公司生数科技全面开放Vidu文/图生视频两项功能,生成视频时长可选择4s/8s,分辨率最高可达1080P。此次新增了角色一致性、动漫风格、文字与特效画面生成等功能,在角色一致性和画面稳定性上都有了明显提升。新用户注册即可获赠每月80积分,无需排队。
体验地址:https://www.vidu.studio/
7月1日,腾讯旗下大模型应用“腾讯元宝”上线AI深度搜索。在深度搜索模式下,腾讯元宝将对问题进行扩展和联想,可同步生成内容大纲、思维导图及相关人物事件梳理,帮助用户全景式了解搜索内容。基于多轮对话能力,用户还可在深度搜索模式下,对问题进一步追问。
7月2日,Runway发布旗下文生视频模型Gen-3 Alpha,并面向所有用户开放使用。与前一代相比,Gen-3在时间控制的精确度、人物角色的真实感以及对多场景切换的语义理解方面均有显著提升,能够生成更加流畅和动幅更大的视频内容。
体验地址:https://app.runwayml.com/login
相关阅读:《Gen-3全面开放!实测结果惊艳众人,一夜之间文生视频王者宝座易主Runway》
7月4日,商汤发布首个面向C端用户的可控人物视频生成大模型Vimi,目前已在商汤科技官网开放预约。Vimi可生成长达1分钟的单镜头人物视频。用户只需上传不同角度的高清人物图片,即可自动生成数字分身和不同风格的写真视频。
针对喜爱自拍的用户,Vimi可支持聊天、唱歌、舞动等多种娱乐互动场景;对于表情包爱好者,Vimi通过单张图片即可驱动生成各种趣味的人物表情包。此外,Vimi还提供唯美写真风、奇幻风等多种生成风格。
体验地址:https://www.sensetime.com/cn/product-detail?categoryId=51134571&gioNav=1
7月6日,阿里达摩院推出了一站式AI视频创作平台“寻光”,集成了剧本创作、分镜设计、视频素材编辑等功能,创作者可以在该平台上完成从构思到成品的视频创作全过程。
内测申请地址:https://xunguang.damo-vision.com/
近日,快手可灵大模型团队开源了名为LivePortrait的可控人像视频生成框架,该项目能够准确、实时地将驱动视频的表情、姿态迁移到静态或动态人像视频上。目前,该项目在GitHub上已获得8.9K星标,并吸引了HuggingFace首席战略官Thomas Wolf亲身体验,一跃成为HuggingFace的趋势榜首。
体验地址:https://huggingface.co/spaces/KwaiVGI/LivePortrait
近日,百度上线了一款名为“文小言”的AI数字人社交APP。该产品基于文心大模型的技术打造,是一款与AI虚拟角色进行实时沟通、互动并建立情感连接的仿真人AI社交应用。用户可以通过手写、语音和发送图片等方式与AI数字人进行互动,数字人在回复时,除了在聊天界面内以语音、文字等方式进行展示外,还会像真人一样,通过嘴唇,耸肩、身体抖动等肢体语言进行回应。
7月10日,夸克宣布升级“超级搜索框”,正式发布AI搜索功能,支持AI问答、AI协作、文件总结、视频总结和拍题讲解等功能。
相关阅读:《含AI量爆表,夸克AI搜索有哪些隐藏玩法?》
近日,一款名为“Vozo Rewrite & Redub”(简称Vozo)的AI工具火了,上线即登Product Hunt榜首。其中,工具名中的Rewrite意为“重写”,Redub意为“重新配音”。Vozo的核心特色是能够根据提示词,重新生成视频脚本,并能够通过克隆原说话人声音,为视频生成新的配音,外加同步口型。
相关阅读:《连续3天蝉联Product Hunt榜首,AI一键“魔改”短视频工具Vozo什么来路》
体验地址:https://www.vozo.ai/
继4月更新运动笔刷后,7月24日,Pixverse上线V2模型,采用Diffusion+Transformer(DiT)基础架构,支持直接生成长达8秒的视频,可以一次性生成1~5个视频片段,并保证风格、主体和场景的一致性。
相关阅读:《一次性生成5个8秒视频,用AI做抖音短视频不是梦?》
体验地址:https://pixverse.ai/
7月26日,智谱AI宣布对视频生成模型进行全新升级,并正式推出新一代产品CogVideoX,仅需30秒即可完成6秒视频的生成。目前,CogVideoX模型已在智谱清言的PC 端、移动应用端以及小程序端正式上线,需申请内测体验。
体验地址:https://chatglm.cn/video
最近,国外一位Home Assistant用户把GPT-4V连接到了家里各处的摄像头,利用AI全方位照看自己的生活起居,在X上收获了超百万阅读量。在该网友发布的视频中,他不仅利用GPT-4V找到了消失已久的家门钥匙和UGG雪地靴,还利用GPT-4V回顾和总结了自己每次惹怒老婆的原因所在,简直就像雇了一个“私人保姆”。
不过有网友在评论区表示,比起找鞋子和找钥匙这类鸡毛蒜皮的小事,该做法真正的创新或许是它能区分窃贼和客人,并在发现非法闯入迹象时立即报警。
近日,腾讯元宝上线《长相思》AI角色互动体验,让观众能和小夭、涂山璟等剧中角色对话。其中,相柳一角的热度可谓断层式领先,目前热度已破9200万。
为了提高可玩性,腾讯元宝在角色对话之外,还提供了剧情互动、角色COS等功能。比如点进“小夭初吻”名场面,用户就能化身涂山璟,和小夭并肩坐在沙滩上,让小夭感受自己的真心。如果用户不满足剧情走向,还能跳出原有剧情,让角色给用户更个性化的陪伴。只能说,在AI时代,追星的玩法又多了一个。
最近,AI“复活”老照片的视频在抖音、快手、小红书、视频号等内容平台上走红,比如抖音#ai修复老照片#话题相关视频的播放量已超过9950万。这些视频通过利用AI技术,将模糊的黑白老照片生成为彩色且动态的画面,给人以强烈的视觉冲击,让过去的时光一下子变得鲜活生动。
相关阅读:《花50块用AI修复老照片火爆全网,免费保姆级教程来了》
7月13日,国内首部AIGC原创奇幻微短剧《山海奇镜之劈波斩浪》上线快手。这部短剧以《山海经》为创作灵感,讲述了一位少年为救母亲历经劫难,最终与上古神兽展开殊死搏斗的冒险故事,由快手可灵和AI影视制作人兼导演陈坤合作打造。截至目前,《山海奇镜》(包括预告片在内)仅在快手的播放量已突破3400万。
相关阅读:《<山海奇镜>全网刷屏背后:一个传统影视人要做一家AI原生公司 | AI新榜对话》
南京智联达科技 2024-12-16
筱晓光子 2024-12-16