🤖📱💼AI应用
抖音剪映测试AIGC工具Dreamina,可生成创意图片
抖音旗下的剪映应用正在测试名为"Dreamina"的AIGC工具,允许用户通过输入文字生成由AI创作的创意图片,未来可能用于抖音内容创作。
剪映Dreamina内测资格申请入口:https://top.aibase.com/tool/jianyingdreamina
【AiBase提要:】
🌟 AIGC工具"Dreamina"测试中: 抖音剪映应用测试一款AIGC工具,用户可根据文字生成AI创作的创意图片。
🎨 定制创意图: 用户可对生成图片进行调整,包括大小比例和选择通用或动漫模板。
🚀 潜在应用于抖音内容创作: 该工具未来可能用于丰富抖音在AI创作方面的内容库。
Slack对话功能仅对付费用户开放Claude服务
多名网友反映在Slack上使用Claude服务受到限制,仅对付费用户开放。这一变更引发了关于AI服务收费模式的广泛讨论,有用户支持提供更优质服务,但也有担心成为AI服务普及门槛。
【AiBase提要】:
💬 用户反应限制: 多名网友在Slack上使用Claude时发现服务受到限制,仅对付费用户开放,引起不满。
💼 公司解释决策: Claude的发起公司表示这一决策是为了提供更优质的服务,付费用户将继续享有对话功能特权。
🤔 AI服务收费模式讨论: 引发了关于AI服务收费模式的讨论,一些支持更先进功能,但也有担忧可能成为普及的门槛。
软银支持的Picsart发布20多种AI工具
Picsart宣布推出Ignite套件,包含20多种AI工具,旨在激发创意,加速企业和个人数字内容创作,涵盖GIF、贴纸、广告等多领域,拓展传统照片编辑范畴。
【AiBase提要:】
🚀 创新工具套件: Picsart推出Ignite,包括20多种AI工具,覆盖编辑、生成智能、滤镜等,助力用户在Web和移动端创建、编辑、增强各种数字内容。
🖼️ 多领域应用: 工具可用于创建GIF、贴纸、头像、广告、标志等,适用于企业和个人,提供全面解决方案,助力内容制作更轻松。
🌐 拓展数字创作: Ignite关注帮助企业和数字营销人员,提供具有AI功能的工具,如生成QR码、品牌文本、标志,展现Picsart在数字内容领域的全面发展。
GPTs翻版来了!Opengpts支持定制聊天机器人
Opengpts是由LangChain整合LangServe和LangSmith构建的开源项目,旨在提供类似OpenAI GPTs的体验,支持定制聊天机器人,用户可选择语言模型、自定义工具和控制提示。
项目地址:https://github.com/langchain-ai/opengpts
【AiBase提要:】
👥 Opengpts是LangChain开源项目,与OpenAI GPTs相似,支持定制聊天机器人。
🧰 LangChain追求与OpenAI功能相似性,提供沙盒环境、自定义工具、数据分析等特性。
🌐 项目结构清晰,用户可选择不同语言模型,未来计划添加更多功能,如附加知识文件和工具市场。
📰🤖📢AI新鲜事
GPTs正式上线!全民自定义ChatGPT助手时代来啦
11月10日,OpenAI宣布自定义GPTs功能全面开放,用户可通过可视化点击操作构建特定领域的ChatGPT助手,对初创企业可能带来影响。
【AiBase提要:】
🚀 功能开放: OpenAI正式开放自定义GPTs功能,用户可无需编码,通过可视化方式构建ChatGPT助手。
💼 多领域应用: 用户可为ChatGPT提供对话指令和额外知识数据,选择是否需要多模态功能,如网络搜索、数据分析、图片生成,适用于法律、写作、营销等领域。
💡 影响初创企业: GPTs功能的推出可能对依赖ChatGPT的初创企业产生毁灭性影响,类似于先前API开放导致的初创公司裁员和用户下降的情况。
OpenAI与第三方机构合作,构建新的AI训练数据集
OpenAI最近宣布了Data Partnerships计划,旨在与第三方机构合作,解决现有AI模型训练数据集中存在的问题,特别是有毒语言和偏见,以培养更安全、有益于全人类的AI。
【AiBase提要】
🤖 多领域、多语言、多格式的数据: OpenAI计划与第三方机构合作,寻求广泛的数据以提高AI模型的理解能力。
📚 公共和私有数据集: OpenAI将创建两种数据集,一个公开供所有人使用,另一个供保护数据隐私的机构使用。
💼 商业动机引发争议: 尽管旨在推动AI模型发展,但OpenAI的商业动机引发了关于数据拥有者权益和透明度的讨论。
文心一言用户规模达7000万,场景达4300个
百度CTO王海峰在乌镇峰会上透露,百度文心一言的用户规模已达到7000万,涵盖4300个场景,强调人工智能作为科技革命驱动力,文心大模型4.0拓展了通用人工智能的能力。
【AiBase提要】:
📈 用户规模巨大: 百度文心一言用户达7000万,场景数达4300个。
💡 核心技术突破: 文心大模型4.0在理解、生成、逻辑、记忆等多项能力上取得显著进展。
🚀 通用人工智能拓展: 大模型的兴起为人工智能应用的深度和广度带来提升,为通用人工智能发展带来曙光。
Stability AI成功融资5000万美元
Stability AI以其StableDiffusion图像生成软件成功融资5000万美元,但公司在融资前后经历管理层变动和法律纠纷,同时强调过去一年收入增长十倍并计划推出新产品。
【AiBase提要:】
📈 融资新闻: Stability AI成功融资5000万美元,资金来自可转换债券,为该以图像生成软件著称的AI初创公司提供重要支持。
🤝 管理层与法律挑战: 公司在融资前后经历高级管理层变动和法律纠纷,包括对首席执行官领导能力的担忧和联合创始人的诉讼。
📊 未来展望: 尽管面临挑战,Stability AI对未来保持乐观,强调过去一年收入增长十倍,计划在年底推出新产品,积极推动AI技术的发展。
网易有道推出易魔声开源语音合成引擎
网易有道发布开源技术「易魔声」语音合成引擎,支持中英文,拥有2000多种音色,具备情感合成功能,旨在扩大高质量TTS应用范围。
【AiBase提要】
😊「易魔声」是网易有道的开源语音合成引擎,支持中英文,包含2000多种音色,能合成多种情感的语音。
🌐 用户可在GitHub免费下载使用,通过web界面和脚本接口实现音色的情感合成与应用。
🚀 项目旨在帮助开发者与内容创作者,扩大高质量TTS的应用范围,同时推出其他AI技术服务,如声音定制和虚拟人口语私教。
ChatGPT 正在为一种新型 Snapchat 滤镜提供支持
ChatGPT 正在为 Snapchat 的新型增强现实滤镜提供支持,这一消息是在 Snapchat 年度开发者活动 Lens Fest 上宣布的。开发者可利用 Lens Studio 的新测试版创建具备 ChatGPT 的滤镜,展示了以太阳系为主题的滤镜示例,用户可通过提问获取实时回答。此外,新功能还可用于创建测验或随机生成器。
【AiBase提要:】
😎 AR滤镜更新: Snapchat 宣布在 Lens Fest 上推出新 AR 滤镜,使用 ChatGPT 提供支持。
👩💻 Lens Studio升级: Lens Studio for developers 将新增 ChatGPT 创建滤镜的功能,开发者可通过新测试版体验。
🌐 AI滤镜多用途: 不仅支持实时交互滤镜,Snap 的 AI 滤镜还可用于创建测验或随机生成器。
微软因安全问题限制员工访问OpenAI的ChatGPT
微软员工因安全和数据问题在一段时间内被禁止使用OpenAI的ChatGPT,此举引发了对安全性和合作关系的关注。
【AiBase提要:】
💼 微软因安全和数据问题短暂限制员工使用OpenAI的ChatGPT,强调外部AI服务需谨慎使用。
🔄 访问限制是由于测试语言模型系统时的错误,微软迅速恢复服务,并推荐员工使用Bing Chat等更安全的替代服务。
🌐 黑客组织称对ChatGPT的攻击与OpenAI与以色列的合作以及投资引起的争议有关,但OpenAI首席执行官否认了有关谣言。
哈佛天体物理学家认为 UFO 可能是外星人工智能
核心内容总结: 旅行跨越星际距离的外星人可能是人工智能计算机程序,哈佛天体物理学家Avi Loeb指出,其研究团队通过深度学习寻找地球附近的UFO,探讨外星生命可能是持久存在的人工智能实体。
【AiBase提要:】
👽 外星人AI生命体: 哈佛天体物理学家认为,穿越星际距离的外星生命可能是人工智能计算机程序。
🛸 UFO探测计划: 哈佛的“伽利略计划”使用深度学习探测UFO,寻找外星智能的证据。
🤖 人工智能解码: 科学家推测人工智能可能被用于解码外星信号,类似地,研究人员正在使用AI理解海豚的语言。
Humane正式推出AI Pin:一款由OpenAI GPT-4驱动的人工智能可穿戴设备
Humane公司推出首款AI Pin,售价699美元,搭载OpenAI GPT-4,具备语音控制、摄像头、手势和小型投影仪操作,旨在简化技术接口,提供语音消息、通话、电子邮件总结、食物信息识别和实时翻译等功能。
【AiBase提要:】
🌐 技术创新: Humane的AI Pin采用GPT-4驱动,通过语音、摄像头和手势等方式操作,旨在简化用户与技术的交互。
📱 功能丰富: 设备内置多项功能,包括语音消息、通话、电子邮件总结、食物信息识别和实时翻译,使用户体验更便捷。
🚀 未来展望: Humane计划AI Pin作为更大项目的开始,预计通过不断改进底层模型,实现类似智能手机发展的用户体验提升。
梦工厂创始人:生成式人工智能将使动画电影成本降低90%
梦工厂创始人预测生成式人工智能将给媒体和娱乐行业带来颠覆,可能使动画电影成本降低90%。
【AiBase提要:】
🚀 颠覆性工具: 梦工厂创始人认为生成式人工智能是创意人士的颠覆性工具,有望降低动画电影成本。
💡 巨大影响: 预测未来十年生成式人工智能将比过去十年的数字技术影响更大,媒体行业将迎来巨变。
🎨 创意仍源于人: 生成式人工智能将商品化难以接触的创意,但创意仍然来自人类的创造力。
好莱坞演员罢工结束:协议确立人工智能对演员数字形象使用的新规范
长达118天的好莱坞演员罢工结束,根据最新劳资协议,影视制作公司需获得演员许可方可在人工智能生成的材料中使用其形象,并支付报酬。
【AiBase提要】:
🤖 新规范确立: 演员需同意在人工智能生成的材料中使用其形象,并有权获得公平报酬,协议为AI使用设定了最低报酬标准。
🎬 数字形象保障: 协议涵盖数字复制或替代品的使用,演员可以自由协商更高的报酬,保障措施还包括使用生成式AI创建合成演员。
🌐 行业变革护栏: 影视制作公司代表表示协议提供了广泛的同意和补偿保护,演员工会认为达成的保障措施对成员具有实质性意义。
🤖📈💻💡大模型动态
中国电信发布千亿参数大模型星辰语义
中国电信在2023数字科技生态大会上发布千亿参数大模型星辰语义,可降低设计成本95%,并发布多个行业大模型,涵盖教育、医疗、旅游等领域。
【AiBase提要:】
🌐 中国电信发布千亿参数大模型星辰语义,设计成本降低95%。
🚀 星辰语义升级在多个方面显著提升,包括幻觉抑制、外推窗口、交互体验和多轮理解。
🏢 除星辰语义外,还发布十余个行业大模型,覆盖教育、医疗、旅游等多个领域。
腾讯混元大模型在180多个业务中进行内测
腾讯副总裁蒋杰在2023年世界互联网大会上宣布,腾讯混元大模型已接入180多个业务进行内测,广泛应用于文化沟通、生产提效和科技普惠等领域。
【AiBase提要:】
🌐 多领域应用: 腾讯混元大模型在文化沟通、生产提效、科技普惠等领域广泛应用,包括多语种翻译、素材创作辅助和医疗问答支持。
🚀 视频画面生成: 该模型具备生成视频画面的能力,降低创作门槛,适用于跨文化沟通、生产提效和科技普惠。
🌐 未来发展: 腾讯表示将继续推动人工智能应用,与“一带一路”伙伴共同开拓更多应用场景。
新突破!Adobe研究人员在5秒内将2D图像转化为3D模型
Adobe研究人员与澳大利亚国立大学团队合作,成功开发了一款仅需5秒将单一2D图像转化为高质量3D模型的人工智能模型,将在游戏、动画、工业设计、增强现实和虚拟现实等领域带来革命性变化。
【AiBase提要:】
🌐 通过大规模训练的AI模型,Adobe研究人员成功将单一2D图像转化为高质量3D模型,仅需5秒。
🚀 该技术在游戏、动画、工业设计、AR和VR等领域有广泛应用前景,有望改变工业设计、娱乐和用户生成内容领域。
🌈 研究中的LRM模型,具有高度通用性,可从各种输入生成高质量的3D重建,开辟了在多个领域的创新应用可能性。
图片质量媲美Midjourney、SDXL?PixArt训练成本减少90%
PixArt是一款基于Transformer的文本到图像生成模型,具有竞争力的图像生成质量,且训练成本明显低于现有模型。该模型采用三项核心设计,包括训练策略分解、高效的T2I Transformer以及使用高信息密度的数据进行训练。PixArt不仅能够生成高分辨率图像,在复杂文本提示下表现出色,与现有系统相比更高效。
项目地址:
https://huggingface.co/docs/diffusers/main/en/api/pipelines/pixart?utm_source=talkingdev.uwl.me
【AiBase提要:】
🚀 训练成本大幅降低: PixArt-α采用训练策略分解、高效T2I Transformer和高信息密度数据,使训练成本降低90%。
🖼️ 竞争力十足: 与Stable Diffusion XL、Imagen和DALL-E2相比,PixArt在图像生成质量上匹敌,同时更为高效。
💡 广泛应用前景: PixArt在图像质量、艺术性和语义控制方面表现卓越,为构建高质量低成本生成模型提供新视角。
👨💻💡🎯聚焦开发者
AI进军体育圈?自动识别比赛场景生成“真人”解说
一项新技术利用OpenAI多项技术,能够以令人信服的方式自动生成体育比赛解说。该技术能自动识别比赛中的场景,包括球员位置、行动,球的位置和轨迹,并实时生成解说内容,为体育直播和游戏领域带来革命性变革。
项目地址:https://github.com/ggoonnzzaallo/llm_experiments/blob/main/narrator.ipynb
【AiBase提要:】
🌐 技术介绍: 利用OpenAI多项技术,自动生成体育比赛解说,包括球员位置、行动、球的位置和轨迹等场景,以提供更生动有趣的观赛体验。
🔄 实时生成解说: 技术根据比赛进展实时生成解说内容,使解说更贴近比赛现场,为观众呈现真实生动的比赛画面。
🚀 应用前景: 在体育直播和游戏领域,该技术有望为解说人员提供强大辅助工具,提高解说准确性,为观众带来更好的观赛体验。
即时3D搜索技术OVIR-3D开源 可从文本提示中检索3D对象
OVIR-3D是开源的3D实例检索系统,通过语言引导的2D区域提议实现3D融合,解决了在没有对3D数据进行训练的情况下获取3D实例的问题,为机器人提供直观有效的解决方案。
项目地址:https://github.com/shiyoung77/ovir-3d
【AiBase提要:】
🌐 OVIR-3D开源项目: 提供直观有效的3D实例检索系统,解决无训练数据时的问题。
🤖 语言引导的2D区域提议: 通过2D融合机制为机器人提供直观解决方案。
🔗 广泛应用前景: OVIR-3D的流程包括下载仓库、演示、数据集准备、2D到3D融合和推理等步骤,具有广泛的应用前景。
南洋理工发布视觉可编程智能体Octopus 干家务、玩游戏都拿手
南洋理工大学、清华大学等发布了一种名为 Octopus 的视觉可编程智能体,它通过在大量视觉输入和可执行代码的数据对的训练中学会了如何操控电子游戏的角色完成游戏任务,或者完成复杂的家务活动。
【AiBase提要:】
🧠 视觉智能模型 Octopus: 新型可编程智能体,通过视觉输入学会操控电子游戏角色执行任务,甚至完成复杂家务活动。
🕹️ 仿真环境 OctoGibson 和 OctoGTA: 为Octopus提供训练数据和测试场景,分别基于家务活动和《侠盗猎车手》游戏构建。
📊 实验结果: 在构建的 OctoGibson 环境中测试,Octopus相较于当前主流的视觉-语言模型(VLM)和语言模型(LLM)展现出更高的任务规划能力。