AI创投周报｜多家顶尖公司狂卷多模态模型，OpenAI又投了一家编程助手公司

作者：阿尔法公社发布时间：2024-01-04

AI创投周报是阿尔法公社推出的聚焦于以生成式AI为代表的人工智能新浪潮的创投资讯周报。阿尔法公社希望发现和投资非凡创业者（AlphaFounders），相信非凡创业者们在技术、商业和社会方面的巨大推动力，他们指引着创投生态的风向。

本图由Pixeling（千象）生成

本周，我们观察到以下AI领域的新动向和新趋势：

1.多家顶尖公司狂卷多模态大模型，继OpenAI推出GPT-4V后，百度推出了文心大模型4.0版本，它具有多模态能力；Transformer一作Ashish Vaswani带领团队推出Fuyu-8B多模态大模型，并已开源。

2.英伟达H800/A800禁售，摩尔线程、壁仞被列入实体名单。这是美国商务部工业和安全局（BIS）对此前的对华出口管制规定进行的更新。

3.OpenAI又投了一家编程助手公司，这家叫Anysphere的公司已经达到100万美元ARR的里程碑，它获得OpenAI创业基金、GitHub前首席执行官Nat Friedman和Dropbox联合创始人Arash Ferdowsi投资的800万美元种子轮投资。

人工智能产品和技术的新突破

1.“不逊色GPT-4”，百度最强多模态大模型发布，10多款原生应用上线

百度在世界大会上发布了文心大模型4.0版本，百度创始人李彦宏宣称其综合水平与GPT-4相当。新版文心一言在多个测试中展现出了出色的中文理解和生成能力，如解数学题、写武侠小说等。

与GPT-4的对比测试中，文心大模型在中文理解、网络段子识别等方面表现出色。此外，文心大模型4.0在多模态生成、逻辑推理和记忆能力上也有显著进步。

李彦宏强调了AI原生应用的四大能力：“理解、生成、逻辑、记忆”。文心大模型4.0已经被广泛应用于搜索、办公、营销等领域，并且已经有多款AI原生应用上线，如百度网盘、如流等。

百度还推出了AI原生应用开发平台，为开发者提供了丰富的工具和资源。此外，百度还在汽车领域进行了尝试，推出了基于Apollo智舱大模型的极越01，使语音成为车内的主要交互形式。

2.Transformer一作来卷多模态！学术图表也能看懂

近期，Transformer一作携团队推出了一个规模为80亿参数的多模态大模型Fuyu-8B，并已开源，模型权重在Hugging Face上可以看到。该模型具有出色的图像理解能力，能够解析照片、图表、PDF和界面UI等。

例如，它能从复杂的食物网中分析生物之间的关系，或从连线图中找到相关的演员信息。Fuyu-8B的处理速度极快，能在100毫秒内返回大图像处理结果。其架构简单，仅为纯解码器Transformer，不使用图像编码器，允许处理任意大小的图像。

此模型来自创业公司Adept，由Transformer一作Ashish Vaswani及其他业内顶尖人士共同创立。Adept的目标是创建一个AI Copilot，能理解用户屏幕上的内容，并辅助完成任务。Fuyu-8B的推出，不仅标志着图像理解的新高度，也为AI技术的未来应用提供了新的方向。

3.对标马斯克的X，前IG创始人打造新闻「神器」，用生成AI整治「标题党」

Instagram联合创始人Kevin Systrom和Mike Krieger创立了Artifact，这是一个AI驱动的新闻聚合应用。除了以往的新闻应用具有的AI兴趣推荐功能外，它还主打「由最新人工智能驱动的个性化新闻提要」，这一功能由OpenAI的GPT-4来支持，它可以为户生成文章摘要，并重新撰写标题以对抗「标题党」。

此外，Artifact具有社交属性，用户可以点赞、评论、分享和转发内容，它还提供了文本转语音功能，允许用户收听新闻。

他的创始人Kevin Systrom在一次公开对话中表示:"我们之所以创造Artifact，部分原因是看到了AI带来的潜力。在社交网络中，AI现在决定了你看到了什么，这不仅仅是关于你关注了谁，还关于你的兴趣。这对我来说真的很令人兴奋，我们在TikTok上看到了这一点。”

Systrom的目标是创建一个应用程序，其中新闻标题不仅仅是为了应对某种算法而被创建和分享的，而是因为它们实际上是有趣且有用的信息。

4.OpenAI的DALL・E 3论文公布、上线ChatGPT

OpenAI近期发布了DALL・E 3相关的论文，与前代DALL・E 2的最大不同之处在于，DALL・E 3可以利用ChatGPT生成提示，然后根据该提示生成图像，这大大提高了其使用效率。DALL・E 3生成的图像质量也更高，能与当前最流行的文生图应用Midjourney相媲美。

OpenAI的一份22页的论文中详细描述了其技术改进。其中，DALL・E模型能力的提升主要来自于详尽的图像文本描述，使用了T5文本编码器，并利用GPT-4完善用户的提示。此外，DALL・E 3已正式上线ChatGPT，供Plus和Enterprise用户使用。

5.美芯片禁令升级：英伟达H800/A800禁售，摩尔线程、壁仞被列入实体名单

美国商务部近日宣布，计划在未来几周内阻止向中国出售更先进的人工智能芯片。此次，美国商务部工业和安全局（BIS）对2022年10月发布的对华出口管制规定进行了更新，重点限制了先进计算半导体、半导体制造设备和超级计算机项目的出口。

此前，禁令主要针对英伟达H100，但现在，英伟达的H800和A800也被纳入限制范围。此外，新的禁令还将摩尔线程和壁仞两大国产GPU显卡厂商列入“实体清单”。新规定将在公开通知30天后正式生效。

此次新规导致英伟达、AMD和英特尔等公司股价大跌。据悉，英伟达在数据中心芯片方面的收入中，有高达25%来自中国市场。

6.谷歌CMU最新研究：大语言模型击败扩散模型！视频图像生成双SOTA

谷歌与CMU的研究团队在最新研究中展示了大语言模型在视频和图像生成上的出色表现，首次在ImageNet基准上超越了扩散模型。

尽管大语言模型在文本、音频和代码生成等领域已有卓越表现，但在视觉生成方面，其一直落后于扩散模型。研究者认为，这是因为缺乏有效的视觉表示。为解决这一问题，研究团队提出了新的视觉tokenizer，并设计了无查找量化和图像-视频联合tokenizer等技术。

这些创新使得大语言模型在视频/图像生成、视频压缩和动作识别等任务上均取得了前所未有的成绩。此项研究的一作是北大校友于力军，他目前在CMU进行研究，并且是谷歌的学生研究员。

7.自动驾驶数据不用愁！港中文等发布MagicDrive：日夜、雨晴、多视角全覆盖

香港中文大学、香港科技大学和华为诺亚方舟实验室的研究团队联合推出了基于Diffusion的3D自动驾驶数据生成方法MagicDrive。

这一方法能够细粒度生成高保真、多相机街景，并可随意变换天气、光照和人物位置，为自动驾驶领域提供了丰富的数据资源。

MagicDrive结合了Diffusion Model的优势，通过多种3D几何条件的细粒度控制，实现了高质量的街景图像生成。此外，MagicDrive还提出了cross-view attention模块，确保从多个视角观察时，前景和背景的一致性。这种方法不仅解决了街景生成中的3D几何控制问题，还为3D自动驾驶提供了高质量的训练数据，推动了自动驾驶的感知技术创新。

8.英伟达爆火智能体研究：AI逼真还原人类情感，会饿会孤独，会跑步会发火

英伟达与华盛顿大学等机构提出的“Humanoid Agents”表现出与人类相似的行为特点，如感到疲劳时需要休息，孤独时寻找陪伴，愤怒时选择跑步或冥想来发泄。

与以往的智能体模拟不同，Humanoid Agents更加贴近人类的真实需求和情感，能够真实反映人类的情感和人际关系中的微妙距离感。

其受到系统1思维和系统2思维的指导，其中系统1思维响应具体条件，如基本需求，而系统2思维涉及明确的规划。此外，智能体还会遵循马斯洛的需求理论，如感到孤独时会寻求社交，没有足够休息时会感到疲劳。智能体之间的关系亲密度也会影响它们的互动方式。为了更好地模仿人类，研究者使智能体能够根据彼此之间的距离调整对话。

9.AI读脑成真，延迟仅0.25秒，Meta里程碑新研究：MEG实时解码大脑图像，LeCun转赞

Meta AI近期公布了一项重要研究，成功利用脑电信号将人类大脑活动解码并可视化。这一技术突破使得AI能够实时解码大脑中的图像感知。

此研究由FAIR-Paris与巴黎文理大学及巴黎高师合作完成，主要利用脑磁图（MEG）信号重建视觉和语音输入。Meta使用了非侵入性的脑磁图技术，每秒对大脑活动进行数千次扫描，并开发了一个AI系统，几乎实时地解码大脑中的视觉表征。

这一技术不仅能帮助科学家更深入地了解图像在大脑中的表示方式，还有望在临床环境中作为非侵入性的脑机接口，帮助脑损伤患者与外界沟通。此外，研究还发现，自监督学习使AI系统能够学习类似大脑的表征方式，其中的人工神经元会像大脑的物理神经元一样被激活，响应相同的图像。

10.7B羊驼战胜540B“谷歌版GPT”，MIT用博弈论调教大模型，无需训练就能完成

MIT基于博弈论提出了一种新的大模型优化策略，使得7B参数的Llama在多个数据集上超越了540B的“谷歌版GPT”PaLM，且整个优化过程无需额外训练，算力消耗更低。

这种策略被称为均衡排名（Equilibrium Ranking），将大模型语言解码过程转化为正则化不完全信息博弈。在博弈中，模型不断优化生成的答案，使其更接近事实。研究者设计了生成器和判别器两个模块，它们在博弈中扮演不同角色，争取达到纳什均衡。为确保答案的合理性，研究团队还引入了正则化纠错机制，包括基于客观事实的先验策略和KL惩罚策略。

经过这样的优化，7B的Llama在多个任务中表现出色，部分能力甚至超越了“谷歌版GPT”。

11.微软斯坦福新算法，杜绝AI灭绝人类风险！GPT-4自我迭代，过程可控可解释

微软与斯坦福的研究团队提出了名为STOP的系统，旨在通过迭代优化算法，让GPT-4能够自我改进输出代码，而不改变模型权重和结构。这种方法旨在解决AI自我进化可能带来的风险，如模型输出的不可预测性和可能对人类产生的威胁。

STOP系统的核心是「递归自我完善」，即让语言模型递归地自我改进代码生成。研究人员从一个简单的优化器程序开始，使用语言模型进行代码改进，并不断重复此过程。经过多次迭代，GPT-4能够提出创新的代码自我改进策略。

此外，为了评估改进的优化器，研究人员定义了一个「元效用」目标。实验结果显示，自我改进的优化器在多个任务上表现出色，且具有良好的迁移能力。这一研究为AI的安全和可控性提供了新的思路，有望避免未来AI系统的不受控风险。

12.OpenAI新模型研发遇挫，稀疏性是大模型降本的钥匙吗？

据外媒消息，OpenAI在大模型的研发上遭遇了挫折。当ChatGPT成为焦点时，OpenAI开始研究一个新的AI模型，名为Arrakis，旨在降低聊天机器人的运行成本。

但到了2023年中，OpenAI决定取消Arrakis的发布，因为其运行效率并未达到预期。这次的失败导致OpenAI失去了时间，并需要将资源转移到其他模型的开发上。

Arrakis的研发对于OpenAI与微软的合作关系尤为重要，其失败也让微软的高层感到失望。Arrakis模型的关键在于利用稀疏性，这是一个被多家AI公司研究的概念。但OpenAI在Arrakis的研发中发现，稀疏性可以降低成本，但可能会影响模型的准确性。尽管如此，OpenAI仍然可以将在Arrakis上的研究成果应用到其他模型中。随着技术成本的上升和开源替代方案的出现，降低模型的成本和提高效率已成为OpenAI的首要任务。

人工智能初创公司的新融资

1.自动化数据管理平台Cleanlab获Databricks Ventures参投的2500万A轮融资

官方网站：cleanlab.ai

自动化数据管理平台cleanlab近日获得由Menlo Ventures和TQ Ventures共同领投的2500万美元A轮融资，现有投资者Bain Capital Ventures和新投资者Databricks Ventures参投。本轮融资使Cleanlab的融资总额达到3000万美元。

数据错误（例如训练集中的错误标记示例）会降低AI模型性能，数据集级别的问题（如重叠）也会降低模型性能，这可能会误导数据科学家选择劣质模型进行部署。据统计，仅美国的不良数据导致的损失就超过3万亿美元。

Cleanlab开发了首个能可靠地自动添加智能元数据的企业解决方案，它通过提供框架来帮助数据科学家和ML工程师完成80%的工作。Cleanlab能查找和修复示例级、类级和数据集级问题处理混乱的现实世界数据，并核查和跟踪整体数据集质量，由此为机器学习管道提供清洁数据，提高了基于人工智能决策的可靠性和企业的利润率。

超过10%的500强公司（包括AWS、摩根大通、Google、Oracle）以及各种创新型公司（ByteDance、HuggingFace和Databricks）都使用Cleanlab来查找和处理大规模的结构化和非结构化数据（视频、文本和表格数据集）。

Cleanlab的三位联合创始人Curtis Northcutt（CEO）、Anish Athalye 和 Jonas Mueller都是MIT的博士，其中Curtis Northcutt在Facebook、google、微软、MIT有广泛的研究和AI从业经历，并曾经联合创立了AI公司ChipBrain。

2.Anysphere获得OpenAI创业基金和GitHub前CEO Nat Friedman的800万美元投资

官方网站：anysphere.co

近日，人工智能工具助手开发公司Anysphere获得了OpenAI创业基金、GitHub前首席执行官Nat Friedman和Dropbox联合创始人Arash Ferdowsi投资的800万美元种子轮投资。这使Anysphere的融资总额达到了1100万美元。目前其ARR也已经突破100万美元。

Anysphere开发的AI编程助手类工具Cursor可以通过问答的方式直接定位文档整体中代码的位置。同时，Cursor拥有编辑现有代码的功能，只需输入要求，便可自动添加相应的代码或注解。Cursor也可以在简单的指令下编写底层逻辑，致力于让专业的使用者更专注于其他重要事务。

Anysphere使用了GPT-4作为基础模型（所以它也获得了OpenAI创业基金的加持），Anysphere的联合创始人兼CEO Michael Truell说：“在未来几年里，我们的使命是让编程变得更快、更有趣、更有创造力。”

Anysphere由Michael Truell（CEO）和Sualeh Asiftweets、Aman Rsanger联合创立，他们都毕业于MIT，Sualeh Asiftweets曾在IBM Watson从事翻译工作，并在Pakistani math camps教授奥数并代表巴基斯坦参赛。Aman Rsanger曾在Google和Bridgewater工作，并经营过小型的人工智能咨询公司。

3.从数据层面保证大模型的安全性，Deasie获得Y Combinator参投的290万美金种子轮融资

官方网站：deasie.com

数据治理平台提供商Deasie获得Y Combinator、General Catalyst、RTP Global、Rebel Fund和J12 Ventures参投的290万美元种子轮融资。

许多可能影响大语言模型的问题都与其训练数据集有关，如果人工智能的训练数据集包含信用卡号码，可能会被欺骗而泄露这些号码。如果训练数据集包含与大语言模型的目标用例无关的记录，则该模型可能会产生不相关的答案。Deasie对于这个问题提出了自己的解决方案。

它的平台连接到公司的数据源，根据语义将所有数据（例如文档、报告或 Slack 消息）分成更小的部分，并标记每条数据的内容和敏感性。它还可以通过扫描公司计划纳入模型训练数据集的文件以获取敏感信息。这些文件被删除后，Deasie按相关性对剩余记录进行排名，以帮助开发人员确保仅使用高质量数据进行AI训练。

Deasie的创始人Reece Griffiths，Mikko Peiponen和Leo Platzer之前曾在麦肯锡共同构建数据治理工具。在麦肯锡期间，他们表示，他们观察到围绕企业数据治理的“重大问题”和机遇，以及这些问题可能影响公司采用生成式人工智能能力的具体方式。

4.将AI用于开发脂质纳米颗粒的Mana.bio获NFX、a16z的1950万美元种子轮融资

官方网站：www.mana.bio

Mana.bio近日完成了由NFX、a16z、Base4 Ventures和LionBird领投的1950万美元种子轮融资。这家公司结合了AI、化学和生物学，开发了一个平台，旨在创造新型的脂质纳米颗粒（LNPs），以实现可编程的药物递送。这种脂质纳米颗粒技术正是使COVID-19疫苗成为可能的递送机制。

Mana的策略集中于三个主题：速度公式、证明你的平台以及弥合技术与生物之间的鸿沟。Mana找到了一个强大且可重复的成功公式：他们找到了快速发展的新技术、一个巨大但可定义的问题，并拥有一个独特的优势，使他们能够独特地解决这个问题。他们的AI引擎可以设计这些脂质纳米颗粒，将RNA治疗送达到人体以前无法到达的区域。

Mana的团队具有跨学科背景，结合了生物学和技术专长。它的创始团队包括：Roy Nevo（CTO）、Avi Schroeder（科学联合创始人）、Yogev Debbi（CEO）和Kira Radinsky（科学联合创始人）。

5.金融领域人工智能软件Kodex AI获Signals VC领投的170万美元融资

官方网站：www.kodex-ai.com

近日，专为金融行业提供人工智能解决方案的初创公司Kodex AI获得170万美元种子轮融资，本轮融资由Signals VC领投，德意志银行以及前DeepMind数据科学家Karl Moritz Hermann、思爱普董事会成员Sabine Bendiek、Allianz Services董事会成员Verena Rappel等天使投资人参与投资。

作为德意志银行“常驻企业家”（Entrepreneur in Residence）项目的一部分，Kodex AI联合创始人Thomas Kaiser和Claus Lang与德意志银行的团队合作开发了一套为金融服务专业人士的特定需求量身定制的系统，它可用于从财务文档中提取和分析数据。与一般的人工智能模型相比，这套系统的分析更加精准深入，而且能够对表格等可视元素进行解释。这使金融服务专业人士能够找到正确的信息并更快地做出决策。

Kodex AI由Thomas Kaiser（CEO）和Claus Lang（CTO）联合创立。Thomas Kaiser曾经是波士顿咨询的战略顾问，毕业于法国高等商学院，Claus Lang曾任HERE Technologies软件开发者，也曾是Thomas Kaiser在波士顿咨询的同事。

6.法律技术工具平台Nexus AI获得了150万美元的种子轮融资

韩国法律技术创业公司Nexus AI获得由Primer Sazze Partners和Hana Ventures投资的150万美元种子轮融资。

韩国的律师费较昂贵，让普通人不敢轻易打官司，Nexus AI想利用生成式AI将高昂的法律咨询服务费用降下来。Nexus AI与韩国大律师事务所之一的法人大陆亚州签订了法律AI开发协议,还作为Naver“HyperClover X”的AI联盟合作伙伴活动。

他们的法律AI基于韩国自有的大模型Hyperclova X打造，其主要功能包括判例搜索，以及基于法律文件的摘要，乃至于判决结果预测。

Nexus AI的创始人李在元（Lee Jae-won）是连续创业者，他于2000年共同创立的电信软件公司Telcoware在香港交易所上市，他还与现在的联合创始人姜敏旭（Kang Min-wook）共同创立过Incross公司，也在KOSDAQ上市。

本文由阿尔法公社综合自多个信息源，并在ChatGPT的辅助下写作，封面图片由Hidream.ai的Pixeling（千象）生成。

关于阿尔法公社

AI创投周报｜多家顶尖公司狂卷多模态模型，OpenAI又投了一家编程助手公司

人工智能产品和技术的新突破

人工智能初创公司的新融资

推荐体验

相关资讯

蓝驰创投、西湖科创投等联手投了一家AIGC公司

微软又投了一家大模型公司，“法国版OpenAI”刚刚发布新模型，对标GPT-4

智谱出手，投了一家清华系大模型公司

高瓴蓝驰携手，投了一家具身智能公司

OpenAI买了一家游戏公司

近期资讯

以餐饮SaaS为例，想清5个问题，销售不讲“功能”，成交概率更高

NewCo弱爆了，美国Biotech开始流行“专利权”融资

译体验｜Qualtrics：2025 全球消费者体验趋势报告

产品人成长路径指南

技术转产品拿7个offer，复盘发现因为做好了这3件事！

TORA-ONE人形机器人：工业制造智能化关键性破局力量

给孩子喝感冒冲剂，能预防呼吸道传染病？

你 VS 数据分析高手，最大的差异竟是……

户外和滑雪的圈，今年冬天中产不想挤了

抖音中长视频，风继续吹

推荐体验

AIGC重要产品

AI对话：类ChatGPT产品体验

好用的AI绘画工具

火热的AIGC产品

AIGC近期要闻

大公司发布的大模型产品都有哪些？

政府对AIGC的扶持政策

AIGC对就业的影响：我们会失业吗？

AIGC产业影响

AIGC对内容创作的影响

AIGC对绘画设计领域的影响

AIGC对各行各业的影响