AI创投周报是阿尔法公社推出的聚焦于以生成式AI为代表的人工智能新浪潮的创投资讯周报。阿尔法公社发现和投资非凡创业者(Alpha Founders),相信非凡创业者们在技术、商业和社会方面的巨大推动力,他们指引着创投生态的风向。
本图由“千象”(网址:www.hidreamai.com)生成
本周,我们观察到以下AI领域的新动向和新趋势:
1.Anthropic发布Claude 3全新模型家族,其中能力最强的Claude 3 Opus在推理、数学、编码、多语言理解及视觉方面超越了GPT-4,重新定义了行业标准。
2.Inflection发布全新模型Inflection-2.5,这个模型不仅在能力上媲美GPT-4,而且其训练所需计算量仅为后者的40%。相比普通大模型,Inflection-2.5还具有出色的情感处理能力和创意思维。
3.企业级AI助手公司Glean获2亿美元D轮融资,估值超过22亿美元。它打造基于AI的企业搜索与知识管理平台。
1.全球最强大模型一夜易主,GPT-4被Claude 3全面超越
Anthropic最新发布Claude 3模型家族,它包含三个型号:小杯Haiku、中杯Sonnet及大杯Opus,其尺寸最大的Claude 3 Opus在推理、数学、编码、多语言理解及视觉方面全面超越了GPT-4,重新定义了行业标准。
Claude 3不仅在数学类评测中用0-shot超越了GPT-4的4-8 shot,还提供了高达200k的上下文窗口和接受超过100万token输入的能力。此外,Anthropic还开放了Opus和Sonnet的API访问,让开发者可以立即利用这些模型的强大能力。
在响应时间上,Claude 3实现了大幅缩短,提供近乎实时的交互体验。不同型号的Claude 3分别针对不同的使用场景和需求进行了优化,从高速度低成本的小杯Haiku到高智能水平的大杯Opus,为用户提供了广泛的选择。
2.Claude 3:人工智能在科学研究中的新突破
近日,Claude 3引发了广泛关注,其在化学、物理学和语言学领域的表现尤为突出。化学博士发现,Claude 3仅用两小时便解决了一项原本需要一年实验的研究问题,并且提出的方案更为简洁、成本更低。
量子物理学博士也发现,Claude 3能够从零开始发明出其论文中的算法。此外,对于小众语言切尔克斯语的研究,Claude 3使用极少量的数据就能进行完美翻译并分析语法和形态结构。
Claude 3的这些表现不仅展现了其对复杂科学主题深入的理解能力,更令人震撼的是其成本效率极高,仅需5美分即可给出解决方案。在化学领域的实际案例中,Claude 3能够详细阐述界面聚合等技术的改进方案,甚至能够提出与专业论文相匹配甚至更优化的研究方法。量子物理学博士Kevin Fischer更是直言,Claude 3是全世界唯一能够理解其论文的存在。
除了科学研究,Claude 3在语言学方面的应用同样令人瞩目。它不仅能够破译罕见语言,还能处理复杂的语法结构,其翻译能力远超现有的语言模型。
Claude 3的表现预示着人工智能在科学研究领域的巨大潜力,同时也提出了对当前教育体系的挑战。一方面,Claude 3的成功案例为科研工作提供了新的工具和可能性,极大地降低了研究成本并加速了科学发现的过程;另一方面,它也引发了对于人工智能将如何重塑教育和科研领域的深入思考。
3.Inflection-2.5模型以40%的训练成本达到媲美GPT-4的能力
Inflection最新发布的Inflection-2.5模型不仅在模型能力上媲美GPT-4,其训练所需计算量仅为后者的40%。
Inflection-2.5凭借出色的性能在多项基准测试中表现优异,尤其在STEM领域进步最为显著。在匈牙利数学和物理GRE考试中,其成绩达到了所有参考群体的95百分位水平,在BIG-Bench-Hard测试中也仅比GPT-4低0.9%。值得一提的是,该团队发现并修正了MT-Bench基准测试中近25%的错误问题,为模型评估提供更合理的数据集。
目前,Inflection拥有百万日活跃用户,用户粘性极高。用户不仅可以与Pi探讨时事、获取本地信息,还能备考、编程、商务写作等。有用户称赞Pi具有出色的情感处理能力和创意思维。
4.大视频模型是世界模型?DeepMind/UC伯克利华人一作:预测下一帧就能改变世界
DeepMind、UC伯克利和MIT的研究人员提出,通过采用大语言模型的思路来构建大视频模型,可以解决语言模型不擅长的问题,进而更接近于真正理解我们所处的这个世界。这种大视频模型的概念,有望像世界模型一样,通过预测下一帧的方式来理解和模拟物理世界。
研究人员认为,视频作为一种统一的接口,能够吸收互联网上的知识并代表不同的任务。例如,经典的计算机视觉任务可以被重新定义为下一帧生成任务。通过生成操作视频来回答问题,例如“如何制作寿司”,可能提供比文本响应更直观的答案。此外,视频生成可以作为一个统一的视觉执行计划,为不同的机器人服务,也可以用作复杂游戏的真实模拟器,与基于模型的规划相结合,或用于创造游戏。
预测下一帧的能力不仅可以改变物理世界的决策制定方式,而且还具有挑战现有AI技术边界的潜力。视频生成的能力扩展到了优化科学和工程领域的控制输入,在这些领域可以收集大量视频数据,但底层物理动力学很难明确表达。
该研究表明,视频可以作为一个强大的媒介,不仅能够传达视觉和空间信息,还能描绘物理和动力学的细节以及行为和动作信息。与文本相比,视频提供了一种更加直观和详细的方式来表示这些信息,能够更全面地反映物理世界的复杂性。
5.Stable Diffusion 3技术报告出炉:揭露Sora同款架构细节
Stable Diffusion 3(SD3)的技术报告近日发布,报告详细介绍了SD3采用的多模态Diffusion Transformer架构(MMDiT),这一架构能够分别对图像和文本使用两组独立的权重,从而实现在图像生成过程中对文本的高效理解和渲染。与先前版本相比,MMDiT架构显著提升了性能,使SD3在文本到图像的转换中,无论是视觉保真度还是文本对齐度都有所提高。
SD3的架构由两个独立的Transformer组成,一个处理图像,另一个处理文本,通过连接它们的序列来进行注意力操作,使得两种模式的信息能够在模型内自由流动,增强了模型对输入文本的理解和输出图像的质量。此外,报告还提到了SD3结合了Rectified Flow(RF)技术,这一技术通过优化生成路径,减少了生成过程所需的步骤数,同时保持了图像的高质量输出。
报告中还进行了规模化研究,通过不同大小和训练步数的模型来验证性能提升,结果显示,随着模型规模的增大和训练步数的增加,模型的验证损失逐渐减小,即模型的性能不断提升。
最后,技术报告还探讨了文本编码器的作用,尤其是T5编码器对生成带有文本图像的重要性,尽管移除T5编码器可以显著降低内存需求,但会导致性能的轻微下降,因此建议保留T5编码器以维持优秀的文字渲染能力。
6.单图0.5秒生成3D模型!Stability AI&华人团队出品
Stability AI与华人团队VAST合作推出的3D生成模型TripoSR,实现了通过单张图片在0.5秒内生成完整几何结构和清晰材质纹理的3D模型。
TripoSR的创新之处在于将图像到3D模型的生成过程视作一种跨维度的语言翻译任务,利用Transformer架构和三平面(triplane)技术,实现了二维图像到三维模型的高效转换。这一技术基于Adobe在2023年提出的LRM算法,通过在超过百万级别的公开三维数据集上训练,显示出对任意用户输入的广泛适应性和超高的运行效率。
尽管LRM未公开代码和模型且训练成本高昂,TripoSR却实现了高质量的开源实现,显著提升了从有限训练数据中泛化的能力并增强了3D重建的保真度。TripoSR不仅在学术界和工业界引起了热潮,也填补了开源界缺失的快速、强大泛化能力的3D生成模型和框架空白。此外,VAST AI Research作为Tripo AI背后的3D研究机构,已经开源了多个3D生成模型,显示了其在3D生成领域的实力和贡献。
7.DeepMind携Mamba华人作者推Transformer革命之作!推理能效大幅碾压Llama 2
谷歌DeepMind与Mamba的作者Albert Gu最近推出了两种新的架构,Hawk和Griffin,这两种架构在各项基准测试中超越了Transformer。这两种新架构结合了门控线性RNN与局部注意力,展示出了在高效训练和推理速度方面的显著优势,并成功扩展到14B规模。
Griffin模型,尤其值得关注,它在使用仅1/6的训练数据量情况下,就能与同等参数量的Llama 2相媲美,甚至在某些情况下超越。这表明线性RNN的外推能力可以远远超出它们训练的序列长度,同时保留了Transformer在合成任务上的许多功能,如从长上下文中复制和检索token。
DeepMind的这一突破不仅展示了RNN与局部注意力结合的巨大潜力,也可能对AI领域的未来发展方向产生深远影响。尽管Transformer目前仍然称霸AI领域,但DeepMind的这项创新展现了探索新架构的重要性,为未来AI技术的发展提供了新的可能性。
1.企业AI工作助手平台开发商Glean获Kleiner Perkins和Lightspeed共同领投的2亿美元D轮融资,Databricks、Sequoia Capital等参投
官方网站:www.glean.com
近日,企业AI工作助手平台开发商Glean完成由Kleiner Perkins和Lightspeed Venture Partners共同领投的2亿美元D轮融资,参投方包括Sequoia Capital、Databricks Ventures、Institutional Venture Partners(IVP)、Citi、Adams Street Partners、Capital One Ventures、Coatue、General Catalyst、ICONIQ Growth、Latitude Capital、Workday Ventures。目前,Glean的累计融资额达到3.55亿美元,估值为22亿美元。
Glean最初是一个企业搜索和知识管理解决方案平台开发商,连接超过100个SaaS应用程序。2023年春季,Glean推出了对话式AI助手,该AI助手使用RAG技术(搜索和检索增强生成)的大语言模型来检索并基于每个企业独特的知识图生成个性化答案。最近,Glean还推出了其低代码和无代码集中式AI平台,允许公司基于其知识构建定制的生成式AI助手。
Glean的产品定位是基于AI的企业搜索与知识管理平台,用户在Glean界面就可以完成跨应用的、个性化的搜索,这相当于在所有SaaS产品之上新增了一层,用户不需要再逐一打开SaaS应用,在Glean上就可以查到企业数据,完成部分高频工作。如果ChatGPT是互联网的新入口,Glean则有望成为针对企业场景的入口级产品—所有SaaS应用的第一界面、所有员工的AI助手。
在安全性上,Glean采取了一系列的措施来确保产品的安全性,例如用户可以通过运行DLP报告以发现过度暴露的敏感内容,Glean会进行用户访问审查以执行最小特权原则,同时对所有的数据都进行了安全加密等。
Glean成立于2019年,由Arvind Jain(CEO)、Vishwanath T R(基础设施主管)、Piyush Prahladka(研究主管)和Tony Gentilcore(产品工程主管)共同创立。这四位联合创始人拥有名校背景和大厂经历,其中有三位都在Google拥有10年及以上的工作经验,Arvind Jain还是一位连续创业者,他联合创立了云数据管理领域发展最快的公司之一Rubrik。整个团队在技术和对企业级业务的理解上非常深刻。
2.Imagen核心团队创业的Ideogram获a16z领投,Index Ventures等投资机构跟投的8000万美元A轮融资
官方网站:ideogram.ai
近日,总部位于加拿大多伦多的人工智能文生图大模型开发商Ideogram获a16z领投,Index Ventures、Redpoint Ventures、Pear VC和SV Angel跟投的8000万美元A轮融资。截至目前,Ideogram的累计融资额约合9650万美元。
随着这轮新融资,Ideogram推出了新的文本到图像模型“Ideogram 1.0”。它超越了Stable Diffusion 3、Midjourney V6和DALL-E 3等模型。尤其是在文字生成方面,它的图像错误更少,视觉效果更清晰。图像中的文本生成一直是人工智能生成图像的一个弱点,通常会将请求的文本生成为无法解读的文字。Ideogram声称此次更新大大降低了渲染文本的错误率,输出的图像可以用各种字体和样式显示清晰且连贯的文本。
Ideogram的核心团队成员均出自Google文本到图像系统Imagen团队,由Mohammad Norouzi(CEO)和Chitwan Saharia、William Chan和Jonathan Ho共同创立。
3.文生视频大模型开发商Genmo获New Enterprise Associates独家投资的3700万美元融资
官方网站:www.genmo.ai/
近日,文生视频大模型开发商Genmo完成由New Enterprise Associates独家投资的3000万美元融资,这也是其创立以来的首轮公开融资。
Genmo拥有自己的Replay系列文生视频模型,在最新版本模型中,它支持图片生成视频,更高的分辨率(2k)以及6秒的视频生成时长。Genmo使用条件生成模型来精确控制视频输出,同时最大化视觉质量和连贯性。
在产品方面,用户不仅可以在Genmo的网站上使用服务,也能在Discord上使用模型。Genmo还采用了类似Pika的基于使用量的定价策略,向用户收取每月10美元的费用,提供更多生成次数、优先访问新模型的权限和无水印的服务。它的目标用户包括电影制片人、制作人、平面设计师和内容创作者。
Genmo成立于2023年,由Paras Jain(CEO)和Ajay Jain(CTO)联合创立。Paras Jain是UC伯克利的计算机博士,曾任DeepScale研究科学家,并曾担任Google客座研究员。Ajay Jain本科毕业于MIT,硕士和博士学位均在UC伯克利取得,他曾任Facebook软件工程师、Google Brain研究科学家、NVIDIA研究科学家,是Denoising Diffusion(DDPM)和DreamFusion技术论文的三位联合作者之一,该论文为今天的图像生成模型奠定了基础。
4.医疗AI公司Abridge获Lightspeed Venture Partners和Redpoint Ventures共同领投的1.5亿美元C轮融资
医疗AI公司Abridge在距其3000万美元的B轮融资仅4个月之后,又完成了1.5亿美元的C轮融资,目前其融资总额达到了2.075亿美元。
本轮融资由Lightspeed Venture Partners和Redpoint Ventures领投,参投方包括IVP、Spark Capital、Union Square Ventures、Bessemer Venture Partners、Wittington Ventures、Mass General Brigham Artificial Intelligence and Digital Innovation Fund (AIDIF)、Kaiser Permanente Ventures和CVS Health Ventures。
Abridge致力于提供基于音频的系统来记录和总结医疗对话。Abridge的核心产品,是一款专门为医疗对话设计的人工智能平台,能够实时将患者与临床医生之间的对话转换为结构化的临床笔记,并直接集成到EMR(电子病历)系统中。该产品能够为临床医生每月节省超过70小时的文档记录时间,提供50多个专业领域的临床准确摘要和医学术语,支持14种以上的语言。
在关联证据(Linked Evidence)及其可审计人工智能的支持下,Abridge是唯一能将人工智能生成的摘要映射到基本事实的公司,帮助医疗服务提供者快速信任和验证输出结果。
凭借从超过150万次医疗咨询和有关医疗对话AI的同行评审论文中提取的专有数据集,该公司已经帮助2000多名临床医生在他们的执业中实践,并帮助20万名患者保持健康。
在Shivdev Rao博士(CEO)的领导下,Abridge与康涅狄格州最大、最全面的医疗保健系统耶鲁纽黑文卫生系统达成了一项新的企业协议,将使数千名临床医生能够使用Abridge进行临床文档记录。
5.基于AI开发畅销书的自助出版平台Inkitt获Khosla Ventures领投的3700万美元C轮融资,NEA等参投
官方网站:www.inkitt.com
基于AI开发畅销书的自助出版平台Inkitt获得由Khosla Ventures领投的3700万美元C轮融资,参投方包括New Enterprise Associates、Kleiner Perkins、德国早期风投机构Cavalry Ventures创始人。目前,Inkitt的累计融资额达到1.17亿美元,估值为4亿美元。
Inkitt的目标是利用人工智能来识别和开发畅销内容,并围绕该内容打造21世纪的新迪士尼。Inkitt的平台允许个人自行发布故事,然后利用人工智能和数据科学,选择它认为最引人注目的内容进行调整,通过其Galatea应用程序进行提炼和分发。
Inkitt拥有3300万用户和众多畅销书,是全球排名第11位的畅销书出版商,高于企鹅兰登书屋等家喻户晓的品牌,其算法使其出版畅销书的成功率比传统出版商高出20倍。
本轮筹集的新资金将用于扩展其制作的内容类型:AI根据原创想法编写故事,并为特定读者制作个性化的小说版本;涉足游戏和有声读物;以及更多改编自其平台上发布的小说的视频内容—目前由人类制作的视频,但最终也将使用人工智能生成。
Inkitt成立于2014年,总部位于美国旧金山,Inkitt由Lauren Burns和Ali Albazaz(CEO)创立,Inkitt均为两人的首次工作经历。
6.用于销售数据分析的Myko AI获得Khosla Ventures领投的270万美元种子资金
官方网站:www.myko.ai
用于销售和营收团队数据的对话式AI公司Myko AI获得由Khosla Ventures领投的270万美元种子资金,参与本轮融资的还有Zero Knowledge Ventures、DayDream Ventures、AngelList Early-Stage Quant Fund等。
销售和收入数据蕴藏着丰富的洞察力,能够决定公司的成败。然而,报告和分析仍然是大多数销售和营收团队的痛点。
Myko AI是一种对话式AI工具,能通过为团队提供更深入的分析能力来提高收入。Myko AI让团队成员自助提供数据并通过简单的文本提示发现隐藏的见解。Myko AI可直接插入用户现有的客户关系管理平台(如 Salesforce)以及聊天应用程序(Slack和Microsoft Teams),可以在几秒钟内对数据进行分析。
Myko AI成立于2020 年,联合创始人Trevor Lee和Cheng Li毕业于哥伦比亚商学院,此前他们曾合作创办另一家AI初创公司Smart Highlights。
本文由阿尔法公社综合自多个信息源,并在ChatGPT的辅助下写作,封面图片由Hidream.ai的Pixeling(千象)生成。
更多精彩内容
关于阿尔法公社