谷歌StyleDrop在可控性上卷翻MidJourney，前GitHub CTO用AI颠覆编程

作者：阿尔法公社发布时间：2023-06-10

谷歌 Midjourney GitHub 编程融资

AI创投周报是阿尔法公社推出的聚焦于以大语言模型和生成式AI为代表的人工智能新浪潮的资讯周报。阿尔法公社希望发现和投资非凡创业者（AlphaFounders），相信非凡创业者在技术、商业和社会方面的巨大推动力，他们指引着创投生态的风向。

本周，我们观察到以下AI领域的新动向和新趋势：

1.AI视觉生成和多模态进展迅速：谷歌StyleDrop在风格一致性和可控性上成为新“SOTA模型”，剑桥、腾讯推出的PandaGPT统一6种模态。

2.AI编程能力成突破焦点：谷歌推出DIDACT编程新框架，百度Comate编程助手亮相，Github前CTO创业要打造编程领域的万亿参数大模型。

3.各种新的对齐方式想颠覆RLHF：直接偏好优化（DPO）简化偏好学习Pipeline，斯坦福、谷歌DeepMind研究出更简单有效的价值对齐方法。

4.人工智能新研究让排序算法快70%：Google DeepMind的AlphaDev，在运行数万亿次的C++排序算法中提高了70%的速度。

5.多家创业公司试图解决AI算力问题：两位哈佛辍学生打造大语言模型推理专用芯片，每美元性能提高了140倍，为生成式AI提供云计算能力的CoreWeave一个月内累计融资超4亿美元。

人工智能产品和技术的新突破

1.Midjourney劲敌来了！谷歌StyleDrop王牌“定制大师”引爆AI艺术圈

谷歌最新推出的StyleDrop可称作Midjourney的劲敌，它通过一张参考图片，就能解构并复刻任何复杂的艺术风格，包括抽象作品，不同风格的LOGO等，与"前SOTA模型"相比，StyleDrop在风格一致性和文本对齐方面表现出色。它提供了更可控的绘画过程，并能完成以往难以想象的精细工作。

StyleDrop基于Muse构建，Muse是一种基于掩码生成图像Transformer的最新文本到图像合成模型，它包含两个用于基础图像生成和超分辨率的合成模块，每个模块都由一个文本编码器T，一个transformer G，一个采样器S，一个图像编码器E和解码器D组成。

StyleDrop的训练过程包括两个关键方面。首先是参数有效微调，通过对生成视觉Transformer的参数进行微调，使其在给定的参考图像上能够生成相似风格的图像。其次是带反馈的迭代训练，通过迭代训练过程，逐步优化生成的图像以提高风格一致性和文本对齐。

2.AI重写排序算法，速度快70%：Google DeepMind的AlphaDev革新计算基础

Google DeepMind哈萨比斯的两句话引爆计算机领域：“AlphaDev发现了一种全新且更快的排序算法，我们已将其开源到主要C++库中供开发人员使用。这只是AI提升代码效率进步的开始。”

AlphaDev基于AlphaZero模型，将排序问题转化为单人"汇编游戏"，通过搜索大量可能的指令组合，发现比现有算法更快的排序算法，在运行数万亿次的C++排序算法中提高了70%的速度。相关研究论文已在权威科学期刊Nature上发表，这项成果现已被纳入LLVM标准C++库Abseil并开源。

AlphaDev的主要作者之一Daniel J. Mankowitz表示：这一技术对编程和数字化社会有着重要影响，将为数十亿人节省时间和精力，并有望优化整个计算生态系统。

3.投喂任意视频，直出3D模型，华人一作登CVPR 2023

英伟达和约翰霍普金斯大学一项叫Neuralangelo的技术可以通过普通视频自动生成精细的3D模型。它采用基于SDF的神经渲染重建和多分辨率哈希编码的架构，无需深度数据即可生成3D结构。目前，相关论文已经入选CVPR 2023。

论文中使用DTU和Tanks and Temples数据集对Neuralangelo进行测试，结果显示其在3D细节生成和图像还原方面表现准确。与NeuS和NeuralWarp等“前SOTA模型”相比，Neuralangelo在DTU数据集和Tanks and Temples数据集上都展现出出色的效果。

4.给语言大模型加上综合视听能力，达摩院开源Video-LLaMA

为了让大语言模型理解和互动视频内容，达摩院的研究人员提出了具有视听能力的大型模型Video-LLaMA。该模型能感知和理解视频和音频信号，并理解用户指令，完成根据音视频描述、问答等复杂任务。

不过，该模型仍存在感知能力有限、处理长视频困难和语言模型固有幻觉等局限性。达摩院表示正在构建高质量的音频-视频-文本数据集来提升感知能力。

5.剑桥、腾讯AI Lab等提出PandaGPT模型：一个模型统一六种模态

近日，剑桥、NAIST和腾讯AI Lab的研究者推出了一款名为PandaGPT的跨模态语言模型。PandaGPT结合了ImageBind的模态对齐能力和Vicuna的生成能力，实现了六种模态下的指令理解与跟随能力。该模型展示了对不同模态的理解能力，包括基于图像/视频的问答、创意写作和视觉听觉推理等。该模型可以处理图像、视频、文本、音频、热力图、深度图和IMU数据，并自然地组合它们的语义。

6.新加坡国立大学发布Goat，仅用70亿参数在算数上秒杀GPT-4

新加坡国立大学的研究人员通过微调LLaMA模型，开发了专供算术的模型Goat，参数大小为70亿，它在算术能力方面显著优于GPT-4。Goat在BIG-bench算术子任务上表现卓越，准确率超过Bloom、OPT、GPT-NeoX等。其中零样本的Goat-7B所达到的精度甚至超过了少样本学习后的PaLM-540。

Goat通过在合成的算术数据集上进行微调，在大数加减运算上达到了近乎完美的准确率，超过了其他预训练语言模型。针对更具挑战性的乘法和除法任务，研究人员提出了一种任务分类和分解的方法，通过分解为可学习的子任务来提高算术性能。这项研究为语言模型在算术任务上的进展提供了有益的探索和启示。

7.讯飞星火认知大模型V1.5发布，多轮对话和数学能力再升级

6月9日，讯飞星火认知大模型V1.5发布。该版本在开放式问答方面取得突破，多轮对话和数学能力再升级，文本生成、语言理解、逻辑推理能力也得到提升。此外，科大讯飞此次还将“星火认知大模型”搬上移动端，发布其星火APP。

按照计划，科大讯飞今年之内将进行三轮迭代升级，目标是在10月24日对标ChatGPT。6月9日之外，下一个升级节点是在8月15日，主要是突破代码能力和多模态交互再升级。

8.谷歌公开AI+软件工程框架DIDACT：数千名开发者内部测试

谷歌最近公布了名为DIDACT的框架，利用AI技术增强软件工程，实时辅助开发人员编写和修改代码。

DIDACT框架的模型具有多模态性质，可以根据开发人员的历史操作来预测下一步的编辑操作。这种能力可以让模型更好地理解开发人员的意图，并提供准确的建议。模型还可以完成更复杂的任务，如从空白文件开始，连续预测接下来的编辑操作，直到生成完整的代码文件。

DIDACT工具包括注释解析、构建修复和提示预测，每个工具在开发工作流程的不同阶段集成。这些工具与开发人员的交互记录被用作训练数据，以帮助模型预测开发人员在软件工程任务中的行动。

9.百度推出基于大模型的代码编写助手Comate，文心一言高性能模式推理能力提升50倍

近日，百度智能云推出Comate编码智能推荐工具并正式开放邀请测试。Comate与GitHub Copilot等代码编写助手相似，但用了更多中文注释和开发文档作为训练数据。在编码过程中，Comate可以根据开发者当前在编写的内容，推理出接下来可能的输入选择。据百度介绍，目前Comate能力已经率先集成在百度所有业务线中并实现了很好的使用效果：核心研发部门中50%的代码可通过Comate生成。

此外，百度表示文心一言的推理性能已经提升10倍。同时，基于文心千帆大模型平台提供的完备的工具链，在企业应用的高频、核心场景中，文心一言的高性能模式“文心一言-Turbo”，推理服务性能已经提升了50倍。

10.思想克隆！前OpenAI研究员让AI模仿人类思维

一项由前OpenAI研究团队高级人员Jeff Clune领导的研究发现，通过让人工智能智能体模仿人类思考和行动，可以提升其性能和安全性。该研究利用人类在行动时说出的想法数据集，让智能体学习思考的能力，并将其与示范行为结合起来。这种方法被称为“思想克隆”，通过上层组件生成思想，下层组件执行行动。

研究人员使用了从YouTube视频和文字录音中收集的数百万小时的思想数据进行训练。实验结果表明，“思想克隆”方法优于传统的行为克隆方法，并且在分布外任务中表现更好。这一研究对于人工智能的发展具有重要意义，提高了智能体的智能水平和安全性，使其更易于理解和控制。

11.大幅优化推理过程，字节高性能Transformer推理库获IPDPS 2023最佳论文奖

字节跳动与NVIDIA，加州大学河滨分校发表的论文《ByteTransformer: A High-Performance Transformer Boosted for Variable-Length》在IPDPS 2023中，荣获了最佳论文。

论文提出了字节跳动的GPU Transformer推理库——ByteTransformer。ByteTransformer是一种高效的Transformer实现，它通过一系列优化手段，实现了在BERT transformer上的高性能表现。对于变长文本输入，相比其他Transformer实现，ByteTransformer在实验中平均加速可达50%以上，适用于加速自然语言处理任务，提高模型训练与推理的效率。

12.RLHF中的「RL」是必需的吗？用二进制交叉熵直接微调LLM，效果更好

RLHF（人类反馈强化学习）是目前流行的让大模型于人类对齐的方法，它使模型具有令人印象深刻的对话和编码能力，但RLHF pipeline比监督学习复杂得多，涉及训练多个语言模型，并在训练的循环中从语言模型策略中采样，产生大量的计算成本。

最近斯坦福大学等机构提出了一种叫直接偏好优化（DPO）的研究，研究表明：现有方法使用的基于RL的目标可以用简单的二进制交叉熵目标来精确优化，从而简化偏好学习pipeline。也就是说，完全可以直接优化语言模型以坚持人类的偏好，而不需要明确的奖励模型或强化学习。

13.用社交游戏数据训练社会对齐模型，媲美RLHF

语言模型开发中的一个重要环节是使其行为符合人类社会价值观，也被称为价值对齐。目前主流的方法是RLHF。

然而，这种方法存在几个问题。首先，代理模型产生的奖励容易被破解，导致不符合预期的回复。其次，代理模型与生成式模型需要不断交互，导致训练过程耗时且低效。第三，奖励模型本身与人类思考模型不完全对应。

最近一项来自达特茅斯，斯坦福，谷歌DeepMind等机构的研究表明，利用社交游戏构建高质量数据并结合简单高效的对齐算法可能是实现价值对齐的关键。研究者提出了在多智能体游戏数据上进行对齐训练的方法。他们设计了一个称为沙盒的虚拟社会模型，其中社交体通过使回答更符合社会规范来留下好的印象。通过对沙盒历史数据的学习，他们提出了一种稳定对齐算法。实验结果表明，经过对齐训练的模型能够更快地生成符合社会规范的回复。稳定对齐算法在性能和训练稳定性上媲美RLHF，并提供了一种更简单有效的价值对齐方法。

人工智能初创公司的新融资

1.前GitHub CTO创立的Poolside获得2600万美元种子轮融资

近日，Poolside获得由Redpoint Ventures领投的2600万美元种子轮融资，Poolside的目标是通过追求软件创造的AGI（人工通用智能）来释放人类的潜力，并基于一个基本观念：在人类向AGI过渡的路径上，应该通过构建特定能力而不是通用方法来实现。

Poolside的创始人Jason Warner之前在Redpoint Ventures担任董事总经理，更早前则担任GitHub的CTO，他的团队负责开发GitHub Copilot。他与连续创业者Eiso Kant共同创立了Poolside，直接对标OpenAI。

Poolside正在构建强大的下一代基础模型和基础设施，它可能是一个专注在软件和代码方向的万亿参数模型，利用这个模型的能力，艺术家，医生，科学家，教育工作者们可以超低门槛的构建软件和产品，比今天的情况快1000倍，创建软件将会变得人人可行，无处不在。

2.AI赋能的客户成功平台UpdateAI获IdealabX、Zoom Ventures、a16z投资的230万美元早期投资

UpdateAI是一家客户成功平台提供商，近日获得IdealabX领投的230万美元融资。

UpdateAI简化了客户电话的繁琐工作，使客户成功经理能专注于提供可扩展的客户洞察力。该平台与Zoom Meetings集成，并利用ChatGPT生成智能会议摘要，提供简洁的会议概述，自动化处理电话后的任务，如向客户发送跟进电子邮件。

UpdateAI的联合创始人兼CEO Josh Schachter是复合背景的连续创始者，创立UpdateAI之前，他不但有两段创业经历和多次大公司产品经理职业经验，且曾在波士顿咨询担任过总监，对企业的需求有深刻理解。

UpdateAI获得了230万美元的融资，本轮融资由IdealabX领投，Zoom Ventures、a16z参与。UpdateAI此前已获得170万美元的融资，本轮融资使其总融资额达到400万美元。

3.专注为生成式AI提供云计算能力的CoreWeave一个月内再获2亿美元战略融资

CoreWeave是专注在AI云计算的创业公司，它的投资人Magnetar Capital在此前领投了2.21亿美元的B轮融资后，又领投了它2亿美元的战略融资，目前CoreWeave是20亿美金独角兽。

CoreWeave提供了逾十二个SKU的NVIDIA GPU云服务，包括H100、A100、A40和RTX A6000，适用于人工智能和机器学习、视觉效果和渲染、批处理和像素流等各种用例。

CoreWeave由Intrator、Brian Venturo和Brannin McBee创立，他们最初专注于加密货币应用，此后转向通用计算以及生成式AI技术，如文本生成AI模型。

在CoreWeave此前完成的2.21亿美元B轮融资中，除了领投方Magnetar Capital外，还有NVIDIA、前GitHub CEO Nat Friedman和前苹果高管Daniel Gross等投资人。

4.工作流自动化引擎8Flow.ai获得660万美元种子轮融资

近日，8Flow.ai获得由Caffeinated Capital领投的660万美元种子轮融资，BoxGroup、Liquid2等机构和前GitHub CEO Nat Friedman、Howie Liu等个人投资人也参投。

公司推出一款面向企业的自学习工作流自动化引擎，与Zendesk、ServiceNow和Salesforce Service Cloud等工具集成，以协助代理人完成日常任务。未来，该公司计划利用所有这些数据来训练机器学习模型，生成针对每个用户需求量身定制的人工智能工作流。

8Flow.ai的产品目前以Chrome浏览器扩展的形式存在，可以自动将相关数据从一个程序复制并粘贴到另一个程序中。该工具自动学习每个代理人的常见步骤，并将其呈现为可以通过单击触发的操作。

8Flow.ai创始人Boaz Hecht曾是SkyGiraffe的联合创始人兼首席执行官，后担任ServiceNow平台副总裁，负责移动、人工智能聊天机器人类产品。

5.医疗领域对话式人工智能平台Hyro获麦格理资本领投2000万美元B轮融资

近日，医疗领域对话式人工智能平台Hyro获得麦格理资本领投的2000万美元B轮融资。

Hyro由两位康奈尔大学校友Israel Krush和Rom Cohen联合创立，其中Israel Krush是连续创业者，拥有较丰富的行业经验。

Hyro利用独特的自然语言处理和知识图谱技术，构建即插即用的医疗系统内部聊天界面，以覆盖普通医疗部门85%的日常任务。Hyro无需训练数据就能进行客户端维护工作，并实时更新内部信息。平台自带的AI助手可以与医疗部门原有的工作流程匹配，帮助他们集中通信、改善服务并降低运营成本。

据悉，Hyro的ARR同比增长超过100%，大客户包括Mercy Health、Baptist Health 、Intermountain Healthcare等。

6.商用低代码机器学习平台Predibase完成1220万美元A轮融资

Predibase是面向开发人员的商用低代码机器学习平台，它帮助不具备机器学习技能的用户快速轻松地构建、迭代、部署复杂的AI应用程序。近日，Predibase获得Felicis领投的1220万美元的A轮融资。

利用Predibase的平台，即使不具备机器学习技能的用户快速轻松地构建、迭代、部署复杂的AI应用程序。用户只需通过平台自带的AI模型定义所需要的内容，其余操作由平台自动完成。新手用户可以选择推荐的模型架构，专家用户可以根据自己的需要对所有模型参数进行微调，极大缩短了原先部署AI应用程序的时间。

Predibase的创始人兼CEO Piero Molino拥有产业和学术的交叉背景，既在IBM和Uber有过职业经历，又曾在斯坦福大学担任过研究科学家。

7.非结构化客户数据AI分析平台Beehive AI获510万美元种子轮融资

Beehive AI是世界首个专门针对分析非结构化客户数据的AI平台，它近日获得Valley Capital Partners领投的510万美元种子轮融资。

Beehive AI是一款端到端、可定制的企业AI平台，用于消费者研究，具有前所未有的准确性、相关性和规模。通过分析非结构化的开放性数据，结合定量数据，Beehive AI帮助企业提取新的洞察力，帮助他们更好地了解和服务于客户。

该平台允许客户上传他们在任何平台上收集的现有数据，或启动由AI设计的问卷调查，提问开放性问题，以从客户那里获得丰富而细致的反馈。然后，它对数据进行定制分析，并允许客户使用直观的可编程仪表板来探索洞察力。

8.大语言模型推理专用芯片设计研发商Etched.ai获536万美元种子轮融资

Etched.ai是大语言模型推理专用芯片设计研发商。近日，它获得Primary Venture Partners领投，前Ebay首席执行官Devin Wenig等跟投的536万美元种子轮融资，目前公司估值约为3400万美元。

Etched.ai由哈佛辍学生Gavin Uberti和Chris Zhu创办，设计了更专业、功耗较低的芯片，用于运行生成式AI模型，他们希望在2024年第三季度将其芯片引入市场，并计划向主要的云服务提供商销售。

Etched.ai的创始人们表示，模拟显示，与传统GPU相比，他们的芯片在每美元性能方面提高了140倍。

9.用人工智能提高云计算的成本效益，Antimetal获430万美元种子轮融资

近日，致力于开发AI技术提高云计算成本效益的Antimetal完成由Framework Ventures领投的430万美元的种子轮融资。

Antimetal利用专有的机器学习模型来优化云计算部署，切入最主流的AWS云计算服务，未来还将拓展到Google、Microsoft等其他云计算平台。

公司开发在线算法，用人工智能来研究市场动态，然后整合、调度、转售这些云计算资源。企业平均需要90天的时间才能售出这些闲置的AWS资源，但通过Antimetal，完成交易的速度要快三倍左右。

公司创始人兼CEO Matthew Parkhurst创业前长期就职于SaaS公司，有超过7年的产业经验。

10.AI医学成像初创公司Hypervision Surgical获650万英镑种子轮融资

Hypervision Surgical近日获得650万英镑的种子轮融资，由HERAN Partners、Redalpine和ZEISS Ventures投资。

Hypervision Surgical是一家来自伦敦国王学院的衍生企业，由临床医生、医学成像和人工智能专家团队创建。它的目标是为临床医生配备先进的计算机辅助组织分析，以提高手术精度和患者安全，降低外科专业的患者发病率和医疗成本。

目前，公司正在通过结合AI高光谱成像和边缘计算来开发用于外科手术的医学成像。以此技术，在复杂的肿瘤手术中，外科医生可以依靠精确的测量和组织特性信息来区分健康和不健康的组织。

公司团队核心成员Martin Frost曾是手术机器人公司CMR Surgical的创始人兼前CEO。公司CEO Michael Ebner毕业于伦敦国王学院，并入选了英国皇家工程院。

本文由阿尔法公社综合自多个信息源，并在ChatGPT的辅助下写作。

关于阿尔法公社