当前位置:首页|资讯|Midjourney|Hugging Face|融资|OpenAI|亚马逊

AI创投周报|对标Midjourney的Ideogram获种子融资,OpenAI开放GPT3.5的微调

作者:阿尔法公社发布时间:2024-01-04

原标题:AI创投周报|对标Midjourney的Ideogram获种子融资,OpenAI开放GPT3.5的微调

AI创投周报是阿尔法公社推出的聚焦于以生成式AI为代表的人工智能新浪潮的资讯周报。阿尔法公社希望发现和投资非凡创业者(AlphaFounders),相信非凡创业者们在技术、商业和社会方面的巨大推动力,他们指引着创投生态的风向。

本周,我们观察到以下AI领域的新动向和新趋势:

1.Imagen核心成员创立的Ideogram获1650万美元种子融资,投资者包括a16z、Index和OpenAI联合创始人Andrej Karpathy,Ideogram直接对标Midjourney,与此前的产品不同,它的文生图生成效果将更可控。

2.OpenAI的GPT-3.5正式开放「微调」,GPT-4版本也将在几个月后发布。通过API个性化微调将使GPT-3.5在某些特定任务上媲美GPT-4,但它的价格将是原始版本API的8倍。

3.Meta联手CMU打造最强「通用机器人智能体」RoboAgent,这个具身智能体可以流畅地操作抽屉、微波炉门、瓶盖等,并能够理解和执行泡茶、加热食物等一系列连续动作。

人工智能产品和技术的新突破

1.OpenAI突发更新!GPT-3.5正式开放「微调」,人人可打造专属ChatGPT

近日,OpenAI宣布GPT-3.5微调API正式开放,GPT-4版本也即将发布。这意味着开发者现在可以为GPT-3.5 Turbo进行个性化微调,使其在特定任务上的性能与GPT-4相当。此外,GPT-4的微调版本也将在未来几个月内发布。

微调的主要优势包括提高AI模型的可控性、输出格式的可靠性、自定义语调以及更短的提示但保持相同的性能。但是,目前微调GPT-3.5的成本将是原始版本的8倍。此外官方还为开发者提供了详细的微调指南。

2.字节版ChatGPT悄悄开放,免费无排队,抖音号手机号直接登录

字节跳动推出了其类ChatGPT服务,名为“豆包”,用户可以通过抖音账号、手机号和苹果账号登录使用。它在能力上与国产开源大模型ChatGLM不相伯仲。

豆包在文案创作上展现了出色的能力,能够撰写知乎、小红书等风格的文案。在代码生成方面,豆包成功地解决了一些相对复杂的编程问题。字节跳动的这一动作可能是为了与ChatGPT竞争,同时也展示了其在AI领域的深厚实力。

3.耗时2年,Meta联手CMU打造最强「通用机器人智能体」!上茶擦碗多面手,轻松泛化100多种未知任务

Meta和CMU团队经过两年的努力,成功打造出名为「RoboAgent」的通用机器人智能体。与谷歌DeepMind的RT-2项目相比,RoboAgent在仅7500个轨迹上完成了训练,但能够实现12种复杂技能,如烘培、拾取物品、上茶和清洁厨房等。更为令人震惊的是,RoboAgent能够将这些技能泛化到100多种未知场景中。

例如,它可以流畅地操作抽屉、微波炉门、瓶盖等,并能够理解和执行泡茶、加热食物等一系列连续动作。研究人员希望RoboAgent能够成为未来更多研究方向的起点,并在「通用机器人智能体」的发展中取得更大的突破。

4.打造新框架,商汤AI Agent把打工玩明白了

商汤科技近期为基于大模型的AI Agent打造了一个新框架,旨在探究其任务规划和工具使用能力。该框架包括六个组件:任务指令、设计提示、大语言模型、工具集、中间输出和最终答案。

研究发现,通过引入统一的工具-子任务生成策略,AI的性能可以得到显著提高。此外,研究人员还设计了两种不同类型的AI Agent:一步智能体和顺序智能体,用于评估大模型的任务规划和工具使用能力。在实际评估中,基于大模型的AI Agent展现出了在任务规划和工具使用方面的出色能力,尤其是在SQL生成和Python代码生成方面。总体来说,这一研究为AI Agent在任务规划和工具使用方面提供了新的视角和方法。

5.1300亿参数,国内首个千亿级数学大模型MathGPT上线,多项基准赶超GPT-4

国内首个专为数学打造的千亿参数级大模型MathGPT正式上线,这一模型由好未来团队自研,其在多项基准测试中表现超越GPT-4,刷新了SOTA记录。

使用MathGPT,用户只需上传文字或图片形式的数学题,便可获得对话式的解答反馈。MathGPT目前支持中文和英文的PC端及移动端体验。其技术报告显示,在CEval-Math、AGIEval-Math、APE5K、CMMLU-Math、高考数学和Math401等6个公开数学评测集合的测试结果中,好未来的MathGPT取得了多项测试的最高分数。

6.官方的Code Llama开源,可免费商用

Meta最近推出了专门为代码生成设计的基础模型Code Llama,这是Llama 2的代码专用版本。Code Llama基于特定的代码数据集进行了进一步的微调训练,其开源协议允许免费用于研究和商业目的。

该模型系列包括三个版本,参数量分别为7B、13B和34B,支持多种编程语言。Code Llama不仅可以生成代码,还可以帮助用户进行代码补全和调试。其在两个编码基准测试中的性能超越了其他开源模型,与ChatGPT相当。不过,Meta也强调了使用Code Llama时的风险,并采取了多种安全措施。

7.图灵奖得主Bengio联合19人团队发表88页论文,研究AI是否具有意识

图灵奖得主Yoshua Bengio联合19人团队发表了一篇88页的论文,深入探讨了人工智能是否具有意识的问题。他们的研究结论是,虽然目前的AI系统不具备意识,但在未来,人类构建有意识的AI系统是完全可能的,并且不存在明显的障碍。

论文详细分析了多种与意识相关的科学理论,包括循环处理理论(RPT)、全局工作空间理论(GWT)和高阶理论(HOT)。每种理论都为判断AI的意识提供了一系列指标。例如,RPT理论强调了循环处理的重要性,而GWT理论则认为意识依赖于一个「全局工作空间」的存在。

此外,文章还探讨了如何在AI系统中实现这些指标,并指出了当前AI技术与生物学中的注意力机制之间的差异,特别是自注意力机制与生物学中的注意力机制的不同。这篇论文引起了广泛关注,因为它为AI是否具有意识这一争议性话题提供了权威和客观的解答。

8.爆火「视频版ControlNet」开源了!靠提示词精准换画风

香港科技大学、蚂蚁团队、浙江大学CAD&CG实验室推出了被称为“视频版ControlNet”的视频处理算法CoDeF,能够通过提示词精准地改变视频的画风,而不改变其他元素。例如,可以将蓝衣战神的视频风格转换为迪士尼公主的风格,同时保持口型和动作的一致性。

CoDeF的核心技术是内容形变场,它可以确保视频风格迁移时的时间序列一致性和流畅度。此外,CoDeF还可以与其他图像处理算法结合,如ControlNet、SAM和Real-ESRGAN,从而实现视频风格的“翻译”、对象跟踪和视频超分等功能。该算法已在GitHub上开源,预计将在电影制作等领域得到广泛应用。

9.DeepMind新研究:ReST让大模型与人类偏好对齐,比在线RLHF更有效

近期,DeepMind推出了一种新的强化学习算法ReST,目的是使大语言模型(LLM)的输出与人类偏好更为一致。尽管LLM在文本生成和多种语言任务上展现了强大能力,但其输出往往与人类偏好存在差异,可能导致不安全的内容。为解决这一问题,研究者提出了基于人类反馈的强化学习(RLHF)。

传统的RLHF方法,如PPO和A2C,虽然有效,但存在计算成本高和容易受攻击的问题。ReST算法与传统RLHF不同,它通过生成离线数据进行训练,从而使LLM与人类偏好一致。ReST的核心是将数据集增长和策略改进分为两个离线阶段。实验结果显示,ReST在机器翻译任务上表现卓越,显著提高了翻译质量,且与在线RL方法相比,ReST在人类评分上更胜一筹。

10.AI机器识别突破登Nature封面,论文一作为浙大校友

一项叫HADAR的全新研究成果被Nature杂志选为封面文章,它成功解决了机器夜间识别的难题。它的第一作者是浙江大学校友、现任普度大学研究员的Fanglin Bao。

这一技术由普度大学和密歇根州立大学的研究团队共同研发,能够使机器在夜间像白天一样清晰地识别周围环境,这对于自动驾驶等领域具有革命性意义。HADAR技术主要通过「TeX分解」和「TeX视觉」技术从热信号中恢复纹理,进而通过HADAR系统进行精确的识别和测距,解决了热成像中的「重影」问题。研究团队坚信,HADAR技术将为未来的机器视觉技术指明方向,并在自动驾驶和无人机领域发挥关键作用。

11.思维链CoT进化成思维图GoT,比思维树更优秀的提示工程技术诞生了

为了让大型语言模型(LLM)充分发挥其能力,有效的prompt设计方案是必不可少的,例如思维链(CoT)就因其强大的推理能力而受到关注,而基于其的改进如CoT-SC和思维树(ToT)也受到了广泛的关注。

最近,一个由苏黎世联邦理工学院、Cledar和华沙理工大学联合组成的研究团队提出了思维图(GoT),GoT的核心思想是将LLM的推理构建成任意的图结构,从而为prompt的能力带来重大提升。这种方法受到了人类推理方式、大脑结构和算法执行方式的启发。GoT框架下,LLM的思维会被建模成一个顶点,而顶点之间的依赖关系则被建模为边。总的来说,GoT使用的图抽象方法可以无缝地将CoT和ToT泛化到更复杂的思维模式。

人工智能初创公司的新融资

1.Hugging Face再获2.35亿美元融资,估值已达45亿,谷歌、英伟达、亚马逊参投

官方网站:huggingface.co

近日,AI初创公司Hugging Face成功完成了2.35亿美元的融资,估值飙升至45亿美元。这一轮融资的主要投资者包括谷歌、亚马逊、英伟达、英特尔、AMD、高通、IBM和Salesforce等科技巨头。目前,Hugging Face的累计融资已达3.952亿美元,在大模型领域仅次于OpenAI、Anthropic、Inflection AI、Cohere和Adept。

Hugging Face的联合创始人兼CEO Clément Delangue表示,AI正在改变软件的构建方式,这是过去十年来最重要的技术转变。Hugging Face的目标是成为推动这一转变的开放平台。为此,他们提供了一系列的工具和服务,包括AI代码存储库、模型和数据集中心,以及AI驱动的Web应用程序。

Hugging Face的成功背后,与其与多家大型科技公司的合作关系密不可分。例如,与英伟达的合作使开发者能够更高效地完成AI模型的训练和微调。它还与Microsoft合作开发了Azure上的Hugging Face Endpoints,使其AI模型能够在Azure上进行可缩放的生产部署。与亚马逊的合作则旨在加速构建生成式AI应用的大型语言模型和大型视觉模型的训练、微调和部署。

2.直接对标Midjourney,初创企业Ideogram获a16z、Index和Andrej Karpathy投资的1650万美元种子融资

官方网站:ideogram.ai

新型生成式AI图像初创公司Ideogram获得a16z和Index Ventures领投的1650万美元种子融资,其他投资者还包括AIX Ventures, Golden Ventures, Two Small Fish Ventures等机构投资者和Google人工智能部门的负责人Jeff Dean, OpenAI联合创始人Andrej Karpathy,GitHub联合创始人Tom Preston-Werner等个人投资者。

Ideogram的团队由知名的AI专家组成,他们曾在 Google Brain、加州大学伯克利分校、卡内基梅隆大学和多伦多大学领导过革命性的人工智能项目。

其中创始人Mohammad Norouzi此前曾担任Google的高级研究科学家,是Google文本转图像系统Imagen的核心成员。

Ideogram的主要卖点是其可控的文本生成能力,如标志上的字母和公司标志。Ideogram在其上提供了多种预设的图像生成风格,其中一个标签为“排版”,可以渲染不同颜色、字体、大小和样式的字母。但是,与其他图像生成器相比,Ideogram缺少一些功能,如缩放和外部绘制。

3.Anthropic获得SK Telecom投资的1亿美元融资

官方网站:www.anthropic.com

生成式AI系统研发商Anthropic获SK Telecom的1亿美元融资。7月18日,总部位于德国的软件公司SAP也投资了Anthropic。预计Anthropic将在今年第三季度完成本次融资。

随着技术的进步,全球人工智能的应用场景范围将进一步被扩大,应用深度也将深化。SKT作为电信行业的典型企业,多年来一直有为韩语开发大型语言模型的需求。其计划利用LLM向需要AI能力的潜在客户提供各种人工智能服务。

Anthropic将利用本次融资与SKT协作,为电信公司量身打造大型语言模型。SKT和Anthropic将共同开发支持韩语、英语、德语、日语、阿拉伯语和西班牙语等多种语言的大语言模型,并引入目前由全球电信人工智能联盟构建的电信人工智能平台。

4.AI软件维护助理Grit获由Founders Fund领投的700万美元种子轮融资

官方网站:www.grit.io

软件维护自动化服务初创公司Grit获得由Founders Fund和Abstract Ventures领投,Quiet Capital、8VC、AME Cloud Ventures、SV Angel等跟投的700万美元种子轮融资。

当前几乎每一个创建和发布的新软件都需要持续监控和手动更新,以确保它保持安全和高效,避免随着时间的推移积累“技术债务”。Grit计划用AI取代技术人员来自动化维护软件。

该工具可以自动分析程序的代码库,随着时间的推移对其进行跟踪,并提出更新和改进建议。在CTO或授权开发人员的许可下,Grit可以作为 GitHub应用程序安装或连接到GitLab,在其中扫描公司的代码存储库并为其构建索引。同时,使用Grit签名应用程序的自然语言查询接口,开发人员可以表达他们的高级目标,而Grit会处理实现细节。

目前,Grit的主要客户群是“后期科技公司”和一些金融科技公司,其已经为Faire和PromptLayer等客户节省了大量时间。

Grit由Cosmin Radoi和Morgante Pell于2022年联合创立。CEO Pell是全栈工程师,在云应用、Web开发有丰富经验;Radoi在伊利诺伊大学获得了CS硕士与博士学位,并曾创立代码安全公司Unhack AI。

5.MindsDB获英伟达的新一轮融资,种子轮融资总额达4650万美元

官方网站:www.mindsdb.com

近日, AI虚拟数据库MindsDB获得了英伟达风险投资部门NVentures的种子轮投资,参与本轮的投资机构还包括Benchmark、Mayfield、Y Combinator、OpenOcean和Walden Catalyst等,这使得它的种子轮融资总额达到4650万美元。

MindsDB使开发者能够创建下一代以AI为中心的应用程序。开发者使用它可以管理最先进机器学习框架(包括Hugging Face、Cohere、LangChain、Nixtla)以及各种人工智能大模型,并与亚马逊Redshift、谷歌BigQuery、MySQL、Postgres、MongoDB和Snowflake等数据平台对接,AI大模型+多样的数据源,共同打造AI原生的应用。

目前MindsDB的核心产品MindsDB Pro Cloud被100多家新兴创业公司使用,帮助Bytes、Dumuso、JourneyFoods、Progressify、Precise Finance、Rize等公司改进产品和内部运营。

MindsDB的联合创始人兼首席执行官Jorge Torres表示:“如今,全球大约有3000万软件开发者,但熟练的AI/ML工程师不足5%。然而,世界正面临一场新的转变,大多数软件都将需要以AI为中心的方式进行升级。为了实现这一目标,全球的每一个开发者,无论他们对AI的了解如何,都应该有能力制作、管理并将AI模型插入到现有的软件基础设施中。这正是我们的AI数据库所解决的问题。”

6.Electric Sheep完成Dasein Capital领投的50万美元Pre-Seed轮融资

官方网站:electricsheep.tv

动态描画AI工具研发商Electric Sheep近日完成Dasein Capital领投、Spatial Capital和Look AI Ventures跟投的50万美元Pre-Seed轮融资。

目前,电影和电视拍摄在去除镜头中的背景时使用一种称为动态描画的方法,需要逐帧剪切背景。据该公司称,用该方法完成每秒镜头的背景处理大致需要六个小时的动态观察时间,每年给行业带来的成本超过15亿美元。

因此,Electric Sheep开发了一种解决方案spotlight,以简化电影和电视行业的后期制作。公司表示,其AI处理方法使该工作的速度提高了360倍,能够在一分钟内处理一秒的视频。公司的云和AI平台是一个动态观察工具,可以不依赖绿幕地“完美地去除背景”,为视觉效果编辑人员提供更大的空间和时间来进行关键调整。

7.AI短信助手Twine获得Y Combinator领投的50万美元Pre-Seed轮融资

官方网站:www.aetherbio.com

中小型企业服务初创Twine近期完成Y Combinator领投的50万美元Pre-Seed轮融资,以扩展其平台并发展其工程、机器学习和硬件团队。

小企业因为无法立即响应来电而损失了数千美元。为了解决漏接电话的问题,企业采用昂贵的解决方案,例如接待员或外包接听服务。

为解决上述问题,Twine提供了一系列解决方案,以确保小型企业不会因为未接来电而错过潜在客户。Twine能够理解自然语言并跟进客户以获取详细信息并将其转化为预定日程——如果企业错过了电话,Twine会向客户发送短信,了解他们打电话的原因,并将其添加到日程中。目前,Twine正在尽快与现有的VOIP和手机服务集成。

Twine由Anand Valavalkar、Divyesh Khatri、Omar Imtiaz于2023年联合创立。CEO Valavalkar和CTO Imtiaz都在德克萨斯大学奥斯丁分校取得计算机科学学士学位,前者在高中时期还曾创立网络音视频安装公司;Khatri则是斯坦福计算机科学的博士。

本文由阿尔法公社综合自多个信息源,并在ChatGPT的辅助下写作,封面图片由Hidream.ai的Pixeling V1.0生成。

关于阿尔法公社


Copyright © 2024 aigcdaily.cn  北京智识时代科技有限公司  版权所有  京ICP备2023006237号-1