一句话生成视频，一句话生成图片…未来你们只需要会敲几个字就行

作者：观山海发布时间：2024-03-20

AI是一次革命性的发展，第四次工业革命开始的标志。每一次巨大的技术变革，必然会带来新的发展与机遇。

2022年11月底，ChatGPT横空出世，全球都被这样一个“好像”有智能的产品吸引力。随后，工业界、科研机构开始疯狂投入大模型。在2023年，这个被称为大模型元年的年份，有很多令人瞩目的AI产品与模型发布。

2023年度巨献，一图总结2023年最重要的AI相关的产品和技术~共48个产品或技术上榜

注：以下内容有AI生成！

2月份3款

添加图片注释，不超过 140 字（可选）

MetaAl强势开局，LLaMA开辟开源大模型生态，LLaMA是一组具有不同参数规模的大型语言模型（LLM）套件，参数规模从70亿到650亿不等。除了令人印象深刻的性能之外，LLaMA仅使用公开可用的数据进行预训练。

MOSS大模型是由复旦大学自然语言处理实验室开发的新版插件增强的开源对话语言模型。它于2023年2月20日发布，是国内首个开放测试的类ChatGPT产品。该模型具有160亿参数，可执行对话生成、编程、事实问答等一系列任务。

ControlNet是一种生成式AI绘画解决方案，通过额外输入控制预训练大模型Stable Diffusion，可以精细地设定生成图像的各种细节。先输入一张参考图，然后根据输入的prompt进行预处理，就能对生成的图像进行精准控制。最新版本只需使用文本提示词，就能在保持图像主体特征的前提下，任意修改图像细节。

3月份10款

添加图片注释，不超过 140 字（可选）

Bard是谷歌公司的一款语言模型，已开放大规模用户使用。2023年12月，Bard背后的大模型已迭代为Gemini。2024年2月，谷歌发布了Gemini Advanced Ultra 1.0，称其为“有史以来最强大的模型”。

Alpaca是Meta Research的一种新的开源语言模型，其性能与闭源模型一样好。与Stable Diffusion类似，自该模型公开发布以来，已经进行了大量的实验和创新。Alpaca是LLaMA的微调版本，可以响应ChatGPT等指令，而且与LLaMA一样，它是开源的。

ChatGLM是由清华系创业公司智谱AI推出的一款大模型，包括ChatGLM3-1.5B（15亿）、3B和6B参数三种。其中，ChatGLM3在44个中英文公开数据集测试中排名首位，性能较强。

GPT-4是由OpenAI开发的一款大型语言模型，该模型在生成质量、使用与性能、安全与合规三个维度上表现优异，在市场上的7个大型语言模型中排名第一。

文言一心是百度公司研发的一款大语言模型，能够满足文学创作、商业文案创作、数理推算、中文理解、多模态生成五个使用场景。

AutoGPT是自主运行的GPT，其运行过程无需或少需人工干预，能够根据GPT自主决策结果并结合外部资源执行相应操作，通过循环评估策略实时评估目标达成程度，来决定任务是否完成。

BabyAGI是一款于2023年4月3日发布的AI智能体，在短短两周内，斯坦福西部世界小镇、BabyAGI、AutoGPT等多个智能体就如雨后春笋一般冒出来。其能够通过自主学习解决任务，表现优异。

Claude 1是由Anthropic公司开发的一款大语言模型，于2022年下半年推出。它可以处理10万token（约7.5万个单词）的上下文窗口，是目前市场上最大的上下文窗口之一。在ChatGPT多次封号潮期间，Claude 1一直被认为是GPT的最强替代品。

Copilot X是GitHub Copilot的新版本，接入GPT-4，并新增了聊天和语音功能，允许开发人员用自然语言询问如何完成特定的编码功能。开发人员只需要写出一段内容描述自己想要的代码，它就能自动“理解”并给出相应的代码，甚至能实现自动联想和纠错。

2023年3月，Midjourney发布了第五代V5模型，Midjourney的风格是简单、直接、高效，所有精力集中在模型上。

4月份5款

添加图片注释，不超过 140 字（可选）

Stable Diffusion XL在大语言模型开启的AIGC时代风靡全球，其生成的图像色彩体验丰富，是当前图像生成领域最好的开源模型。

Pika Beta大模型是一个多模态大语言模型，这是一个能够生成和编辑3D动画、动漫、卡通和电影的人工智能大模型

Vicuna 13B是一款基于 Llama-13B 模型的人工智能大模型，经过在 ShareGPT 收集的用户共享对话上进行微调训练后得来。

SAM是一种面向通用场景的图像分割模型，它就像和ChatGPT对话一样，人类可以通过一些语言指令，让SAM自主分辨和思考图片中的内容。

MLC是一个通用解决方案，它可以帮助用户将任何大语言模型在多种硬件后端进行原生的应用程序部署。例如，用户可以在手机端部署运行大语言模型。

5月份2款

添加图片注释，不超过 140 字（可选）

PaLM2是谷歌推出的一款大语言模型。与一代模型PaLM相比，PaLM2在多语言处理、推理和编码能力上有了较大的提升。可以根据用户需求和使用场景做定制化调整。

QLoRA是一种高效的大模型微调方法，可以大幅减少内存使用量，利用QLoRA，研究人员训练了guanaco系列模型，其中最大的模型使用单个专业GPU在24小时内达到了99.3%，有效缩小了在Vicuna基准上与ChatGPT的差距。

6月份3款

添加图片注释，不超过 140 字（可选）

Runway Gen2：Runway公司最新推出的文本生成影片（Text-to-video）AI模型，通过简单的文本提示，能够生成4秒的精彩视频片段。

WizardLM：由Can Xu等人在2023年4月提出的一个能够根据复杂指令生成文本的大型语言模型，共有三个版本，分别是7B、13B和30B，分别表示参数量为70亿、130亿和300亿。

Phi-1：2023年6月，微软发布了一篇题为《Textbooks Are All You Need》的论文，用规模仅为7B token的“教科书质量”数据训练了一个1.3B参数的模型——phi-1。

7月份4款

添加图片注释，不超过 140 字（可选）

Llama 2是Meta发布的语言大模型。该模型有70亿、130亿和700亿三种参数规模，其中700亿参数模型能力已与GPT-3.5接近。

Claude 2是Anthropic发布的全新大语言模型。支持上传文件，且能够实现更长文本的响应，在编程、数学、推理等方面都有大幅提升

。

MetaGPT是一个多智能体框架。该框架利用SOP（Standard Operating Procedures，标准作业程序）来协调基于大语言模型的多智能体系统，从而实现元编程技术。

AnimateDiff是一个基于SD的WebUI插件，它的主要功能是通过文本描述生成动画图片和视频。使用这个插件可以直接输出完整的GIF或MP4动画文件，无需对每个帧进行渲染合成。

8月份1款

添加图片注释，不超过 140 字（可选）

Code Llama是Meta公司基于Llama 2大语言模型打造的，可根据代码和自然语言提示生成代码和有关代码的自然语言，支持多种主流编程语言，包括Python、C++、Java、PHP、Typescript（Javascript）、C#和Bash。

9月份7款

添加图片注释，不超过 140 字（可选）

DALL·E 3是由OpenAI公司开发的图像生成模型，它能够根据用户输入的文字描述生成高质量的图片和艺术作品，应用场景包括创意绘图、产品设计和视觉艺术等。

GPT-4 Web Browsing是OpenAI公司向Plus用户（GPT-4付费用户）全面开放的一项功能。该功能允许GPT-4摆脱资料数据的限制，根据用户输入的关键词自行在互联网上搜索信息，并对实时搜索的信息做进一步的总结和提炼。

GPT-4V（Vision）是OpenAI开发的多模态模型，其允许用户上传图像作为输入并提出有关图像的问题，这种任务类型称为视觉问答（VQA）。

Make-A-Video 是一款视频创作工具，它可以将文本转换为生动的视频内容。用户只需输入描述性的文本，Make-A-Video 就会根据文本生成相应的视频。

Mistral 7B语言模型，它是一个拥有70亿参数、在保持高效的同时达到最先进性能的语言模型。

Stable Audio是Stability AI公司推出的一款人工智能音乐生成工具，可根据用户提供的描述性文本提示以及所需的音频长度生成音轨。

10月份3款

添加图片注释，不超过 140 字（可选）

Ferret是苹果公司和哥伦比亚大学研究团队共同推出的一款多模态大语言模型，该模型拥有70亿和130亿两个参数版本，图像处理能力较为突出。

阿里、腾讯投资的人工智能（AI）独角兽公司智谱AI正式发布全新自研的第三代基座大模型ChatGLM3，ChatGLM3包括ChatGLM3-1.5B（15亿）、3B和6B三种参数。

LCM全称Latent Consistency Models（潜在一致性模型），是清华大学交叉信息科学研究院研发的一款生成模型。它的特点是可以通过少量步骤推理合成高分辨率图像，使图像生成速度提升2-5倍，需要的算力也更少。

11月份3款

添加图片注释，不超过 140 字（可选）

MLX它是苹果公司开源的一款用于在其芯片上运行的机器学习框架。

Pika 1.0能够仅凭一句话生成3D动画、动漫、卡通、电影等各种风格的视频，实现高质量、低门槛的视频生成。

Yi-34B大模型是由零一万物团队发布的一款34B LLM模型，其中Yi-34B-Chat以94.08%的胜率，在Alpaca经认证的模型类别中，成为世界范围内仅次于GPT-4英语能力的大语言模型，是经由Alpaca官方认证为数不多的开源模型。

埃隆·马斯克（Elon Musk）旗下xAI团队发布了首个AI大模型产品Grok。Grok能够和ChatGPT一样通过联网来获取实时信息，并浏览和使用X（原推特）平台上的信息。xAI团队介绍称，这个AI旨在回答所有几乎所有的问题，甚至还会建议该问什么样的问题。

12月份4款

添加图片注释，不超过 140 字（可选）

Gemini是谷歌于2023年12月发布的一种多模态人工智能模型，它可以像人类一样理解我们周围的世界，处理代码、文字、音频、图像和视频等内容。

Mixtral 8x7B是一个稀疏专家混合模型（SMoE），开放权重，在模型结构上是一个仅解码器的模型，其中前馈块从一组8个不同的参数组中进行选择。

Phi-2是微软于2023年12月发布的一个27亿参数的语言模型，这是一种文本到文本的人工智能程序，具有出色的推理和语言理解能力。

Midjourney V6模型将更严谨地遵循提示词，并支持更长的提示词，改进了连贯性和模型知识，改进了图像提示和混合功能，提供简单的文本绘制能力，改进了放大功能。

所有入选均来自DataLearner主观评价

生存和竞争永远是人类最大的进步动力，巨头们的竞争注定了2024年一定是AI应用爆发的一年。

内容来源公众号：AICG学派

一句话生成视频，一句话生成图片…未来你们只需要会敲几个字就行

推荐体验

相关资讯

皮衣黄推出新AI：一句话生成视频

AIGC重塑影视制作，一句话生成视频

突发！一句话，股价暴跌23%

视频界Midjourney来了，一句话拍大片

利用ChatGpt一句话生成前端完整项目

近期资讯

林伯强：找准光热发电定位，打造多能互补模式

吉林众发取得用于金属切割的锯床专利，防止较长工件切割时因自身形变影响精度

小天鹅小乌梅2.0 TG100RVICPRO滚筒洗衣机：国补加持，洗衣新风尚

如何正确进行主板放电维护，延长电子设备使用寿命的技巧与注意事项

1569元，入手真我GTNeo6，那是物有所值的！

RTX 5090 PCB电路板谍照首次曝光，巨型核心引发热议

阴离子调制--设计适用于高电压固态锂金属电池的聚合物电解质

江苏：到2025年末智能建造产业链初步形成

追忆大师们“有趣的灵魂” 追寻缺失的“青春拼图”

量子隐形传态成功通过普通光缆传输，为其更先进安全应用打开大门

推荐体验

AIGC重要产品

AI对话：类ChatGPT产品体验

好用的AI绘画工具

火热的AIGC产品

AIGC近期要闻

大公司发布的大模型产品都有哪些？

政府对AIGC的扶持政策

AIGC对就业的影响：我们会失业吗？

AIGC产业影响

AIGC对内容创作的影响

AIGC对绘画设计领域的影响

AIGC对各行各业的影响