当前位置:首页|资讯|AIGC|Stable Diffusion XL|Stable Diffusion

神奇拓荒者 AIGC |周刊第2期

作者:折木同学发布时间:2023-04-25

本周小结:从文章和新闻来看,是更多大模型,还有更多的ai应用,一些可以商业落地的ai应用逐步涌现。这一次摘选的ai应用,特别值得关注的有wps智能写作,fabrie ai,booth ai这3款软件


行业爆点

Stable Diffusion XL发布

通过Stable Diffusion XL,您可以使用更短的提示创建描述性图像,并在图像中生成文字。该模型是图像生成能力的重大进展,提供了增强的图像构图和面部生成,从而产生令人惊叹的视觉效果和逼真的美学。

Stable Diffusion XL目前正在DreamStudio和其他领先的图像应用程序中进行测试。与Stability AI的所有基础模型一样,Stable Diffusion XL将在不久的将来作为开源发布,以实现最佳的可访问性。

https://stability.ai/stable-diffusion


MiniGPT-4开源了

介绍了一个名为MiniGPT-4的小型语言模型。该模型是基于大型语言模型GPT-4的设计思路和结构,但相比于GPT-4,MiniGPT-4模型具有更小的规模和更低的计算资源需求,可以在低端设备上进行快速的部署和应用。

该论文提出了一个新的模型架构,称为“Position-wise Fully-Connected GPT (PFC-GPT)”,通过将全连接层替换为position-wise全连接层,降低了模型的参数量和计算复杂度。同时,该论文还提出了一种新的训练策略,称为“Deep Shallow Training”,通过深度和浅层网络的交替训练,提高了模型的泛化性能和稳定性。

训练分为两个阶段。

传统预训练阶段,在4张A100上使用500万图文对,10个小时内就可以完成,此时训练出来的Vicuna已能够理解图像,但生成能力有限。

然后在第二个调优阶段再用一些小的高质量数据集进行训练。这时候的计算效率很高,单卡A100只需要7分钟。

该模型的优势在于:

  1. 相比于大型语言模型GPT-4,MiniGPT-4具有更小的模型规模和更低的计算资源需求,可以在低端设备上进行快速的部署和应用。

  2. MiniGPT-4采用了一种新的模型架构和训练策略,通过替换全连接层为position-wise全连接层和深度浅层交替训练,降低了模型的参数量和计算复杂度,提高了模型的泛化性能和稳定性。

  3. MiniGPT-4在多个自然语言处理任务上进行了实验,并取得了较好的性能表现,说明该模型在一些特定的应用场景下具有一定的优势。

该模型的不足之处在于:

  1. MiniGPT-4仍然是一个实验性模型,其性能和应用场景可能存在一定的限制和局限性。在使用该模型时,需要仔细评估其适用性和可靠性。

  2. 与大型语言模型相比,MiniGPT-4的生成能力和表现可能存在一定的差距,因为它的模型规模和参数量较小。

  3. MiniGPT-4需要进行专门的训练和调参过程,以获得最佳的性能表现,这需要相应的技术和资源支持。

在线体验:https://minigpt-4.github.io/

GitHub:https://github.com/Vision-CAIR/MiniGPT-4

论文:https://github.com/Vision-CAIR/MiniGPT-4/blob/main/MiniGPT_4.pdf


亚马逊推出Amazon Bedrock和Amazon Titan模型

  1. Amazon SageMaker GAN Workshop:一个交互式的工作坊,介绍了如何使用Generative Adversarial Networks(GANs)来生成图像、音频和文本等内容。

  2. Amazon SageMaker JumpStart:一个预先构建的机器学习模板和工作流程库,其中包括了多个生成式AI应用的示例和解决方案。

  3. Amazon SageMaker Feature Store:一个用于存储和管理机器学习特征的服务,可以帮助开发者快速构建和部署生成式AI模型。

  4. AWS Deep Learning Containers with PyTorch:一个包含了PyTorch深度学习框架和其他相关工具和库的容器,可以帮助开发者快速构建和部署生成式AI应用。

https://aws.amazon.com/cn/blogs/machine-learning/announcing-new-tools-for-building-with-generative-ai-on-aws/


ControlNet 1.1重磅发布,14个模型全部开源!

ControlNet 1.1 开始,我们开始使用标准 ControlNet 命名规则 (SCNNRs) 来命名所有模型,作者希望这个命名规则能够提升用户体验。

包含14个模型

附github地址:https://github.com/lllyasviel/ControlNet-v1-1-nightly


上海印发 《上海市推进算力资源统一调度指导意见》的通知

意见中提到:到2023年底,依托本市人工智能公共算力服务平台,接入并调度4个以上算力基础设施,可调度智能算力达到1,000 PFLOPS(FP16)以上;到2025年,市人工智能公共算力服务平台能级跃升,完善算力交易机制,实现跨地域算力智能调度,通过高效算力调度,推动算力供需均衡,带动产业发展作用显著增强。本市数据中心算力超过18,000 PFLOPS(FP32);

基于算力资源底数,推动头部企业接入市人工智能公共算力服务平台,构建一体化算力调度服务体系和平台基础框架,实现算力资源统一编排。

形成枢纽型数据中心集群、城市数据中心集聚区、边缘数据中心梯次布局。

依托基础电信运营企业网络资源,结合算网特点,建设技术先进的极速算力承载网。

鼓励建设国产自主可控、安全可靠的算力基础设施和基于国产自主可控的算力应用生态。

https://www.shanghai.gov.cn/gwk/search/content/c7cb99fadd52460299d95afdfadb941b


全球最大ChatGPT开源平替来了!支持35种语言

刚刚,LAION发布了世界最大ChatGPT开源平替——OpenAssistant。网友上手实测后,纷纷表示这是开源的胜利。世界最大的ChatGPT平替来了!OpenAssistant是一个开源的对话模型,基于Pythia和LLaMA微调而来,主要用于训练人类标注的数据。

https://open-assistant.io/zh


复旦大学 MOSS 大模型今日正式开源

MOSS 是一个支持中英双语和多种插件的开源对话语言模型,moss-moon 系列模型具有 160 亿参数,在 FP16 精度下可在单张 A100 / A800 或两张 3090 显卡运行,在 INT4/8 精度下可在单张 3090 显卡运行。MOSS 基座语言模型在约七千亿中英文以及代码单词上预训练得到,后续经过对话指令微调、插件增强学习和人类偏好训练具备多轮对话能力及使用多种插件

https://moss.fastnlp.top/

附github开源版本地址

https://github.com/OpenLMLab/MOSS


AI产品推荐


Gen-2 (现已公测)

是一个多模式人工智能系统,可以帮助用户生成新颖的视频,其中包括文本、图像和视频剪辑等多种模式。该系统基于深度学习技术和生成对抗网络(GANs)算法,可以自动合成各种元素和素材,生成高质量的视频作品。

用户可以通过该系统的界面选择不同的模式和参数,输入所需的文本、图像或视频等素材,即可生成对应的视频作品。同时,该系统还支持用户自定义编辑和优化,方便用户对生成的作品进行后期的调整和修改。

https://research.runwayml.com/gen2


Fabrie AI+设计协作

是一家提供在线协作和团队沟通工具的互联网公司。该公司提供一系列协作工具和服务,包括团队协作、项目管理、在线白板、文档协作、直播会议等,旨在帮助团队高效协作和沟通。同时,该公司的产品也支持多端访问,包括Web端、移动端和桌面客户端,方便用户在不同场景下使用。

让AI帮你进行文字联想、生成图片、抠图和文字识别...灵感在指尖绽放!

https://www.fabrie.cn/home


WPS智能写作

金山WPS推出的一款人工智能写作工具,它基于自然语言处理技术和深度学习算法,可以自动为用户生成文章、段落、句子等内容,帮助用户快速生成高质量的文本。

该工具支持多种语言和领域的文本生成,用户可以根据自己的需求选择不同的模板和主题,输入关键词或简要描述,即可生成对应的文本内容。除了自动生成文本,该工具还支持用户自定义编辑和修改,方便用户根据实际情况进行调整和优化。

需要注意的是,该工具生成的文本质量和准确性可能会受到多种因素的影响,如输入的关键词、模板的选择等,因此用户需要进行一定的修改和修正,以确保生成的文本符合自己的要求和标准。

https://aiwrite.wps.cn/#/


印象AI

「印象AI」将为印象笔记用户提供丰富场景下的开放式写作助理,从专业的采访提纲、新闻稿写作,到日常工作所必需的日程待办、广告文案、促销邮件、头脑风暴,亦或是生活中常常要遇到的餐馆点评、优劣对比,甚至是充满趣味的emoji转换、现代诗创作,近30个不同的创作场景。

https://www.yinxiang.com/


天工AI助手(内测)

是昆仑万维集团推出的一款云计算服务平台,提供基于云计算的各种服务和解决方案,包括云服务器、容器、数据库、安全和监控等。

该平台采用自主研发的数据中心和云计算技术,支持多种计算、存储和网络资源的分配和调度,提供高可用、高可靠、高性能的云计算服务,适用于各种规模和类型的企业和机构使用。

https://tiangong.kunlun.com/


Elementor AI

Elementor 推出的一款人工智能设计工具,可以帮助用户快速创建和定制网站、页面和UI设计,提高设计效率和质量。

该工具基于机器学习技术和自然语言处理算法,可以自动分析和理解用户的需求和意图,根据用户的输入和选择,生成相应的设计方案和布局,同时还支持用户进行自定义编辑和修改,方便用户根据实际情况进行调整和优化。

https://elementor.com/products/ai/


kreado ai

是一款多语言AI视频创作工具,可以帮助用户快速生成真实/虚拟人物的多语言口播视频。

该工具基于自然语言处理技术和计算机视觉算法,可以自动分析和理解用户输入的文本或关键词,生成相应的视频内容和元素,同时支持多种语言和口音的选择。该工具的目标用户主要是创作者和营销人员,可以帮助他们节省时间和成本,快速生成高质量的视频内容,提高营销效果和用户体验。

https://www.kreadoai.com/


Booth Al

是一款用于创建产品照片的人工智能工具,可以帮助用户快速生成高质量的生活方式照片。

该工具基于深度学习技术和计算机视觉算法,可以自动分析和理解用户上传的产品图片和指定的照片风格,生成相应的生活方式照片,包括环境、场景、模特等元素。用户只需要上传一些示例产品图片和指定想要的照片风格,即可快速生成高质量的照片。

https://www.booth.ai/


AIGC经验


运用AIGC人工智能生产内容

https://mp.weixin.qq.com/s?__biz=MjM5NzQxMDkwMg==&mid=2655455307&idx=1&sn=cdd06ab025adab71d831c68d5d274b1e&scene=21#wechat_redirect

设计师如何用chatGPT更好的工作?给你17个例子

https://mp.weixin.qq.com/s?__biz=MzkyNTIzMjE1Nw==&mid=2247500002&idx=1&sn=ed50b99e9b08af4befe1b61b8b2bdb3b&scene=21#wechat_redirect

我用ChatGPT做用研?

https://mp.weixin.qq.com/s?__biz=MjM5NjA1NzEwMA==&mid=2651027252&idx=1&sn=e6791d38cc540a7352dfa6616c814ce2&scene=21#wechat_redirect

B端视觉设计,用Midjourney可落地吗?

https://mp.weixin.qq.com/s?__biz=Mzg5NTcwNDU0NA==&mid=2247484582&idx=1&sn=f6a060dd74d3c1dbd7939950583214b1&scene=21#wechat_redirect

AIGC如何为可视化大屏设计提效?

https://mp.weixin.qq.com/s?__biz=MzkzOTE4MDA0MA==&mid=2247483728&idx=1&sn=ce4cae0a8f930cae9c0cb1ca531b6e07&scene=21#wechat_redirect

网易伏羲UED-交互设计在ChatGPT运用上的探索和思考

https://mp.weixin.qq.com/s/YywXWTyUl13Siu4EDoj0eA


AI讲座值得一看


斯坦福公开课|GPT-3&Beyond: 掌握未来交互设计趋势,从语言理解开始!

斯坦福大学的一门公开课,主题为“GPT-3&Beyond: 掌握未来交互设计趋势,从语言理解开始!”。

在这门课程中,讲师介绍了自然语言处理和生成模型的发展历程,重点讲解了最近几年涌现出来的GPT模型系列的特点和应用。同时,讲师还介绍了GPT模型在自然语言生成、对话系统、问答系统等领域的应用案例,并探讨了未来自然语言处理和生成模型的发展趋势和挑战。

https://www.bilibili.com/video/BV1Ug4y1g7dY/?share_source=copy_web&;vd_source=e5388f8248fc8f69df69957da4ad53d1


斯坦福HCI研讨会-以交互为中心的人工智能  Interaction-Centric AI (Stanford Seminar)

是斯坦福大学举办的一个HCI研讨会,主题为“以交互为中心的人工智能 Interaction-Centric AI”。

在这个研讨会上,多位讲师从不同的角度探讨了交互设计和人工智能的关系,以及如何将交互设计融入到人工智能技术的研发和应用中。其中,讲师们介绍了人机交互、自然语言处理、机器学习等相关技术和应用案例,并探讨了人工智能技术在提高用户体验、解决现实问题等方面的应用前景和挑战。

https://www.bilibili.com/video/BV1wg4y1G7AB/?share_source=copy_web&;vd_source=e5388f8248fc8f69df69957da4ad53d1


AI趣事


4月21日中午大触画师阮佳突然在微博像AI发起挑战

最终的挑战结果是AI因为时间仓促无法满足单一画幅的内容。他本人也提到:我不是在抵制科技的进步(虽然我觉得这些东西目前也就那样),历史的车轮谁都挡不住,如果实在要你的命,那么我就努力在自己专业战斗到最后(假如它真的能替代的话)我是觉得不该去侮辱那些在这波冲击那些倒下的人,曾经努力过的人,看到他们被凌辱觉得难受,你们不该在他们身上幸灾乐祸,这是我的态度

结果令人唏嘘,让人想引用马克思在《资本论》中这样地写道:“……在资本主义体系内部,增进劳动社会生产力的一切方法,是以个别劳动者为牺牲来实行的,生产发展的一切手段,都转化为对于生产者的支配手段和剥削手段,把劳动者残废为一个部分的人,把他贬为机器的附属物,破坏劳动的内容,使其成为苦工,并比例于科学当作独立力量被合并于劳动过程的程度,从他那里,夺去劳动过程的灵性力。


每周图书推荐


涌现:从混沌到有序

简介:揭示了这样一个规律,即复杂的事物是由小而简单的事物发展而来的,而这正是涌现现象的特征。涌现现象产生的根本原因在于,事物各组成部分之间相互作用产生的复杂性,远非个体行为的叠加可以相比,也就是我们常说的“整体大于部分之和”。

“整体大于部分之和”这一特性也成为涌现研究道路上的阻碍。许多哲学家和一些科学家坚定地认为对涌现的研究不可能还原为对明确定义的机制及其相互作用的研究。他们认为,机器的能力不可能超越人类在制造它时赋予它的能力。复杂自适应系统理论提出者约翰·霍兰德借助模型和还原思想,建立了研究涌现现象的普适框架,扫清了研究道路上的障碍,推动了复杂自适应系统、机器学习、人工智能等领域的长足发展。

推荐理由:

《从混沌到有序》开辟了在历史上极其宝贵的新视野。它通过新的概念和理论,为理解宇宙、生命以及人工智能提供了深入的洞察。这本书将引领读者走进一个崭新的认知世界, opening 人类思维的新门槛。这样的启发和影响,不仅限于专业研究,对于所有向往认知进步的人来说都至关重要。

感谢观看!如果你需要关于AIGC周刊可以关注订阅我,每周我都会分享行业大新闻、AI工具推荐、学习资源、AI案例以及商业相关信息



Copyright © 2024 aigcdaily.cn  北京智识时代科技有限公司  版权所有  京ICP备2023006237号-1