前两天 OpenAI 不是刚宣布 GPT-3.5 可以免注册访问嘛,紧接着就有大佬在 Github 上开源了一个利用免登录 ChatGPT Web 提供的无限制免费 GPT-3.5-Turbo API 服务——FreeGPT35。
支持通过Docker容器一键部署,方便快捷。
github地址:
https://github.com/missuo/FreeGPT35
InstantStyle是一个全新的图片个性化框架,它通过巧妙地将图片中的风格和内容分离,并专注于特定风格区域,解决了风格一致性的挑战,无需复杂的调整。该框架确保了详尽且一致的视觉风格化效果,并将风格强度与文本控制无缝融合。这一技术的推出,为用户提供了一种全新的图片定制化体验,使得个性化图片创作变得更加简单高效。
开源地址:
https://github.com/InstantStyle/InstantStyle
论文:
https://arxiv.org/abs/2404.02733
DesignEdit是一个先进的图像编辑研究项目,旨在通过多层次潜在分解与融合技术实现统一且精确的图像编辑。这个项目通过采用设计领域的层次概念,能够灵活操作作图像中的对象并执行多种编辑操作,从而将具有空间意识的图像编辑任务转换为两个主要子任务:多层次潜在分解和多层次潜在融合。DesignEdit不仅能够执行传统的图像编辑任务,如裁剪、调整亮度或对比度等,还能进行更为复杂的操作,如改变图像中对象的位置、大小,甚至完全更换图像的背景景。这些能力使得DesignEdit成为一个强大的工具,适用于广泛的应用场景,如专业的图像设计、观觉艺术创作和社交媒体内容制作等。
项目地址:
https://design-edit.github.io/
集成DiT-based架构 解决了现有文本到视频(T2V)生成模型未能充分编码现实世界物理知识的问题。 在传统的T2V生成中,生成的视频往往具有有限的动作和变化较差的问题 MagicTime通过引入变形时间延迟视频的概念,旨在克服这些限制,提高视频生成的质量和动态性。 主要解决的问题: •物理知识编码不足: 现有的T2V模型生成的视频缺乏对现实世界物理规律的准确反映。 •有限的动作和变化: 生成的视频动作单一,变化不足,难以反映复杂的变形过程。 MagicTime通过生成高质量和动态的变形视频,证明了其对生成时间延迟视频的优越性和有效性,为构建物理世界的变形模拟器开辟了一条有希望的道路。 项目及演示:
https://pku-yuangroup.github.io/MagicTime/ 论文:https://arxiv.org/abs/2404.05014 GitHub:https://github.com/PKU-YuanGroup/MagicTime/tree/main
HairFastGAN,一个解决将参考图像中的发型转移到输入照片上以进行虚拟发型试戴的复杂任务的新方法。它能够将一张照片上的人物发型以高质量和高效率的方方式转移到另一张照片上。通过分析和处理发型的颜色、形状和结构,以及考虑到照片姿势的差异,HairFastGAN实现了逼真且稳健的发型转移。
github地址:
https://github.com/AIRI-Institute/HairFastGAN
根据文本描述生成图像时,如果你想精确控制图像的某些风格或特征,就会变得比较困难。 DreamWalk解决了这一问题,它可以让你可以决定哪部分更加强烈地体现某种风格,哪部分则保持原样或采用另一种风格。 例如,在一幅风景画中,你可能希望只将梵高的星空风格应用于天空部分,而保持山脉和河流的自然真实感。 DreamWalk还支持在不同风格之间进行平滑过渡、遵循DreamBooth主题或文本提示的细节。 还可以将现有的真实世界图像转换为特定风格的艺术作品。
项目及演示:
https://mshu1.github.io/dreamwalk.github.io/
论文:
https://arxiv.org/abs/2404.03145
Parler-TTS是一个轻量级的文本到语音(TTS)模型,可以以特定说话者的风格(包括性别、音调、说话风格等)生成高质量、自然听起来的语音。这个模型是根据Dan Lyth和Simon King的论文《使用合成注解的高保真文本到语音的自然语言指导》而开发的,Dan Lyth属于Stability AI,Simon King来自爱丁堡大学。
与其他TTS模型不同,Parler-TTS是完全开源发布的。所有的数据集、预处理、训练代码和权重都是公开发布的,这使得社区能够在此基础上建立自己的强大TTS模型。
它能够生成高质量且听起来非常自然的语音。还可以定制说话者的风格(如性别、音调、说话风格等)。 与其他TTS模型不同,Parler-TTS 完全开源发布,包括数据集、预处理、训练代码和权重。 只需一行代码即可安装。 此外,它还提供了交互式演示和详细的训练指南,使用户能够快速上手并自定义模型。
开源地址:
https://github.com/huggingface/parler-tts
小米终于遥遥领先了要,这次在AI绘画SD领域,开源了自家研发的AI绘画扩散模型SDXS,生图速度提升30至60倍。
通过采用知识蒸馏技术对U-Net和图像解码器架构进行精简,并结合独创的单步DM训练方法,该技术通过特征对齐和分数蒸馏实现了性能的飞跃。SDXS系列提供了两个不同规模的模型,即SDXS-512和SDXS-1024,它们的设计紧密贴合图形分辨率的需求。这两款模型在单GPU环境下分别能够达到约100 FPS和30 FPS的推理速度,相较于以往的模型,速度提升了30至60倍,是SDXL系列的三倍之多,其速度之快令人惊叹不已。
github地址:
https://github.com/IDKiro/sdxs
项目主页:
https://idkiro.github.io/sdxs/
Perplexity通过其独特的问答机制,为用户提供了一种全新的信息检索方式,而Morphic则将这一理念带入了开源社区,让更多人能够参与到这一变革中来。
值得一提的是,Morphic的灵活性非常高,它不仅能够与OpenAI的API完美配合,还能够无缝切换到Gemini和Google Search的API,这进一步证明了其强大的适应能力和广泛的应用前景。随着AI技术的不断进步,我们有理由相信,类似的问答式搜索体验将会成为未来搜索服务的标配。
项目地址:
http://github.com/miurla/morphic
体验地址:https://www.morphic.sh/ 体验地址2:
http://my-morphic-tan.vercel.app
LLocalSearch是一个完全本地运行的搜索聚合器,使用LLMAgents。用户可以提出一个问题,系统将使用LLMS的链条来查找答案。用户可以看到代理的进度和最终答案。无需OpenAl或GoogleAPl密钥。与传统依赖于云API(如OpenAl或Google API)的搜索服务不同,LLocalSearch的所有操作都在本地完成,这意味着所有的数据处理和搜索逻辑都在用户的机器上执行行,不需要通过互联网传输数据到外部服务器。
github地址:
https://github.com/nilsherzig/LLocalSearch
FreeAskInternet是一个开源项目,提供了一个完全免费、私密且且本地运行的类似perplexity.ai的搜索聚合器和答案生成器。用户可以提出问题,系统将使用多引擎搜索索,并结合搜索结果和LLM(如ChatGPT3.5)生成答案。整个过程都在本地运行,无需GPU、(OpenAl或Google的API密钥)
github地址:
https://github.com/nashsu/FreeAskInternet
MaxKB,由1Panel精心打造,是一款依托于大型语言模型(LLM)的智能知识库问答系统,它以即插即用的特性,轻松集成到各类商业应用之中。这款系统被设计为Max Knowledge Base,即最大化知识库,目标是助力企业构建其智能化的决策中枢。
MaxKB的核心优势在于其便捷性与高效性。首先,它的开箱即用特性意味着用户可以轻松上传文档,系统还能自动从互联网上抓取所需文档,极大地提升了信息整合的效率。此外,MaxKB能够自动将文本内容进行拆分,并运用先进的向量化技术,使得智能问答的交互体验更加流畅和自然。
其次,MaxKB的无缝嵌入功能,允许用户无需编写任何代码,即可将问答系统快速集成到现有的第三方业务系统中,极大地降低了技术门槛和集成成本。
最后,MaxKB支持多种模型,包括但不限于本地私有的大型模型如Llama 2,以及业界知名的Azure OpenAI和百度千帆大模型等。这种灵活性使得MaxKB能够适应不同企业的需求,为用户提供最适合自己业务场景的智能问答解决方案。
github地址:
https://github.com/1Panel-dev/MaxKB
stylellm项目是一项创新性的文本风格转换技术,它基于大型语言模型(llm)来实现文学作品风格的迁移。该项目通过深入学习特定的文学作品,包括其常用词汇、句式结构、修辞技巧以及人物对话等元素,构建了一系列具有独特风格的模型。
通过应用这些风格化的模型,stylellm能够将捕捉到的文学风格应用到其他普通文本中。具体来说,用户只需提供一段原始文本,stylellm模型便能够对其进行智能改写,生成具有目标风格的新文本。这一过程不仅可以对文本进行美化和润色,还能够模仿特定的写作风格,从而为用户提供丰富多样的文本创作体验。
开源地址:
https://github.com/stylellm/stylellm_models
Chinese Tiny LLM是针对中文设计的首个大语言模型,拥有20亿参数,并在12000亿中文语料库上进行预训练。他们还弄了了新的中文对齐基准测试:CHC-Bench,测试LLMs对中文文化、历史、传统、人文、地理和
STEM的深入理解。测试结果与一些同参数模型性能相当。他们开放了整个数据过滤过程、训练动态、训练和评估数据居,以及模型的中间检查点等所有相关信息。这样的做法使得其他研究者、开发者能够访问这些资源,利用这些资料进行自己的研究或进一步改进模型。
github地址:
https://github.com/Chinese-Tiny-LLM/Chinese-Tiny-LLM
Umi-OCR 是一款基于百度自研的PaddleOCR框架开源的 OCR 项目源、免费的离线OCR软件。该工具开源至今,一直再对功能进行更新支持,截屏/粘贴/批量导入图片、段落排版/去除水印、扫描/生成二维码等功能都已支持,不可畏不强大!最重要的是免费、离线!
github地址:
https://github.com/hiroi-sora/Umi-OCR
etaGPT是一种多智能体框架,其利用SOP(Standard Operating Procedures,标准作业程序)来协调基于大语言模型的多智能体系统,从而实现元编程技术。该框架使用智能体模拟了一个虚拟软件团队,包含产品经理、架构师、项目经理、工程师、质量工程师等角色,并引入SOP成为框架的虚拟软件团队的开发流程。其专注于软件开发,覆盖了从需求分析到代码实现的全生命周期覆盖。
Data Interpreter是MetaGPT的最新更新内容,它是一个强大的代理,能够解决广泛的现实世界问题。无论是机器学习、数学推理,还是开放任务,Data Interpreter都能够胜任。
和 Devin 一样,Data Interpreter也可以编程,能够编写机器学习模型、进行数学推理、自动回复电子邮件、仿写网站、分析股票等等……
开源地址:
https://github.com/geekan/MetaGPT
GPT Pilot是一个旨在帮助开发人员更快地构建应用程序的工具。帮助开发者以 20 倍速来开发应用,借助 AI 的力量,进一步提升开发效率。它的主要目标是探索在开发过程中如何充分利用GPT-4,从而生成完全可用的、生产就绪的应用程序,同时开发人员可以监督开发过程。
开源地址:
https://github.com/Pythagora-io/gpt-pilot
Ferret-UI:苹果开发出能“看懂”手机屏幕上并能执行任务的多模态模型
它将移动UI的视觉元素和语言元素结合起来,不仅能“看懂”屏幕上的内容,还能理解用户的指令和问题,进而执行任务或提供信息。
Ferret-UI的能力不止于看和识别,它还能进行推理。
例如,它可以通过分析屏幕上的元素来推测一个应用的功能,或者理解和参与与屏幕内容相关的对话。
Ferret-UI在所有基础UI任务上均超过了GPT-4V和大多数其他开源UI MLLM 论文:
https://arxiv.org/abs/2404.05719
以上就是本期的热点汇总了,有你感兴趣的项目吗?赶快去试试吧!
你对哪些方面的项目感兴趣呢?欢迎在评论区留言噢~
关注AI-GitHub,获取前沿AI资讯。