通义千问Qwen1.5-110B来了!这个Qwen1.5系列的新成员创下了一个里程碑:拥有超过1000亿参数的庞大规模! 模型亮点:架构:用了一种叫Transformer解码器的架构,还有个叫分组查询注意力(GQA)的东西。性能:无论是标准测试还是聊天模型测试,都厉害得很。多语言支持:说多少种语言都行,而且还能处理长篇大论![图片] 详细:https://reurl.cc/qVOong 或搜同名号:AIFOX [图片]...【查看原文】
通义千问首次推出千亿级参数模型Qwen1.5-110B,在MMLU、TheoremQA、GPQA等多个基准测评中展现出卓越性能。目前Qwen1.5系列已累计开源10款大模型,通义千问开源模型下载量超过700万。
通义千问
金融界 2024-04-29
阿里巴巴日前宣布,开源 Qwen1.5 系列首个千亿参数模型 Qwen1.5-110B。据称,此款新模型在各项性能指标上都展现出了显著的能力,特别是在与业界领先的Meta-Llama3-70B模型的对
阿里巴巴通义千问
网界 2024-04-28
鞭牛士12月1日消息,在通义千问发布会现场,财经网消息阿里云宣布开源通义千问720亿参数模型Qwen-72B。此外,通义千问当天还开源了18亿参数模型Qwen-1.8B和音频大模型Qwen-Audio。
鞭牛士 2023-12-01
速途网4月7日消息(报道:李楠)今日,阿里云通义千问开源320亿参数模型Qwen1.5-32B,可最大限度兼顾性能、效率和内存占用的平衡,为企业和开发者提供更高性价比的模型选择。目前,通义千问共开源了7款大语言模型,在海内外开源社区累计下载量突破300万。
通义千问大语言模型
速途网 2024-04-07
据阿里云官方消息,阿里云开源通义千问140亿参数模型Qwen-14B及其对话模型Qwen-14B-Chat,免费可商用。
2023-09-25
在 2024 年底,探索通用人工智能(AGI)本质的 DeepSeek AI 公司开源了最新的混合专家(MoE)语言模型 DeepSeek-V3-Base。
机器之心 2024-12-26
背景 最近在做某个需求的性能测试时发现:采集的内存数据时而会跌落到0,导致内存准入无法判断(其实这个问题也同样会影响到线上的内存数据采集)。采集的截图主要就下面2种case: 时而跌落到 0,时而又恢
0x264 2024-12-26
什么是事件流 事件流(Event Flow)是指在文档对象模型(DOM)中,当用户交互(如点击、键盘输入等)触发一个事件时,这个事件如何在 DOM 树中传播的过程。
写不出代码真君 2024-12-26
Android开发中,最重要的一项技能便是NDK开发,它涉及到JNI,C,C++等相关知识 我们常见的MMKV,音视频库FFmpeg等库的应用,都有相关这方面的知识。
Wgllss 2024-12-25
如果你是一位前端开发者,正在探索Android开发的世界,那么你一定会对Android的生命周期管理感到既熟悉又陌生。今天,我们将深入探讨Android中Fragment和Activity的生命周期,
火车叼位 2024-12-26
随着小米 SU7 的发布,不少网友发现了一个小米su7的展示网页,那是相当的酷炫: 当你体验一遍后,会看到各种炫酷的效果,包括隧道穿梭、波浪动画等,并且还有些细节也值得注意,如地面的反射效果。
加减法原则 2024-12-25
在现代网页开发中,常常需要实现高亮显示关键词的功能。例如,在一个搜索结果页面,用户可能输入某个关键词,并希望看到该关键词在相关内容中的高亮显示。下面我们将探讨如何通过 JavaScript 来实现这一
婷婷婷婷 2024-12-26
今天上午,著名 AI 科学家 Andrej Karpathy 在 X 上分享的一篇文章引起了广泛关注和讨论。这篇文章的核心论点是「认知负荷很重要」,即在写代码时,应该考虑之后阅读者和维护者能否更轻松地
雪花算法 Snowflake 一种由 Twitter 开发的分布式全局唯一 ID 生成算法,它生成的 ID 是一个 64 位的整数。
秋刀鱼梦 2024-12-26
在软件开发中,设计模式是提高代码质量、可维护性以及扩展性的有效工具。Java开发中,JDK的源码中包含了许多经典的设计模式,这些模式不仅为我们提供了有力的编程规范,还能帮助开发者在实际项目中解决常见问
齐朋 2024-12-26
Copyright © 2026 aigcdaily.cn 北京智识时代科技有限公司 版权所有 京ICP备2023006237号-1