InfoQ 研究中心本研究围绕语义理解、文学创作、知识问答、逻辑推理、编程、上下文理解、语境感知、多语言处理及多模态交互等十大核心领域,对包括 ChatGPT-4、文心一言专业版、通义千问 V2.1.1、Bard2.0、讯飞星火 V3.0、Kimi Chat 网页版、百川大模型 V1.0、智谱清言网页版、360 智脑 4.0 和豆包在内的十款热门模型进行了全面评估,测试题目数量超过 3000 道。...【查看原文】
InfoQ 研究中心选取语言模型准确性、数据基础、模型和算法的能力、安全和隐私四个大维度和 12 个细分维度,分别对ChatGPT、Claude、Sage、天工3.5、文心一言、通义千问、讯飞星火、Moss、ChatGLM、vicuna-13B进行了超过 3000+ 道题的评测。另外,本次研究特别关注了技术视角中大模型产品的编程能力,同时也专门设置了关于中文语境的特色测试题目, 如方言测试、中文特色推理、对对联等。InfoQ 研究中心希望可以通过本次测评帮助更多技术领域同仁获得对于中外大模型产品能力的逻辑认知,以帮助大家在 AGI 创业方向选择、工作实际应用等方面获得最新认知。
大语言模型天工大模型VicunaChatGPTClaude
InfoQ研究中心 2023-05-29
InfoQ研究中心 2023-06-06
该报告为《AI大模型专题:大语言模型能力测评报告2024》,共计43页,由极客传媒出品。报告指出,多家企业和机构按照相关规定完成备案和变更手续后,对公众全面开放,标志着大模型发展进入新阶段,加速推动大模型产业化应用。
AI大模型大语言模型
烟树晚雁 2024-01-23
事实上,无论是中文创意写作,还是语义理解、中文知识问答,这些题目都主要反应的是大语言模型产品对文字的基础认知和学习能力,而我们从测评结果中清晰的看到,百度文心一言各方面数据表现优异,各项能力评分都位居Top2…
大语言模型文心一言百度
InfoQ 2023-05-29
近日国内与人工智能领域相关的利好政策陆续释放,中央召开的相关会议强调“未来要重视通用人工智能发展,营造创新生态。”《北京市促进通用人工智能创新发展的若干措施(2023-2025 年)(征求意见稿)》围绕五大方向提出 21 项具体措施,包括“开展大模型创新算法及关键技术研究”,“加强大模型训练数据采集及治理工具研发”等,同时面向政务服务、医疗、科学研究、金融、自动驾驶、城市治理等领域拓展应用场景,以抢抓大模型发展机遇,推动通用人工智能领域实现创新引领,中国大模型技术产业迎来了一波前所未有的发展契机,百度、阿
大语言模型人工智能医疗金融
郭太侠 2023-05-31
9月16日,许多网友在社交平台表达自己对近日台风天气的感受。9月16日,台风“贝碧嘉”在我国东南沿海登陆,而今年第14号台风“普拉桑”已于15日晚在西北太平洋洋面上生成,两个台风的路径比较相似。据中国天气网,除此之外,未来十天,南海和西北太平洋还将有1-2个台风生成,其中一个将可能影响我国东南部沿海地区,国庆前或将“一周一个台风”。
极目新闻 2024-09-18
期间,清华长庚医院发布了多项最新成果,涵盖心理健康状态检测系统等,其中基于医疗垂直行业大模型的智能电子病历助手可自动提取并生成患者详细病历信息,大幅提高了病历记录的效率。
新京报 2024-09-18
继帮助患者通过思考控制计算机以及实现打电子游戏等能力后,马斯克旗下脑机接口公司Neuralink正在尝试通过实验性植入物帮患者恢复视力。
澎湃新闻 2024-09-18
9月16日7时30分,台风“贝碧嘉”在上海浦东沿海登陆,登陆时中心附近最大风力14级,为75年来登陆上海最强的台风。
金台资讯 2024-09-18
说起国产首款3A游戏《黑神话:悟空》,可以说是火遍了全世界,甚至连取景地山西也迎来了一波“泼天富贵”,新一轮攒机潮的到来也就在情理之中了。令人惊喜的是,这款游戏对硬件要求并不是非常苛刻,甚至用GTX1060等显卡的玩家大有人在。
中关村在线 2024-09-18
IT之家9月18日消息,小米汽车App今日获推1.6.2版本升级,新增桌面小组件、应用查看车辆智驾数据等功能。安卓端暂未更新该版本,但小米应用市场显示应用正在维护中(版本号为1.6.0)。
IT之家 2024-09-18
央视网消息:青春点亮人生,匠心开创未来,来认识一位来自北京的小伙子。他首次参加世界技能大赛,就夺得了珠宝加工项目的金牌,同时也实现了中国代表团在珠宝加工项目上金牌零的突破。参赛者需要解读组件或珠宝首饰图纸,制作贵重合金金属,了解其含量及性质,并根据要求,切、锯和塑形金属片,最终制作出与图纸尺寸、大小、形状一致的珠宝首饰。
光明网 2024-09-18
大模型太多、应用却太少,大模型要跑起来、更要用起来……怎样走好大模型落地应用“最后一公里”,成为近期业内外探讨的焦点。目前,通过国家网信办备案的大模型已达190多个,注册用户超6亿。又比如,在电池储能体系中,参数的采集、处理、反馈涉及海量的数据,依靠传统的人工处理方式,最快也要以“天”来计算。
中国财富网 2024-09-18
OpenAI发布的o1系列模型标志着AI推理能力的飞跃,它在数学解题、代码生成等复杂任务上展现出了前所未有的能力,为AI向通用复杂推理的迈进铺平了道路!对比以往发布的模型,o1模型可以说相当有特色。用官方的说法,o1代表了现阶段AI最强的推理能力,尤其擅长解决数学解题、代码生成等等复杂推理任务。
人人都是产品经理 2024-09-18
9月17日,中秋夜,“超级月亮”现身天宇,市民在深圳“湾区之光”摩天轮上赏月拍照。今年的“超级月亮”与中秋满月几乎完美重合,这样的天文现象,平均每60年才会出现一次。而在中秋当日,我国“爱因斯坦探针”空间X射线天文台,也在这中秋佳节从太空传回月亮的X射线照片。
南方都市报 2024-09-18
Copyright © 2024 aigcdaily.cn 北京智识时代科技有限公司 版权所有 京ICP备2023006237号-1