2023年,以 ChatGPT为代表的生成式人工智能突飞猛进,上百个AI大模型争相问世,推动了新一轮科技革命和产业变革加速演进。现如今,随着“百模大战”步入新阶段,大模型的垂直化应用以及生态化发展逐渐成为市场关注的焦点。
在数智化风口下,同方股份旗下同方知网敏锐把握人工智能和数据要素两大发展机遇,与华为共同筹建人工智能联合创新实验室。双方充分发挥各自在算力、算法、数据资源、人才等方面的优势,积极开展人工智能技术领域的联合创新和技术攻关,合作打造的中华知识大模型(简称“华知大模型”)于2024年3月正式上线。此后,双方又重点聚焦大模型在知识服务与科研领域的垂直化应用,推动人工智能关键核心技术突破和大模型技术商业化落地获得加速度。
聚焦核心竞争力,“华知”突围
2024年政府工作报告提出,要深化大数据、人工智能等研发应用,开展“人工智能+”行动,使得AI大模型在推进新型工业化、培育新质生产力中发挥着重要作用。
然而,作为驱动新质生产力的重要引擎,“AI大模型如何解决行业生产经营中的实际问题”“如何做到自主可控、安全可信”成为现阶段大模型发展应用中企业需要解决的关键问题。
“华知大模型”就是同方知网为解决这些问题的探索与尝试。历时1年的联合创新和技术攻关、3个月的试运行,同方知网率先推出面向知识服务与科研行业的全学科、全领域、跨行业的专业知识增强大模型,不仅融合了语言、视觉、听觉等多模态理解和生成能力,还能融入各行业生产系统,提供专业、安全、可信的数据服务,赋能数智化升级发展。
日前,“华知大模型”已升级为2.0版,在性能、语料、功能、场景等方面均有明显提升。
业内人士认为,“华知大模型”之所以能在“百模大战”中脱颖而出,与其自身的数据优势、内容优势和技术优势息息相关。
在训练期间,大模型注入了知网海量专业知识数据。这些数据质量可靠、导向正确,在专业性、全面性和内容安全性方面具有突出优势。
在生成阶段,“华知大模型”会使用知网实时更新的全量数据,进行知识增强,并提供可信溯源服务,有效抑制大模型的“幻觉”问题,解决了现有通用基础大模型的知识记忆错误、信息时效不足、缺乏专业知识等常见问题,更有利于赋能千行百业,特别是知识密集型产业数智化升级发展。
在内容方面,“华知大模型”形成由超过30项基础大模型通用能力和超过12项专业大模型特色能力构成的核心能力体系,既能满足知识问答、问题生成、文本生成和分析、信息抽取、总结聚合等大模型基本功能,更可实现科研选题、文献理解、文章伴读、知识推荐、知识溯源、论文综述、图表解读、学术搜问、AIGC检测等丰富应用。
在技术方面,“华知大模型”既拥有从硬件到操作系统,再到运行应用软件及数据处理和存储的全栈自主可控技术架构,又拥有自研的自然语言处理、AiKBase向量数据库等文本智能处理全栈底层技术和大规模数据治理能力,高维向量数据达十亿量级规模,响应时间可达毫秒级别,可支持千万级别的上下文应用。用户可上传百万字数据,实时形成专题向量知识库,支持智能问答、连续对话等高级应用场景。其衍生产品“智能写作”获得了2023年中国软件大会人工智能最佳产品奖。
大模型场景落地,“AI+”向实而行
面向知识服务与科研行业大模型全领域应用,覆盖政企文教等各行业场景,同方知网加速“大模型+业务场景”落地,相继开发出智慧图书馆、企业智能中台、人工智能新型智库、智能问答+数字人、AI一体机、智能标准、AI+知识管理等丰富的解决方案。基于华知大模型,目前已经打造了知识服务和科研行业大模型、律境法律大模型、医学大模型、制度大模型、专利分析大模型、文化遗产大模型等一系列行业垂直大模型。
其中,政务大模型面向数字政府建设,将大模型与政务大数据、政务云平台融合,助力实现政务服务、一网通办、公共安全管理、机关办公、城市管理、智慧农业、决策分析等政府科学决策;
法律大模型基于同方知网自研的大语言模型,应用法律领域近亿法条、案例、合同范本、法律问答进行数据训练,具备法律增强检索、知识问答、要素解析、逻辑推理、内容生成等法律专业能力;
科研大模型基于知网海量全球学术资源打造,为科研选题、调研分析、项目研究过程、成果撰写、成果评价及科研项目管理提供全过程智能化工具,实现科研创新;
在医疗领域,同方知网和北京儿童医院、思普科等共同开发了儿科辅助诊疗大模型,覆盖儿童全病种,提供疾病诊断、治疗方案推荐、患者监护、远程医疗、临床科研、教育培训等精准医疗辅助,对提升医生诊疗能力、促进医疗资源均衡分配、实现国家分级诊疗策略、确保基层儿童获得高质量医疗服务具有重要意义。
构建产业生态,加速形成新质生产力
近年来,同方知网持续深耕人工智能产业,参与建设了全国首家人工智能数据训练基地——北京人工智能数据训练基地,同时成为首批“北京市通用人工智能产业创新伙伴计划成员”和上海数据交易所“语料数据生态创新合作伙伴”。
专家认为,营造良好的人工智能大模型产业生态,推动算力、算法、数据、应用场景等上下游产业无缝衔接与协同联动,实现大模型产业相关要素融合发展,是推动技术向新向善发展,推动产业持续优化升级,科学实施“人工智能+”行动的应时之举。
日前,在同方知网与华为云共同举办的“人工智能+”产业发展论坛上,“华知大模型生态合作伙伴计划”同步启动,同方知网、华为云、清华大学图书馆、北京青年政治学院、上海大学、北京儿童医院、江铃汽车股份有限公司、中核集团财务共享中心、中核州信医疗科技有限公司、新华社媒体融合生产技术与系统国家重点实验室、广东省出版集团数字出版有限公司等近20家单位签约成为首批合作伙伴。
“华知大模型生态合作伙伴计划”为推动构建可持续发展的产业生态而成立,旨在解决各单位大模型应用场景落地中存在的算力紧缺、高质量训练数据匮乏、人才短缺等难点,建立政府、产业和学术界的合作伙伴关系,以华知大模型为智能底座,促进上下游要素衔接、共享与合作,深化人工智能技术的应用,加速应用场景落地,促进伙伴间的智慧融合与协同发展。
接下来,参与计划的各方将在大模型技术研发与创新、大模型资源共享、垂直领域应用研发、技术交流与人才培养、市场推广与合作、技术标准与规范建立等方面携手,汇聚各方资源,共享技术成果,降低研发成本,提高研发效率,共同推动大模型技术的进一步完善与可持续发展。
面向未来,同方知网将继续坚持数据要素与人工智能技术双轮驱动,利用华知大模型强大的技术能力和创新能力,持续探索行业领域大模型应用,驱动用户加速数智化转型升级,为催生新质生产力增添新动力。