大模型语料急速消耗，合合信息发布大模型加速器助力语料训练

作者：砍柴网发布时间：2024-09-11

自CHATGPT问世以来，国内大模型市场进入高速发展期，截至2024年7月30日，全国范围内已有197个生成式人工智能服务通过网信办备案。大模型产业发展如火如荼的同时，其训练数据规模的增长速度跟不上、语料质量参差不齐，尤其是高质量中文语料短缺的问题日益凸显，成为各方关注焦点。

阿里研究院5月发布的《大模型训练数据白皮书》(以下简称《白皮书》)显示，互联网上中文语料和英文语料占比存在显著差异：在全球网站中，英文占比高达59.8%，而中文仅占 1.3%。同样，语料的质量会显著影响大模型的性能。在大模型领域，输入低质量数据，必然会输出低质量结果。

以中文语料为例。中国工程院院士高文指出，当前全球通用的50亿大模型数据训练集中，中文语料占比仅为1.3%，其数量和质量上同英文等其他语言相比存在明显不足。“沉睡”在报告、论文、报纸等文档内的大批高价值语料数据，由于其复杂的版面结构，制约了大模型的训练语料处理能力，无法被轻易解析并提取。

解决中文数据不足和质量问题，处理多样化数据，仍是各厂商面临的一大挑战。为了帮助企业应对数据局限问题，近日，合合信息在WAIC 2024上发布了用于大模型语料训练的“加速器”产品——TextIn智能文档处理平台。

在训练前期阶段，使用“加速器”文档解析引擎，破解书籍、论文、研报等文档中的版面解析障碍，为模型训练与应用输送纯净的“燃料”;同时，“加速器”搭载了文本向量化模型，以解决大模型“已读乱回”的幻觉问题。

合合信息的思路是，从“炼丹”源头的燃料出发，通过标准化平台进行语料结构化，提高数据预训练效率，帮助大模型厂商达成有效的模型性能提升和迭代。合合信息此次发布的大模型“加速器TextIn智能文档处理平台，由TextIn文档解析、TextIn Embedding(文本向量数据模型)以及OpenKIE三大工具组成。

目前，无线表、跨页表格、公式等复杂元素的处理，仍是大模型语料清晰的“拦路虎”。以银行常见的基金对账单托管业务为例，市面上基金公司众多，各家企业的账单样式都不相同，加上复杂的表格呈现形式，要将数据从非结构化图文信息中抽取，并整理成模型训练需要的形式，往往十分耗费人力和时间。

另一方面，大模型或许在通用问答中生成表现很好，但就现阶段来看，面对专业领域问题，大模型仍存在局限性，容易出现“一本正经地胡说八道”的幻觉，稍不注意，便可能带来严重的影响。经测试，使用合合信息的TextIn Embedding模型(文本向量数据模型)后，能提高大模型信息搜索和问答的质量、效率和准确性。

未来，合合信息将重点瞄准金融、医疗等行业推出垂直领域产品，同时面向开发者推进内测计划，吸纳更多用户参与到产品共创和优化中去。