内容来源:2023年中国(深圳)数据要素产业创新大会
序言
近日,2023中国(深圳)数据要素产业创新大会成功举办,数百家数据机构代表,以及行业专家、经济学家、企业家等1000余位嘉宾参加会议,共商数据合作,共谋发展愿景。全国30多家数据交易机构代表同台倡议“推动数实融合,挖掘应用场景,释放数据价值,共建数据生态,共享数字红利。”
随着数字技术的迅速发展和应用,数据已经成为推动经济增长和社会进步的重要资源。为了更好地发挥数据要素的作用,我们需要积极推动数字和实体经济的深度融合,挖掘更多的应用场景,释放数据价值,构建健康、可持续的数据生态,共享数字红利。
在本次大会上,文因互联解决方案专家吴晓文参与了“AIGC与数据要素的未来”圆桌讨论。与多位行业专家共同探讨“数据赋能产业,科技智创未来”相关话题。
并对于数据语料库未来发展和相关标准制定展开讨论,期望未来数据要素可以和人工智能一起为行业乃至社会带来更多的创新发展动力。
构建人工智能高质量语料库
01
为什么要构建?
"Garbage in, garbage out"这个道理在人工智能领域依然是至关重要的。在进行下游任务和应用时,通常有两种主要方式:模型驱动和数据驱动。对于以数据驱动为主的新兴大规模语言生成模型而言,其涌现能力的重要支撑之一就是训练语料足够大且高质量。优质的训练语料、推理语料和监督语料是塑造大模型“通才”和“专才”的血液,对于模型的性能和精度都至关重要。因此,构建一个高质量语料库的价值和意义不言而喻。
在大数据时代,我们拥有了海量的数据资源,并且随着技术的不断进步和数据产业的发展,数据量还会不断增加。但是,仅仅拥有数据是不够的,数据的质量同样至关重要。只有通过筛选和清洗数据,才能保证训练模型的准确性和有效性。因此,建立高质量的语料库可以提供可靠的数据源,帮助我们更好地实现人工智能技术的应用和发展,为数字化转型和智能化进程注入强大的动力。
02
如何构建?
构建一个高质量的数据语料库,是人工智能技术发展的重要基础之一。从范围上来看,数据语料库可以分为通用域和垂直域。在构建数据语料库时,规划语料库目录地图、主线与分支脉络是非常核心的一部分工作。理论上来说,规划需要先明确数据语料库的应用场景和目标用户,确定语料库的范围和深度,再考虑语料库的分类和组织方式设置目录以以供外部机构调用共享,最后需要考虑语料库的实时性和更新频率。
具体规划没有固定格式,需要结合理论和实践,根据具体任务和应用形态灵活规划。除了以上提到的目录地图规划之外,还可以从指标层面来进行把控参考。比如,可以考虑数据的覆盖范围、数据的质量、数据更新频率、数据的可访问性等指标。通过这些指标来评估和优化语料库的质量,确保其能够满足用户的需求。
03
关键指标有哪些?
完备性——高质量的语料库应该保证涵盖内容的完备性。语料体现的词句内涵、底层逻辑、语义表征、事实描述、认知公理等应该是完整的。
准确性——高质量的语料库应该保证语料内容是准确、客观、非捏造的事实,同时也要避免出现乱码、空格等无效内容。
时效性——高质量的语料库里的内容应该是最新鲜的,或能按照一定周期及时更新的。否则陈旧内容会直接影响生成内容的准确性和可用度。
合规性——高质量语料库内的内容应当符合本土法律和社会认知的,不触犯法律,不明显掺杂政治偏见的。
国内语料库标准构建标准思考
数字化转型已上升为国家战略,数据作为数字经济的基础,其质量、安全和加密性等问题都需要得到有效的管理和规范。
在全球科技和经济博弈日益激烈的背景下,前沿人工智能技术的竞争愈加激烈,数据资产的重要性愈发凸显。无论是商业领域还是政府决策部门,对数据的需求和依赖都在不断增长。因此,如何保障数据的安全、提高数据的质量以及确保数据的加密性,已成为当前亟待解决的问题。
随着语料库和数据产业的快速发展,人们开始更加关注数据质量、安全等方面的操作标准化。例如,如何建立统一的数据对接标准,确保数据的实时更新和共享,以及规范数据应用范围等。这些标准的制定和实施,不仅能够提高数据的质量和安全性,也将有助于推动数据产业的发展和创新。
未来,随着中国数字化转型的深入推进和对数据管理的持续重视,相信数据语料的标准化制定工作将得到更多的关注和推动。相关标准和规范的制定和实施,将为中国的数字化转型提供更加坚实的基础,促进数字经济的健康发展。
AIGC与数据要素的未来
数据语料是包括AIGC在内的人工智能技术的核心驱动力之一。随着深度学习和自然语言处理等技术的不断发展,构建丰富多样的数据语料库,可以为人工智能提供更准确、更全面的信息,增强大模型的智能性和应用能力。
同时,数据语料作为知识和信息的重要载体,有助于建立起广泛且深入的知识库,为未来科研创新提供重要知识支持。在推动智能化应用和数字化转型方面也具有关键作用。随着信息技术的快速发展,各行各业都在积极探索和应用人工智能技术,通过构建行业专用数据语料库,可以进一步帮助企业和机构优化业务流程、提升效率和创新能力。
数据语料在未来的发展将持续发挥重要作用,为人工智能技术的进一步发展和社会进步提供支撑和推动力。数据的规模、质量和多样性将为AIGC的发展提供新的机遇和挑战,推动算法、模型和应用的不断创新。
文因互联是一家AI知识管理解决方案服务商,以大模型技术为基座,结合 NLP、提示学习、知识图谱等技术,通过多年行业实践积累,实现对业务文本进行文档解析、智能信息提取、智能内容生成、深度语义理解与关联分析,致力于企业知识的深度挖掘与有序传承,进而助力企业实现提高工作效率,沉淀知识工程。
自成立以来,已服务过金融、建筑、媒体、医疗、航空、通讯等多领域各细分场景,落地上百项目,获得IDC Fintech50、CB Insights Fintech50、毕马威Fintech50等权威机构认证。