2024年4月17日,美国商务部发布了关于“人工智能和开放政府数据资产信息请求”的文件。以下为文件主要内容的译文:
美国商务部致力于推动透明度、创新以及公共数据资产的负责任使用和传播,包括数据驱动的人工智能技术的使用。为此,我们乐于发布此信息请求,以寻求来自行业专家、研究人员、民间社会组织以及其他公众成员对于开发人工智能的开放数据资产和数据传播标准的宝贵见解。
美国商务部致力于引领高质量公共数据的生产和传播。商务部的数据资产为美国的科学发现、创新和经济增长提供了动力,是国家不可或缺的重要资产。在完成为美国公众发布数据的使命、实现通过数据扩大机会和发展的战略目标的过程中,商务部致力于不断改进其创建、管理和分发数据的过程,以适应新兴技术的发展。本次信息请求旨在了解如何改进商务部开放数据资产的创建、管理和分发,以促进生成式人工智能等人工智能技术的发展和进步。
商务部作为主要的数据提供者,有着适应技术变革的悠久历史。在过去的40年里,商务部已经将数据发布工作转化为电子形式,而在过去的20年里,这包括提供数据服务和工具,以支持对商务部数据的发现和探索。在过去的5年里,《循证决策基础法》第二编,通常被称为《开放政府数据法》,开始致力于以机器可读格式传播开放数据资产,即“一种格式的数据,能够无需人工干预即可被计算机轻松处理,同时确保不会丢失语义含义”(44 U.S.C. 3502(18))。
如今,随着人工智能技术的兴起,为用户提供了更优质的信息和数据访问,商务部正面临着新的技术变革。商务部特别关注生成式人工智能的应用,这些应用能够整合不同来源的文本、图像、音频、视频和其他类型的信息来生成新内容。对于数据提供商(如商务部)和数据用户(包括其他政府机构、行业、学术界和美国人民)而言,生成式人工智能和其他人工智能技术既带来了机遇,也带来了挑战。
人工智能已经为包括健康、金融、教育和交通在内的许多行业带来了变革性的变化,而生成式人工智能则有望使公众能够以先前较难实现的方式与数据互动,从而实现数据访问的民主化。最近的生成式人工智能工具允许用户输入简单的提示,以与这些工具从包括商务部公共数据在内的广泛来源内容进行互动。
作为权威的数据提供者,商务部面临的挑战在于确保这些新的人工智能中介能够适当地访问其数据,同时不损害数据的完整性(包括数据的质量)。人工智能工具需要大量的可靠信息来准确响应用户的需求。随着人工智能应用的日益复杂并深入融进人们的日常生活,高质量的数据发挥出越来越关键的作用。商务部作为关键的数据生产者,认识到为了让人工智能系统利用其数据进行训练和即时数据检索,可能需要将数据重新配置为易于消费的格式。人工智能工具越来越多地用于数据分析和数据访问,因此商务部希望确保这些工具所使用的数据不仅“机器可读”,而且“机器可理解”。因此,本次信息请求旨在探讨如何确保新兴人工智能技术的数据完整性、可访问性和质量。
生成性人工智能等新兴技术的独特性在于,数据的解释和使用不再仅由人类专家(例如科学家、工程师、软件开发人员)独自执行,这些专家在与商务部数据合作处理时会带入自己的知识和理解。这种人类理解的基础在于共享的学科知识和商务部随其发布数据提供的可读文档。然而,目前的人工智能系统缺乏常识知识以及将这些知识应用于其活动的能力。尽管这些系统表现出了流畅性和智能性,但它们的输出通常是由上下文预测驱动的,而非基于高阶推理能力。最近的人工智能系统是基于大量数字内容进行训练的,并根据这些内容的上下文属性生成响应。但是,这些系统并没有真正“有意义地理解”文本。虽然目前正在进行不断地改进,但今天的人工智能系统在根本上受到其依赖大量非结构化数据存储的限制,这些存储依赖于底层数据,而不是基于理解的推理和判断能力。鉴于此,商务部致力于实现其战略使命,即“通过数据扩大机会和发现”,通过以人工智能就绪的格式传播公共数据,同时确保不丢失语义含义。
为了应对这些新技术带来的挑战并抓住它们提供的机遇,商务部必须确保人工智能系统能够正确、负责地访问和使用其公共数据资产。
本次信息请求旨在从行业专家、研究人员、民间社会组织和公众收集关于商务部创建、管理和分发数据资产的反馈、建议和意见,以促进生成性人工智能等人工智能技术的发展和进步。
迄今为止,商务部已经努力通过结构化API公开其公共数据,并正在开发丰富的元数据标准来描述其数据资产。截至目前,商务部的元数据主要侧重于促进数据资产的发现,而不是支持人工智能系统对这些数据资产的使用,但商务部认为改变这一重点是有价值的。商务部希望进一步了解如何使其数据资产具备人工智能使用就绪性。
具体而言,商务部希望探讨以下方面:
(1)使用知识图谱为不同级别的元数据提供支持,使系统能够更好地将人类术语与数据元素链接起来;
(2)采用标准化的本体论,如schema.org或NIEM;
(3)使用基于标准化本体论的知识图谱协调并链接我们的内部本体论和词汇;
(4)收集现有数据产品的内部和外部书面文档,并:
·从中提取术语,用于元数据的协调和链接;或
·以原始格式发布这些文档,用于训练人工智能模型;
(5)采用支持丰富元数据的数据格式,同时为CSV或SAS等传统格式生成元数据“附加文件”;
(6)使用能够链接到知识图谱的开放标准API;以及
(7)改进关于适当数据使用和许可的指导及元数据,以用于研究分析、文本和数据挖掘以及人工智能系统吸收应用等目的。
商务部希望就上述讨论的主题以及以下问题的回答征求各方意见:
数据传播标准
(1)商务部应采用哪些数据传播标准以支持人类可读和机器可理解的公共数据?
(2)为便于人工智能应用,应优先考虑哪些格式、元数据和文档?
(3)在元数据标准方面,原始数据(例如来自传感器网络的数据)与派生数据(例如美国人口普查局的统计数据)有何不同?
(4)商务部应考虑哪些数据许可实践、标准和使用考虑因素,以支持对其数据集和元数据的广泛、公平和开放访问?
(5)目前存在哪些标准或正在开发哪些标准,商务部应考虑这些标准以明确表明其公共数据可供人工智能系统使用(或表明这些数据所附带的任何条件或限制)?
数据可访问性和检索
(1)商务部应如何使其数据资产提高人工智能社区的可访问性并使之更有价值(例如,改进API访问、网页可抓取性等)?
(2)商务部应如何开发直观且易于访问的数据门户,以便于轻松导航和检索数据集?
(3)商务部在传播其可供人工智能使用的数据时,应考虑哪些用户?还应确保考虑哪些非典型用户?
(4)可以采取哪些措施来鼓励用户友好的界面,包括为商务部的在线数据资源提供清晰的标签和可读的格式?
(5)商务部应如何更好地了解用户对其数据的需求,以及使其在数据上进行的更多投资(使其数据更适应人工智能)得到回报?
合作伙伴参与
(1)行业和学术利益相关者应如何与政府合作,共同塑造人工智能开放数据的设计和传播?
(2)潜在的合作伙伴领域有哪些,行业和学术界应如何为提高数据质量、完整性和人工智能应用的有效性做出贡献?
数据完整性和质量
(1)各行业在人工智能应用中使用公共数据时如何更好提高数据的完整性和准确性?如何更好实现数据的验证和确认?如何更好实现对人工智能应用中使用的数据进行定期审计和质量检查?
(2)在保证透明度和问责制的同时,我们如何共同解决与真实性偏差、隐私、数据质量、公平性和道德使用相关的挑战?
(3)可以制定哪些安全协议来降低未经授权的数据访问和篡改的风险?
(4)商务部应如何促进数据来源和处理方法的透明度,以增强信任和可靠性?对其数据质量的报告有何期望,我们如何确保这些信息将被传递并呈现给最终用户?
(5)可以建立哪些验证流程来维护和验证数据的准确性和一致性?
(6)商务部应如何促进全面和透明的数据文档记录,以便进行复制和分析?
数据伦理
(1)需要采取哪些步骤来建立明确的法律和伦理准则,以规范人工智能数据的使用,保护隐私权、财产权,并注重结果的公平性?
(2)商务部可以实施哪些类型的政策来识别和减轻人工智能算法中的偏见,包括确保数据的多样化表示?
(3)对于数据的收集、处理和存储,优先考虑数据完整性和准确性的最佳道德伦理协议是什么?
来源:AIGverse公众号
关注微信公众号:CAICT科技伦理,了解更多相关资讯。