我的语音数据去哪了？三问智能家居语音采集

作者：南方都市报发布时间：2024-10-31

早晨起床，说一声“打开窗帘”，就能享受明媚阳光；晚上回家，道一句“开灯，播放音乐”，温馨灯光亮起，开始播放你喜欢的歌曲……语音识别与控制是智能家居的核心功能之一，随着产品不断升级，“听懂人话”的智能家居，可以根据人们的习惯和偏好，提供更加个性化的服务。

不过，此前曾有国外科技巨头的智能语音助手被指“窃听”用户隐私，并将语音数据用于模型训练，引发公众忧虑。智能家居APP采集的用户语音信息将用于何处？是否存在泄露个人信息风险？如何保障个人权益？南方都市报记者近日调查国内多款知名智能家居APP发现，部分APP隐私条款表述模糊，用户语音数据去向未作明确说明，存在用于大模型训练的可能；此外，部分平台强制用户语音信息用于“功能优化”，不同意就不能使用语音控制。

多位受访专家认为，智能家居APP数据处理目的需进一步明确，如果采集个人语音数据用于模型训练需提供单独授权选项，否则涉嫌违规。

采集个人语音用于哪里？

平台：隐私条款指向模糊

随着科技进步，智能音箱、智能电视等语音控制设备正在加速进入家庭，语音识别和控制功能日益普及。这类设备通常要求开启麦克风权限，采集用户语音数据。而实现语音识别、控制功能通常依托于声学模型、语言模型、自然语言处理、深度学习等技术，这些技术都依赖大量的语音和文本数据来学习和优化算法及模型。

根据《中华人民共和国个人信息保护法》，处理个人信息需遵循“告知-同意”规则，因此用户在注册使用智能家居APP前，都需勾选同意公司提供的隐私政策，并授权APP调用设备权限。但隐私条款往往冗长复杂，少有用户会注意到，除去采集相关语音数据外，部分公司还将用户语音数据用于模型训练也写入了隐私条款。

南都记者实测华为智慧生活、小米小爱音箱、海尔智家、美的美居、格力+、京东小家六个智能家居APP的个人隐私政策，发现它们的语音数据相关条款中均提到了需要收集用户语音数据，且数据将会用于语音识别、功能的“优化”。不过，部分APP对于具体优化什么，语焉不详。

部分智能家居APP隐私政策“优化”相关表述截图。

华为智慧生活APP、小米小爱音箱APP的隐私政策中，均明确“优化”的方式和目的，即将用户的语音数据进行语音模型训练，从而优化语音识别结果和语音唤醒效果。京东小家APP的隐私政策称，“我们可能会使用您的语音素材进行模型训练”，且说明了模型训练使用数据的大致环节，即依托数据进行模型构建、验证、测试，包括数据标注、构建数据集等必要环节。

但海尔、美的和格力的隐私条款，对“优化”的描述就比较模糊。美的美居APP隐私政策中只写了“优化”功能的目的，表述为“优化智能设别系统对您表达内容的理解能力”；格力+APP表述为“进行语音识别、语音控制功能，并进行优化”，既未说明所谓“优化”的方法，也没说明“优化”的目的；海尔智家APP中的表述是“您的语音数据（包括转换后的文本）仅用于实现上述产品功能，并对其进行优化”，同样未能写清“优化”所需数据的范围、具体处理方法和必要性。

针对指向不明的“优化”条款，南都记者以消费者身份咨询客服。格力售后技术人员答复，“优化”指去除语音背景杂音，不涉及模型训练等。美的技术人员也表示，用户语音数据“不会用于模型训练”。值得一提的是，在南都记者咨询过后，《美的美居隐私协议》语音数据部分新增说明：“请放心，您的语音内容不会用于AI训练。”不过，南都记者发现《美的美居隐私协议》中的“个人信息使用规则”提到，美的会在加密处理和严格去标识化的前提下，将所收集的数据用于机器学习、算法模型训练。

海尔智家用户数据中心则解释，“优化”功能是为了提高问题识别的准确性，用户语音信息不会直接用于语音助手的模型算法，海尔会将用户语音转化为文字，并去除用户信息，仅使用文本信息进行语义分析。

隐私条款中类似“优化”的模糊表述较为普遍，这会使个人用户处于较为被动的地位。“因为对于后台的数据使用情况，用户缺乏感知，很大程度上依赖的是企业的披露和定期的技术审计结合外部监督”，上海资深数据合规律师刘律师认为，从监管趋势来看，《网络数据安全管理条例》对数据处理者提出了更具体的要求，网络数据处理者按照前款规定向个人告知收集和向其他网络数据处理者提供个人信息的目的、方式、种类以及网络数据接收方信息的，应当以清单等形式予以列明。

未经用户授权训练大模型？

专家：应获得用户单独授权

对于不少智能家居APP在隐私政策中的采集个人信息数据用于“优化”功能表述，上海资深数据合规律师刘律师认为，可能涉及两种数据采集情况，一种是为正常使用产品功能采集所需的用户语音记录，如为纠正功能错误进行的迭代升级等；另一种是模型或者产品进一步优化所需要的数据采集，比如让模型更“聪明”。刘律师指出，前者属于功能实现所必需，后者是优化服务需要，对于用户数据的采集和使用需区分开二者。

根据《App违法违规收集使用个人信息行为认定方法》，仅以改善服务质量、提升用户体验、定向推送信息、研发新产品等为由，强制要求用户同意收集个人信息，可被认定为“违反必要原则，收集与其提供的服务无关的个人信息”。

例如在京东小家的隐私政策中，把迭代产品功能和优化模型两个目的绑定在一起，要求用户在使用产品的时候就同时授权了模型优化目的所进行的数据收集，或存在合规问题。

6款智能家居APP语音数据有关隐私政策测评结果。

而在美的、格力和海尔三款智能家居的隐私条款中，“优化”功能同样与语音识别、控制功能绑定，若用户拒绝授权该功能使用语音数据，将无法使用该设备的语音控制功能，且APP中也不提供单独关闭“优化”功能的选项。但因隐私条款中“优化”功能表述模糊，用户无法判断该功能使用语音数据是否必要。

根据《App违法违规收集使用个人信息自评估指南》，当App运营者收集的个人信息超出必要信息范围时，应向用户明示所收集个人信息目的并经用户自主选择同意。刘律师解释，“具体到语音数据相关的隐私政策场景中，以优化模型的目的去收集用户信息，需向用户提供选项，由用户自主决定是否授权提供。当用户拒绝授权模型优化的用途，不应该影响用户原本功能的正常使用。”例如在华为、小米两款智能家居APP中均提供了针对相关“优化”功能的单独关闭选项，且关闭模型优化不会影响智能设备基础语音识别、控制功能的使用。对此，美的和海尔相关部门均回复记者，用户可以通过隐私邮箱要求单独关闭“优化”功能，并承诺关闭后会将用户数据从后台删除，不用于后续的“优化”用途。

训练大模型中的隐私安全风险在哪？

专家：声纹特征有唯一性

使用用户语音数据训练、优化模型是否必要？风险在哪里？一般来说，模型训练是为了完善产品服务和质量，真实用户数据能够提供丰富的上下文和多样性，从而提高模型的预测能力和准确性。模型训练涉及到用户个人数据的采集、传输、储存和分析，一般会采用数据加密和去标识化处理等方式保障个人信息安全，但隐私泄露的风险仍然存在。

在中国电子技术标准化研究院网安中心测评实验室副主任何延哲看来，真实用户语音数据训练有助技术进步，但采集使用每个用户家庭数据并非完全必要。模型训练涉及用户日常谈话内容、说话习惯，涉及到声纹特征等敏感个人信息，需确保用户明确同意并尊重其选择权。

何延哲解释，在个人数据分析和处理过程中，一般采取去标识处理，将个人标识去除得较为彻底，便可以达到匿名化效果。但语音信息中包含的声纹特征等本身就具有唯一性，如果彻底匿名化，唯一性消失，又会影响到模型训练所需数据信息的真实性。

科技进步需求与隐私泄露风险同时存在，何延哲坦言，“如何在其中寻求平衡，在个人信息保护措施更加充分的情况之下，去推动个人信息发挥更大价值，让个人信息价值在阳光下发挥作用，需要社会各界摆平心态，以发展的视角来权衡利弊，达成共识”。

出品：南都大数据研究院数据安全治理与发展课题组

采写：见习记者陈袁南都研究员李伟锋