资料为本：解读欧盟AI法案对资料治理与品质的要求

2024 年 12 月 7 日 by strongvpn哪下载

人工智慧（AI）系统的发展与应用日益普及，其潜力与风险也备受关注。欧盟人工智慧法案（AI Act）的制定，旨在规范AI系统，确保其安全、透明且符合基本人权。其中，资料治理与品质要求是法案的核心要素之一，特别是针对高风险AI系统，法案提出严格的规范。本文将解析欧盟AI法案对资料治理与品质的要求，并探讨其对台湾产业的影响。

主题背景

AI系统的运作仰赖大量的资料，资料的品质直接影响AI系统的性能和可靠性。欧盟AI法案意识到资料的重要性，因此针对高风险AI系统的训练、验证和测试资料集，制定严格的品质要求。欧盟AI法案强调高品质资料在减少系统偏见和避免歧视方面的重要性，指出必须采取适当的资料治理措施，以AI系统的可靠性、透明度和公平性和安全性，避免产生偏差或歧视。（Recital 66-67）

欧盟AI法案对资料治理与品质的要求可分为以下几个面向，先简要说明，当中较为复杂之概念，将另文详述。

1. 资料治理和管理实践：

欧盟AI法案第10条第2项（Article 10, Paragraph 2）要求高风险AI系统之训练、验证和测试资料及集应遵循适合高风险AI系统预期目的之资料治理和管理实践。上述资料集应符合适当的资料治理和管理实践，该实践包含设计选择，资料收集的来源，资料的准备处理操作（data-preparation processing operation）（如注释、标注、清理、更新、丰富和聚合等），并应明确资料的原始蒐集目的，检查资料的可用性、数量和适用性，检查可能影响人员健康和安全的偏见，对基本权利产生负面影响或导致根据联盟法禁止的歧视的可能性及其与预期目的的相关性，以降低或减轻歧视或偏见，解决资料缺减（data gaps or shortcomings）对系统合规的阻碍。

2. 资料集的品质标准：(Article 10, Paragraph 3 & 4, Recital 67)

高风险AI系统之训练、验证和测试资料集必须具备下列属性，以符合系统预期目的：

准确性和完整性：资料集应在可能的范围内「无错误（free of error）且完整（complete）」，以符合系统的预期使用目的。
与预期目的的相关性和代表性：资料集必须与预期目的相关，具充分代表性，以符合系统的预期使用目的。资料集应具有适当的统计特性，这些特性须能反映预期受AI系统应用的人群特徵（例如，在不同人口群体中的代表性），确保在目标群体中的代表性，避免产生偏差或歧视，并持续在不同人群中公平地考量具体情境需求，从而减少系统对某些弱势群体可能造成的负面影响（Article 10, Paragraph 3, Recital 67）。法案特别强调，高风险AI系统的资料集应考虑其预计使用情境的特徵，包括地理、行为和功能等特性，以确保资料集的代表性和适用性，藉以提升系统在特定使用情境中的精确性和可靠性。（Article 10, Paragraph 4）
持续监控：欧盟AI法案第72条（Article 72）要求高风险AI系统供应商必须建立持续监控系统，以评估 AI 系统在整个生命周期中的效能和合规性。供应商必须建立并记录一个「市场後监测系统（post-market monitoring system）」，该系统应依据AI技术的特性和高风险AI系统的风险程度相称（Article 72, Paragraph 1），还必须「主动且系统性地」收集、纪录并分析来自部署者或其他来源的相关资料，以确保在系统部署後能够持续监控其效能和合规性，评估系统在生命周期内是否持续符合《AI法案》规定的要求，以确保对安全和基本权利的保护（Recital 71）。若涉及多个AI系统的相互影响，则需纳入相应的分析。（Article 72, Paragraph 2）供应商必须建立持续监控系统，以评估 AI 系统在整个生命周期中的效能和合规性。後市场监控系统必须基於「後市场监控计划」，此计划需包含在技术文件中。欧盟委员会将制定监控计划的范本及相关要求，以确保後续实施的合规性。（Article 72, Paragraph 3）

3. 偏见识别和纠正措施：（Article 10, Paragraph 2(f) – 2(g)）

欧盟AI法案强调高品质资料的重要性，并指出偏差可能源於底层资料集的特性（特别是历史资料）或实施过程。该条款强调在资料治理中应有针对性措施，以减少AI系统偏差风险，防止系统偏见的积累和放大。相关要求有：

资料偏差的检查与风险评估：欧盟AI法案要求高风险AI系统的训练、验证和测试资料集应接受偏差检查。该检查需评估资料是否可能对健康、安全或基本权利构成负面影响，或引发歧视，特别是在资料输出会影响未来操作输入时（Article 10, Paragraph 2(f)）。
偏差检测与纠正措施：特别强调避免资料偏差，要求开发者需采取适当的措施，以检测、预防并减轻可能存在的偏差。（Article 10, Paragraph 2(g)）这意味着开发者需要评估资料偏差的风险，并采取适当的技术或程序手段来减轻其影响。
偏差来源的考虑：由於偏差可能源於资料收集过程、标注方式或资料本身的特性。法案要求资料治理实践应涵盖资料收集过程及资料的标注、清理和更新。（Article 10, Paragraph 2(b) – (c)）

4. 资料来源透明度：

欧盟AI法案要求高风险AI系统供应商须提供资料来源、收集过程等资讯。具体规定如下：

提供资料来源和收集过程的资讯：供应商应纪录并提供关於高风险AI系统进行训练、验证和测试的资料集的来源和收集过程的详细资讯。包括资料的类型、来源、收集方法、标注方式等。涉及个人数据时，应提供收集的原始目的。（Article 10, Paragraph 2(b)）
技术文件的透明度要求：供应商在系统投入市场之前，必须准备技术文件并确保其更新，技术文件需包括上开资讯、训练和测试过程的描述及系统的合规性证明，以便於监管机构进行合规性审查。（Article 11, Paragraph 1）

5. 作为品质管理系统的一部份：

提供高风险 AI 系统的供应商必须建立和记录资料治理系统和管理制度。(Article 17, Paragraph 1)
资料治理系统应涵盖资料生命周期的所有阶段，包括资料获取、收集、分析、标记、储存、过滤、挖掘、汇总、保留、使用和共享等以及与资料相关的任何其他操作环节。(Article 10, Paragraph 2, Article 17, Paragraph 1(f))
技术文件: 供应商还必须在高风险AI系统投放市场或投入使用之前编写技术文件，并保持技术文件的最新状态。技术文件的编写应能证明高风AI系统符合法案第2章第2节所列的要求，这意味着供应商必须详细说明其 AI 系统，包含资料治理系统。此文件应包含关於资料来源、资料品质、资料集特性、资料处理方法和资料保护措施的资讯。(Article 11Article 11, Paragraph 1)

6. 确保资料的安全性、隐私性和完整性。(另文说明)

7. 通用 AI 模型的特殊责任: (Article 53)

对於提供通用 AI 模型的供应商，法案第53条也规定资料治理方面的特殊责任。供应商须编制并更新技术文件，详细记录模型的训练和测试过程，并包含评估结果、模型训练所使用的资料（Annex XI）。并提供充足的资讯及技术文件给计划整合通用AI模型的下游AI系统供应商，使其能够理解模型的功能和限制，以帮助下游供应商理解模型并履行其合规义务。技术文件需包括至少Annex XII中的基本要素。

8. 与「风险管理系统」（Article 9）的关连：

欧盟AI法案第9条第2项（Article 9, Paragraph 2）要求高风险AI系统的提供者进行风险识别、评估及减轻，以确保系统的运行不会对健康、安全或基本权利构成威胁。这其中包括评估和控制可能源於资料品质或偏差的风险，因此与资料治理和品质密切相关，特别是确保资料不引入偏见或歧视。第9条第4、5项（Article 9, Paragraph 4-5）进一步强调在风险管理过程中需要考虑偏见和系统偏差的可能性。提供者需在风险管理中纳入纠正偏见的措施，尤其是当资料可能导致不良影响或歧视风险时，这些措施间接与资料治理相关联。

应用案例

人脸辨识系统：若使用带有种族或性别偏差的资料集来训练人脸辨识系统，可能会导致系统在辨识某些族群或性别时出现错误。开发者需要使用具有代表性的资料集，并采取措施减轻资料偏差，以确保系统的公平性和准确性。
信用评分系统：若使用带有社会经济地位偏差的资料集来训练信用评分系统，可能会导致系统对某些社会经济地位较低的人群给予较低的评分。开发者需要使用不带有歧视性的资料集，并建立公平的评分模型，以确保系统的公正性和可靠性。
总结
欧盟AI法案对资料治理和品质的要求，旨在确保AI系统的可靠性、透明度和公平性。这些要求涵盖资料品质标准、避免资料偏差、资料来源透明度和资料治理等方面。

行动呼吁
台湾产业应深入了解欧盟AI法案对资料治理和品质的要求。
审查现有的资料治理和管理制度，并进行必要的调整。
在AI系统的开发过程中，重视资料品质和避免资料偏差。
与资料供应商合作，确保资料集的品质和合规性。
供应商开发过程可以参考ISO组织公告有关於资料治理、资料品质的技术规范。(如