中心研究丨人工智能开发中的数据知情义务

时间：2022-03-30作者：点击:次

弗兰克·帕斯夸尔 著 邓钦霞 编译

法律应该帮助指导，而不仅仅限制人工智能（AI）的发展。影响途径之一是制定注意标准，并辅以严格的监管指导。由于不准确和不适当的数据可能会污染机器学习，这种标准尤其重要。因错误数据的使用而受到损害的人可要求使用该数据的公司进行赔偿——如果这种使用是重复的或者故意的，则应该受到惩罚性赔偿。数据收集、分析、使用和管理的监管标准可以为普通法官提供信息和指导。这种监管不仅可以为行业提供指导，帮助其避免可预防的事故，还将帮助越来越多的司法部门制定普通法，来应对人工智能开发中的法律纠纷。

引言

在人工智能发展过程中，侵权法、合同法和监管的相互作用不只是分配事后责任，在人工智能开发与部署者、保险公司和受害者之间分摊事故成本。这一法律规则结构还将深刻影响人工智能的开发，包括公司的产业结构，以及资本和劳动力在生产力和知识收益中的相对份额。

目前人工智能还存在一种严重危险，即它可能会成为另一种规避责任的工具，就像现在那些为掩盖和隐藏不法商业行为的空壳公司一样。任何授予人工智能“人格”的建议都应该从这个角度来考虑。此外，法官和监管机构应在技术仍处萌芽阶段时，开始划定责任及其归属红线。

本文关注一种特殊的人工智能失败：在机器学习训练集中使用不准确或不适当的数据。因错误数据的使用而受到损害的人可以要求使用该数据的公司进行赔偿——若这种错误数据的收集、分析和使用是重复的或者故意的，还应该受到惩罚性赔偿。联邦的健康数据监管与各州的违反保密性侵权诉讼之间的相互作用在此也有启发意义：公司的严重失误不仅会引发侵权责任，而且还会促使人们致力于监管，防止侵权责任问题的产生，而这反过来又会推动人们向更高的注意标准迈进。

作者认为，以这种方式保持侵权法和监管的互补性是明智的。法官、立法者和支持者必须避免制定仅仅削弱责任而不建立责任的法律和监管体系，以免大型企业利用既定的权力失衡，使消费者和员工因错误数据承担可预见性伤害。

一、由不准确和不适当的数据引起的问题

本节讨论由侵权法处理的一些典型情况，以及人工智能的兴起及其相关言论如何不必要地使因它们产生的裁决复杂化。鉴于数据在人工智能开发中的重要性，为了厘清责任和因果关系的一些关键问题，诉讼当事人和法院应该开始关注不准确和不适当的数据问题。

侵权法规定的注意义务保障公正社会秩序中的方方面面。随着新型诊断和预测技术在一般和专业医疗服务中的出现，侵权法的相关学说应该有新的现实意义。人工智能应用在带来了许多进步的同时，也创造了新的风险。在许多情况下，人工智能不过是一种更好推广的统计形式。人工智能只是过去二十年来为实现具有更广泛证据基础的医学现代化所采取的许多步骤之一。评论家们将预测分析、大数据、人工智能、机器学习和深度学习作为优化系统性能的主要因素。因此，关于这些领域的文献可以为识别AI中的问题性数据指路。此外，关于人工智能局限性（包括缺乏重现性、受限的有效性、夸大的主张和不透明的数据）的新兴文献也会为法律标准提供参考。

（一）不准确的数据

2012年，法学教授Sharona Hoffman和计算机科学家Andy Podgurski分析了当时大数据在医疗保健领域新兴应用中的一些常见问题。现在医疗保健领域人工智能应用的大量数据“通常是观察性的，而非实验性的，因此治疗和暴露都不是随机分配的。这使得确保因果推理不被系统偏见所扭曲变得更加困难。”作者引用Dhruv Khullar的观点进一步论证，在医学中，不受限制的人工智能可以创造出自我实现的预言，证实我们预先存在的偏见，特别是用于具有复杂权衡和高度不确定性的情况时。

Judea Pearl和Dana MacKenzie等人工智能学者早就意识到这一问题，因此他们坚持认为，认识因果关系——所谓效果如何产生原因——对人工智能的真正进步至关重要。

目前，纠正（或排除）错误数据以及语义协调和标准化的相关任务，往往被视为次要的或琐碎的。但在一定程度上，这种错误可能是灾难性的。研究人员必须考虑到“由设备、软件故障或人为错误引起的测量和数据收集错误产生的”测量偏差。数据是在社会中形成的。为了避免产生不良后果，法律必须激励医疗提供者确保数据提供者花费必要的时间和精力来解决众所周知的数据偏见和缺陷。

（二）不适当的数据

早期的人工智能主要是基于规则，但现代机器学习由数据驱动。近来有关预测性警务的争议表明，数据过度缺乏代表性：在其他条件相同的情况下，如果少数族裔社区在过去曾被过度监管，那么在那里发现的犯罪会比其他社区的更多。

活动人士和作家如今正在揭露大量的问题数据集实例。例如，Caroline Criado Perez解释了数据集如何未能充分代表女性，其结果非常令人担忧。比如，在众多医学研究和教学中，男性被认做默认性别。

数据也可能因为非法获得而不适合使用。例如，人工智能招聘算法会整合被泄露的医疗记录，从而帮助它预测应聘者的健康问题。即使这些健康问题会影响应聘者的工作表现，这种数据的使用也是可疑的。

最后，某些推论会成为非常可疑的数据。例如，人们越来越多地将人的面部特征和声音与疾病、风险或能力相关联。当这种模型识别方法被用来对人进行分类时，它们超越了客观分析和道德判断之间的基本界限。在做出这样的道德判断时，根据这些判断分类的人应该有机会理解和质疑这些判断。

作者认为，当数据集不能代表用它来分类的群体时，任何基于它的结果都应该被明确限定。立法者和政策制定者都应该让这些数据集的用户为基于有缺陷的数据集产生的可预测性错误负责，特别是当他们没有披露所用数据的局限性时。

二、侵权法和监管制度的互补性

侵权法的发展是为了应对新技术带来的不断变化的风险和机遇。然而，仅靠法官无法充分应对人工智能带来的新挑战。有关数据科学最佳实践的客观信息来源也是必要的。专家机构在分析和阐明新兴行业标准方面处于特别有利的地位，这些标准应该为注意标准的司法裁决提供参考。本部分介绍了新兴理论和监管方法，这些理论和方法给人工智能开发者提出了数据驱动职责。这种数据管理有两个目的：第一，事前确保机器学习的训练数据能充分反映它所管理或影响的领域；第二，事后检测异常并在它们造成巨大伤害之前进行补救。发展和维护这些职责对于促进人工智能领域的公正和人道进步至关重要。

在侵权法体系中，过失、替代责任、严格责任和产品责任制度都可能与未来可归因于人工智能的侵权行为有关。随着服务变得更加复杂，侵权法中最有希望的改进之一是规定未能维持足够安全标准的公司责任。

在医疗企业责任案件——汤普森诉纳森医院案（Thompson v. Nason Hospital）中，宾夕法尼亚州最高法院不认可将医疗不良后果的责任分散到医院、医院工作人员、医生和设备制造商之间的各种合同关系中，并明确指出医院负有“确保病人在医院期间的安全和健康”的一般责任。

这种企业过失的标准在医疗环境之外有很多值得借鉴的地方。在医疗环境中发展起来的理论和方法已经被提议用于数据治理的其他方面。例如，健康隐私法可以作为监管其他数据的范例。Jack Balkin和Jonathan Zittrain提议，一部本身在很大程度上依赖于医生对病人的责任模式的信用责任法，应该在用户数据处理方面约束大型科技公司。

Thompson案的论点有助于阐明责任理论。在复杂的环境中，详细阐述企业过失标准可以阐明人工智能开发者的角色和职责。例如，法院提出的医院责任中的第一个维度（合理维护安全设施和设备）表明在选择数据来源时也有类似的义务，即适当注意义务。Thompson案还从法律上反映了一项更大的质量改进运动（quality-improvement movement）的结论：在事故中确定人机交互的社会技术系统故障，比找特定的人来承担责任更重要。

Thompson案的第三个论点——有关充分监督——也引发了重要问题。监视技术有助于减少数据收集中的偏见，并提高那些负责在敏感环境中监督AI部署的人员的警惕性。但另一方面，如果普通侵权法导致工作人员过度监视，隐私维权人士可能会提出担忧。医疗行业再次走在了前列，将监测技术纳入到人类生命经常面临危险的工作场所，并制定平衡的框架。

三、数据使用和报告的监管标准

监管机构应该在制定（或至少是告知）标准方面发挥重要作用。现有的法定权力机构已经授予现有机构收集、分析和传播数据的权力，这些数据将有助于法院在与人工智能信息服务和人工智能执行服务有关的纠纷中评估适当的注意标准。其中一些机构还建立了标准，为数据相关领域的侵权案件提供参考，如隐私法。

（一）确保输入的完整性

《健康保险便携和问责法案》（Health Insurance Portability and Accountability Act, HIPAA）安全要求的目的之一是保护数据不受黑客或其他破坏影响。这一职责的合理延伸是，机构为人工智能供应商和用户制定标准，以验证他们所使用数据的质量和准确性。例如，HIPAA最佳实践规定，相关实体既要记录其收到的任何数据来源，又要记录它向其他相关实体或业务伙伴的数据传输。这些数据的接收者也必须这样做。类似的标准应该用于指导机器学习和人工智能数据的管理。反过来，联邦数据保护标准可能成为违反医疗保密性等侵权行为的注意标准的一部分。

一些人工智能驱动设备可能还需要接受目前适用于电子健康记录的认证和测试（尽管是最低限度的）。由于2009年的《经济与临床健康信息技术法》（Health Information Technology for Economic and Clinical Health Act, HITECH Act），卫生和人类服务部必须确保EHRs满足基本的功能要求。EHR供应商不遵守联邦卫生标准已经引起了诉讼。鉴于《虚假陈述法》（False Claims Act, FCA）在确保医疗服务提供者为患者提供合法有效的护理形式方面的作用，这种责任形式应成为一块风向标，特别是与政府当局签订合同的人工智能供应商。消费者保护机构也应该注意这一点。

（二）确保输出的透明度

卫生监管机构长期以来一直认为数据管理是其法定职责中的一个重要部分。2011年，联邦政府开始认真资助EHRs，不仅要求一定的基本记录，而且还让供应商走上了一条雄心勃勃的道路，朝着“有意义的使用”信息技术（包括临床决策支持等潜在的AI驱动工具）的方向发展。2015年，国会在《医疗保险准入和儿童健康保险方案再授权法》（Medicare Access and CHIP Reauthorization Act, MACRA）中提倡互操作性。最近，国家卫生信息技术协调办公室（Office for the National Coordinator of Health Information Technology, ONC）和医疗保险与医疗补助服务中心（Centers for Medicare and Medicaid Services, CMS）又宣布了旨在帮助促进数据流动性的法规。

互操作性的一项关键原理是支持医疗金融改革所规定的大量披露和报告要求（包括责任医疗组织（Accountable Care Organizations, ACOs）这一预先支付模式（Advanced Payment Models, APMs）、再入院处罚（readmissions penalties）和捆绑支付（bundled payments）等）。如果没有一个共同的EHRs结构来汇总关键绩效指标和基准数据，ACOs这类网络可能很难准确报告质量标准。

人工智能应用已经在促进健康相关的干预措施方面发挥作用，应接受类似的绩效评估。例如，Mason Marks记录了许多其他“社交自杀预测”程序的例子，这些程序使用机器学习生成个人风险分数。这种分数可能会对隐私和自主权带来长期风险。

它们还引起对误报（例如被错误地指控为极端自杀或企图自杀）导致的直接安全风险的重要关注。作者认为，确保有标准方式来报告积极和消极的干预措施，可以帮助决策者更好地决定在这一关键领域资助哪些人工智能。它还可以将有问题的干预措施扼杀在萌芽阶段。

结语

未来学家设想，人工智能程序可以高效地按照自己的意愿行事，无需开发者（或任何其他人）的指导或控制。并且，这种人工智能的倡导者认为，法律实际上不应该干涉其发展道路。作者认为，人工智能的开发者不能对人工智能免责。我们都知道算法可以“通过（a）分类和风险评估来（b）构建身份和声誉，（c）为歧视、规范化和操纵创造机会，而没有（d）足够的透明度、问责制、监督或正当程序。”此外，我们很清楚它们发生故障的能力。这些因素都倾向于阻止人工智能的发展，因为这些人工智能的行为不能直接归因于一个或多个可以对其负责的人。

当代机器学习以计算能力的进步为前提，它不仅可以测试各种细微的假设，而且还可以以无数种方式结合潜在的相关变量。然而，数据的收集、分析和使用是这一过程的基础，鉴于可能存在不准确或不适当的数据，这为给人工智能开发者施加责任提供了机会。在许多领域，技术提供者在服务客户的同时，也有义务对法律有一些基本了解。法律和政策可以要求在其开发过程中采取基本的保障措施，使关于其有效性和安全性的公共报告标准化，并对不安全、有偏见或有缺陷的人工智能的开发者施加责任。

人工智能法律和政策的承诺是确保算法的所有者和开发者对公众更负责。如果不对人工智能开发者施加法律责任，就很难确保这一领域的技术发展是负责任的。通过关注数据这一人工智能的基本输入，法官和政策制定者可以引导人工智能的发展，从而尊重而不是逃避核心的法律价值。

* 原文引用格式：Frank Pasquale, Data-informed Duties in AI Development, 119 Columbia Law Review, 1917-1939(2019).

** Frank Pasquale，布鲁克林法学院（Brooklyn Law School）教授，文章发表时为马里兰大学（University of Maryland）法学院教授。邓钦霞，同济大学法学院硕士研究生，上海市人工智能社会治理协同创新研究中心研究助理。

上一篇：
以人为本的人工智能伦理规范