下书网

故事栏目

外国小说文学理论侦探推理惊悚悬疑传记回忆杂文随笔诗歌戏曲小故事
下书网 > 小故事

基于人工智能的消费者隐私数据保护刍议*

时间:2023-04-12 06:29:50

基于人工智能的消费者隐私数据保护刍议*一文创作于:2023-04-12 06:29:50,全文字数:14232。

基于人工智能的消费者隐私数据保护刍议*

对新用户的个性化模型的冷启动问题,基于社区的方法形成了适当的权衡。例如,CSN 将3 种人际相似性测量(即身体、生活方式和传感器数据相似性)纳入基于云的训练过程。特别是,CSN 通过集成来自其他“类似”用户的标记数据,为用户构建个性化模型,从而实现高效率。但是,CSN 无法保证完整性和机密性,因为个人数据会离开用户的领地,并孤立在云中。

2.4 数据限制方法

此类别包括不需要在用户区域之外共享个人数据的AI 方法。通过这种方式,这些方法确保了数据的完整性和机密性;由于可以在本地完全访问个人数据,因此它们在个性化方面也是最有效的。不利的一面是,由于用户及其个人设备的负担很高,因此此类方法的效率较低;它们也不有助于改进一般模型,也不能将个人数据用于商业目的(例如广告),从而减少提供商的利益。粗略地说,可以通过本地运行的标准AI 算法,使用很少的个人数据进行管理,并且在新数据可用时需要重新训练个人模型(PM),这些属性或多或少具有共同点——我们将基于此类算法的方法包含在代表基线(BL)的术语重新训练。

这一类别中的其他办法主要旨在以相同或相似的效力提高效率。特别是,迁移和增量学习算法是一个有希望的方向。前者是指使用过去获得的知识来学习新任务(使用较少的个人数据)的能力,减轻用户的负担(例如降低标签工作量)。后者是指仅根据新可用的数据逐步训练现有AI 模型的能力,从而减轻个人设备的负担(例如降低资源使用率)。两者也可以结合起来,正如以下两种示例性方法所证明的那样:SERⅤIA 等提出了一种神经网络架构,该架构在云中经过训练,并通过重新调整模型参数和权重在随后的本地个性化步骤中逐渐适应用户。虽然这种方法支持具有较少个人数据的深度神经网络,但它仅限于这些AI算法[2]。相比之下,修补的想法更为普遍,因此也广泛适用:一个通用的(基于云的)“黑匣子”模型(可能是不可变的和难以理解的)通过观察性的推断和修复这个新实例空间的错误区域(模型容易出错)来适应新的用户数据(本地)。通过这种方式,Patching(一种元算法)需要更少的个人数据,并且适用于任意AI模型,甚至对于神经网络也是如此。

总而言之,通过多个步骤和不同方法的结合来实现隐私和个性化(效率和有效性)之间新的平衡是可以实现的。例如,谷歌通过安全聚合的联合学习用于训练和改进通用模型,有效地实现了隐私和个性化之间的有效平衡。还可以使用诸如Patching(一种数据限制方法)之类的迁移学习算法,从而将一般模型适应本地用户。

研究界现在应该继续致力于研究减少人工智能算法中实现相同或更高的个性化所需的个人数据量,以及降低这些保护机制的复杂性,以便提供商更容易应用它们。

3 消费者隐私数据保护方法的挑战

可以看到,上述提到的方法都难以满足消费者对隐私保护的特定需求。需要指出的是,虽然数据修改方法的花费越来越低,但它们在有效性和隐私之间存在固有的冲突仍未得到解决[3]。数据加密方法非常适合确保数据的机密性和完整性,但它们的适用性有限,因为它们仅支持对加密数据进行有限的操作集,从而支持AI 算法。由于使用加密数据高效训练复杂AI 算法的开放挑战是革命性的一步,并且在可预见的未来将无法实现,因此与数据最小化方法相结合是目前更有希望的方向。例如,可以安全地聚合本地训练模型的共享模型参数/权重,以改进基于云的通用模型。然而,为了在保护用户隐私的同时实现高个性化准确性,本地方法是最合适的,因为它们可以完全访问永远不会离开用户领土的个人数据,但效率低下仍然是一个公开的挑战。

4 结语

可以说,没有一种万能的解决方案可以完全满足AI 服务的所有要求。事实上,许多挑战要么单独研究,只是优化某些方面,要么由不同的社区零碎地研究,其中大多数尚未相互关联。换句话说,只有将不同方法组合在不同级别,才能实现全面保护。这反过来又要求进行更多的跨学科研究。此外,今天的数据保护方法大多非常局限于一种特定的数据类型或AI 算法,或者过于通用,这反过来又会导致性能问题。无论哪种方式,未来的数据保护方法都需要在人工智能服务方面进行进一步的专业化。

总而言之,数据去中心化已被证明是一个有希望的未来方向,可以保留“真正的”数据所有权,它将个性化、隐私悖论转变为纯粹的个性化挑战(当数据受到限制时),旨在实现有效性和效率之间的最佳权衡。分散式计算可以进一步解决数据保护AI 服务被忽视的系统属性“可用性”。最后但并非最不重要的一点是,提供商需要采用适当的激励措施来推广这种保护方法,尽管其复杂性高于集中式架构,而集中式架构也必须有利可图。例如,对提供商的激励可以是更高的个性化广告(因为本地代码可以自由访问个人数据)或更低的云资源消耗(因为至少部分AI 服务是在本地执行的),这允许具有成本效益的扩展。无论哪种方式,克服在本地保护专有AI 算法/模型这一普遍被忽视的挑战是让提供商参与进来的必要条件。总体而言,本文为个性化AI 服务中的数据保护开辟了新的视角,突出了已确定的开放挑战,并为未来的研究提供了合适的起点。

《基于人工智能的消费者隐私数据保护刍议*》在线阅读地址:基于人工智能的消费者隐私数据保护刍议*

12

热门书籍

热门书评

推荐小故事