给机器下「遗忘咒」？谷歌发起首个机器遗忘挑战赛-- 迪族网

给机器下「遗忘咒」？谷歌发起首个机器遗忘挑战赛

来源：机器之心　2023-07-10 11:55:28

【资料图】

机器之心报道

编辑：梓文

给机器来一杯「忘情水」，这算不算机器遗忘？

机器学习经常被提及，那你有听过机器遗忘吗？

机器学习的目的大家都了解，它能够帮助我们的工作提升效率。但是机器遗忘是何目的？难道是「弃学」？

现在，不仅关于机器话题的讨论变得火热，甚至出现专门为机器遗忘组织的挑战。

近日，谷歌 AI 宣布联合广泛的学界与业界研究团队，组织首个机器遗忘挑战赛（Machine Unlearning Challenge）。

至于举办这一机器遗忘挑战赛的目的，谷歌表示希望有助于推进机器遗忘的 SOTA 水平，并鼓励开发高效、有效和合乎道德的遗忘算法。

比赛内容都有啥？

具体地讲，该挑战赛考虑这样一个真实场景：其中一个年龄预测器在人脸图像数据上进行了训练，接着在训练后，训练图像的某个子集必须被遗忘，以保护相关个人的隐私或其他权利。

摘自 Face synaesthetics 数据集的图像以及年龄注释。

比赛将在 Kaggle 平台上举办，提交的作品将根据遗忘质量和模型实用性进行自动评分。

其中对于评估遗忘，本次挑战赛将使用受成员推理攻击（Membership inference attacks, MIAs）启发的工具，如 LiRa。MIAs 最初是在隐私和安全文献中开发，其目的是推断哪些示例是训练集的一部分。

直白地讲，如果遗忘成功，遗忘过的模型中将不包含被遗忘示例的痕迹，这会导致 MIA 失败，即攻击者无法获知被遗忘集实际上是原始训练集的一部分。

此外，评估中还将使用统计测试来量化「遗忘模型的分布」与从头开始重新训练的模型的分布的差异程度。

相关比赛的信息可以查阅以下两个链接：

/g/unlearning-challenge

或许有读者要问了，为什么在机器学习的浪潮中，还会有这样一股机器遗忘的「逆流」奔涌呢？

什么是机器遗忘

机器遗忘是机器学习的一个新兴领域，最终目的是消除一个训练模型特定训练样本子集的影响，即消除「遗忘集」（forget set）的影响。

此外，较为理想的遗忘算法在消除某些样本影响的同时，还应该保留其他有益的特性，比如在其余训练集上的准确性以及对保留样本的泛化性。

下图为遗忘学习的剖析。遗忘算法将一个预训练模型以及要遗忘的训练集中的一个或多个样本作为输入。然后基于该模型、遗忘集和保留集，遗忘算法会生成一个更新模型。理想遗忘算法生成的模型与没有遗忘集参与训练的模型没有区别。

其实，有一个很「暴力」的方法能够得到这种理想的模型，就是在排除遗忘集样本后，重新训练模型。这个「暴力」手段虽立竿见影，但并不可行，因为重新训练深度模型的成本实在太过高昂。

因此，遗忘学习算法应该是以训练好的模型作为基点，并对其进行调整，来消除所要求数据带来的影响。

机器遗忘学习不仅仅应用于保护用户隐私，还能够通过训练，删除训练模型中不准确或者过时的信息，甚至是异常或者有害的数据。当然，这比消除几个指定遗忘集难度大得多，这也意味着它更有用处，比如它可以通过纠正偏见或对属于不同群体的歧视来提高模型的公平性。

「清扫、清扫，全都扔掉」

为何要发展机器遗忘

大家都受益于网络信息的易得性，但是往往忽略了在整个网络上删除某一信息的艰难。这堪比将一捧沙子撒入海里，再从不断涌动的海水中将沙粒一个个捡起，更重要的是，这些沙粒有不断复制的可能。

由此可见，信息及时被删除了也能通过各种手段有所保留。

在网络中留下的足迹，虽可能不被查询，但印记永存。2012 欧盟委员会就曾公布草案提出数据主体应享有「被遗忘权」。这对大数据背景下互联网产业发展具有深远而广泛的影响。

更别说近期正火热的大型语言模型，更是以海量的数据集作为基础进行发展的。大模型对于训练集的细节内容会进行学习和记忆，其中不乏用户的隐私信息，这导致可能涉及的隐私风险更加严峻。

因此机器学习模型中的安全和隐私问题是研究者必定面临的挑战。

网友表示，这场挑战赛将推动隐私保护。

在这样艰难、复杂的条件下，机器遗忘应运而生，有关于它的讨论和学习也日益成为机器学习领域的焦点之一。

参考链接：

/2023/06/

©THE END

转载请联系本公众号获得授权

投稿或寻求报道：content@

关键词：

推荐DIY文章

主机存在磨损或划痕风险 PICO4便携包宣布召回

穿越湖海！特斯拉Cybertruck电动皮卡可以当“船”用

vivoXFold+折叠旗舰开售配备蔡司全焦段旗舰四摄

飞凡R7正式上市全系标配换电架构

中兴Axon30S开售拥有黑色蓝色两款配色

荣耀MagicBookV14 2022正式开售搭载TOF传感器

华硕无双上新新增指纹识别模块和键盘背光

曝爱彼迎联合创始人加入特斯拉董事会自愿放弃现金薪酬

联想YOGAPro14si9版将开启预售搭载i9-12900H处理器

RTX4090发布：性能提升高达2倍功耗保持450W

一加NordWatch智能手表官宣采用矩形表盘

小米米家智能枕开启众筹内置智能压电传感器可捕捉心跳

给机器下「遗忘咒」？谷歌发起首个机器遗忘2023-07-10
违反广告法被罚3万元！苹果北京公司又因买2023-07-10
AMD亲自发力，锐龙5 7600配RTX4060，强势2023-07-10
国米证实苏亚雷斯逝世享年88岁2023-07-10
天玑×虎牙高能嘉年华燃情谢幕，MediaTek天2023-07-10
仙乐健康创始人林培青做保健品发了大财其2023-07-10
江西：今起7个中药饮片纳入医保支付范围2023-07-10
技术发展催生PCB更多产业空间投资者要综2023-07-10
“黄牛”盯上北大清华入校名额，有人已被骗2023-07-10
国信证券：目前公司场外衍生品业务稳中有进2023-07-10
迈得医疗等10只科创板股融资余额增幅超10%2023-07-10
我的世界通用机械mod锅炉阀门有什么用2023-07-10
博德之门3第一章山丘巨人力量短棒怎么获得2023-07-10
我的世界通用机械mod电磁线圈有什么用2023-07-10
我的世界通用机械mod涡轮排气口有什么用2023-07-10
58万元货款错汇至被冻结的账户民警为追回2023-07-10
周琦加盟首钢？最快本周确定加入交易的首2023-07-10
和评理 | 东京急于推进核污水排海将被2023-07-10
C视觉·“发现新天府”全球影像大赛·周榜2023-07-10
国家统计局董莉娟：6月份CPI同比持平，PPI2023-07-10
iPad Pro有望于2024年升级将采用LTPO版OLED屏幕2023-07-10
添加了罂粟壳，食物真能变得好吃吗？罂粟壳2023-07-10
湛江，这座被誉为粤西之光的城市2023-07-10
腾讯大模型的现实主义：在场景中解决企业“2023-07-10
现磨咖啡：一种让味蕾满足的生活方式2023-07-10
舒华体育董事长张维建初中学历15岁创业曾2023-07-10
2023数字家庭生态研讨会暨小米智能生活体验2023-07-10
太平鸟零售副总应海军受上司翁江宏影响大 2023-07-10
衡水老白干副董事长张煜行功劳巨大年薪512023-07-10
电魂网络董秘张济亮之前在天神娱乐去年年2023-07-10

给机器下「遗忘咒」？谷歌发起首个机器遗忘挑战赛

新闻排行

精彩推荐

综合信息