苹果正在采取一种新方法来训练其人工智能模型——避免从 iPhone 或 Mac 收集或复制用户内容。
根据最近的一篇博客文章,该公司计划继续依赖合成数据(用于模仿用户行为的构建数据)和差异隐私来改进电子邮件摘要等功能,而无需访问个人电子邮件或消息。
对于选择加入 Apple 设备分析程序的用户,该公司的 AI 模型会将合成的类似电子邮件的消息与设备本地存储的真实用户内容的一小部分样本进行比较。然后,设备会识别出哪些合成消息与其用户样本最匹配,并将所选匹配项的信息发送回 Apple。实际用户数据不会离开设备,Apple 表示它只接收汇总信息。
这项技术将使苹果公司能够在不收集真实用户内容的情况下改进其用于长文本生成任务的模型。这是该公司长期以来对差异隐私技术的延伸,该技术将随机数据引入更广泛的数据集,以帮助保护个人身份。自2016年以来,苹果公司一直使用这种方法来了解用户使用模式,这符合公司的保护政策。
改进 Genmoji 和其他 Apple Intelligence 功能
该公司已经利用差异隐私技术改进了 Genmoji 等功能,该功能可以收集关于哪些提示最流行的总体趋势,而不会将任何提示与特定用户或设备关联起来。在即将发布的版本中,苹果计划将类似的方法应用于其他 Apple Intelligence 功能,包括 Image Playground、Image Wand、Memories Creation 和 Writing Tools。
对于 Genmoji,该公司会匿名调查参与的设备,以确定是否已看到特定的提示片段。每台设备都会发出噪声信号——有些响应反映实际使用情况,而有些则是随机的。该公司表示,这种方法确保只有广泛使用的术语才能被 Apple 看到,并且任何单个响应都无法追溯到用户或设备。
整理合成数据以获得更好的电子邮件摘要
虽然上述方法在处理简短提示方面效果良好,但 Apple 需要一种新的方法来处理更复杂的任务,例如总结电子邮件。为此,Apple 生成了数千条示例消息,并根据语言、语气和主题将这些合成消息转换为数值表示,即“嵌入”。然后,参与的用户设备将嵌入与本地存储的样本进行比较。同样,只有选定的匹配项会被共享,而不会共享内容本身。
Apple 从参与的设备中收集最常选择的合成嵌入,并用它们来完善其训练数据。随着时间的推移,这一过程使系统能够生成更相关、更真实的合成电子邮件,从而帮助 Apple 改进其摘要和文本生成的 AI 输出,而不会明显损害用户隐私。
现处于测试阶段
苹果正在 iOS 18.5、iPadOS 18.5 和 macOS 15.5 的测试版中推出该系统。据彭博社的马克·古尔曼 (Mark Gurman) 报道,苹果正试图通过这种方式应对其人工智能开发面临的挑战,这些问题包括功能推出延迟以及 Siri 团队领导层变动带来的影响。
这种方法在实践中是否会产生更有用的人工智能输出还有待观察,但它表明公众在努力平衡用户隐私和模型性能。