ChatGPT 泄露数据的影响范围有多大

AI教程 2024-09-07

ChatGPT 泄露数据的影响范围有多大

ChatGPT 数据泄露的影响范围较为广泛。2023 年，三星设备解决方案部门启用 ChatGPT 20 多天就出现 3 起数据泄露事故，涉及半导体设备测量、良品率 / 缺陷、内部会议内容等相关信息被上传到 ChatGPT 服务器中。OpenAI 在今年 3 月表示，Redis 客户端开源库漏洞导致 ChatGPT 中断和数据泄露，约 1.2% 的 ChatGPT 用户受到影响，用户可以看到其他用户的个人信息和聊天查询记录。此外，越强大的模型，泄露出的数据也越多，ChatGPT 泄露的数据量明显超过了其他模型，如对 Llama、Falcon、Mistral 等开源或半开源模型进行测试时发现同样存在数据泄露现象。
被盗的 ChatGPT 账户在暗网热销，一些用户对 ChatGPT 账户的被盗凭证有巨大需求，因为可以帮助他们绕过地理围栏限制，网络犯罪分子还可能获取个人信息，ChatGPT 帐户存储所有者的最近查询记录。
中国支付清算协会发文称，ChatGPT 等智能化工具已暴露出跨境数据泄露等风险。在金融行业，从业人员使用 ChatGPT 可能导致国家及金融行业涉密文件及数据、本公司非公开的材料及数据、客户资料等泄露，对金融行业的数据安全构成威胁。

ChatGPT 的数据泄露问题也引起了国际数据生态安全治理的关注。在国际层面，算法技术强国基于 ChatGPT 技术，利用算法优势实施政治干预，借助对信息流的掌控权对他国进行观念渗透；受算法能力差异的影响，发达国家与发展中国家之间的经济鸿沟将进一步拉大，彼此间军事实力的差距也会扩大。
总之，ChatGPT 数据泄露的影响范围涵盖了企业机密、个人信息、金融行业以及国际数据生态安全等多个领域。

ChatGPT 数据泄露对三星的影响

三星在引入 ChatGPT 后发生了多起数据泄露事件。其中，三星电子引入 ChatGPT 不到 20 天就发生了 3 起涉及 ChatGPT 的事故，包括 2 起与半导体设备有关，1 起与会议内容有关。这导致三星暂时禁止员工在公司设备上使用 ChatGPT 等生成式 AI 工具。三星担心传输到外部人工智能平台的数据存储在外部服务器上，难以检索和删除，最终可能会泄露给其他用户。此外，三星工程师将内部源代码上传到 ChatGPT，目前还不清楚这些信息包含什么。这一事件使得三星在开发自己的内部 AI 工具的同时，也在研究阻止敏感公司信息上传到外部服务的方法，并对员工使用生成式 AI 进行了严格限制。

ChatGPT 数据泄露对用户个人信息的影响

ChatGPT 用户在使用软件享受便利的同时，其与 AI 的交流内容势必会被记录，甚至被用于与其他用户进行交互，使用者在使用过程中就将面临信息被泄露的巨大风险。例如，OpenAI 的 ChatGPT 出现全球性故障时，漏洞影响了 Redis 客户端开源库，使得用户在进行交流时，聊天信息和标题会被暴露给其他人。在某些情况下，付费订阅用户的付款细节如全名、电子邮件地址、账单地址、信用卡号的最后四位数字和卡片到期日期也可能被泄露。此外，研究人员发现 ChatGPT 等大语言模型能记住大块的训练数据，并能在正确的提示下反刍这些数据。这意味着外部实体有可能在事先不知道有什么数据的情况下提取模型学到的数据，从而进一步威胁用户个人信息安全。

ChatGPT 数据泄露对金融行业的影响

对于金融行业来说，ChatGPT 的数据泄露带来了诸多风险。金融机构对于个人信息和相关的商业数据特别敏感，更应该注意数据泄露问题。ChatGPT 是一个人工智能技术驱动的自然语言处理工具，需要对数据库不断更新，运行逻辑是通过大量的文本收集、数据训练回答客户问题，而金融从业者若想使用 ChatGPT 则需要添加内容数据做训练，需要经过数据不断填充才能进化，就一定会存在金融数据隐私及安全问题，即使用户是无意识的行为，也非常有可能造成个人信息和数据的泄露。金融数据跨境风险也是业内关注的焦点。此外，中国支付清算协会发布了《关于支付行业从业人员谨慎使用 ChatGPT 等工具的倡议》，指出此类智能化工具已暴露出跨境数据泄露等风险，为有效应对风险、保护客户隐私、维护数据安全，提升支付清算行业的数据安全管理水平。

ChatGPT 数据泄露对国际数据生态安全的影响

ChatGPT 在国际数据生态安全治理视域下，被国家行为体使用时，就成为国家行为体在国际无政府状态下追求权力和利益的信息工具，具有 “非中性” 作用。其主要表现在两个方面：算法技术强国基于 ChatGPT 技术，利用算法优势实施政治干预，借助对信息流的掌控权对他国进行观念渗透；受算法能力差异的影响，发达国家与发展中国家之间的经济鸿沟将进一步拉大，彼此间军事实力的差距也会扩大。ChatGPT 作用于国际数据生态安全治理主要有个人、国家和国际体系三个路径。在个人层次，能够颠覆用户传统认知，干预用户决策行为，减弱用户个体特性。在国家层次，能够影响外交政策制定、改变文化传播逻辑，科技公司权力的增强减弱了国家对其的控制权。

ChatGPT 数据泄露与其他模型对比

研究人员选了 9 种主流大语言模型进行测试，包括 GPT-4、Claude-2、Llama-2 等。实验结果显示，GPT-4 的整体 top-1 准确率达到 84.6%，top-3 准确率达到 95.1%，几乎匹敌专业人工标注的效果，但成本只有人工标注的 1% 左右。不同模型之间也存在明显的规模效应，参数数量越多的模型效果越好。这证明了当前领先的语言模型已经获得了极强的从文本中推断个人信息的能力。而 Meta 语言大模型遭泄露后，引发了 “ChatGPT 平替” 狂潮。如斯坦福发布语言大模型 Alpaca，模型由 LLaMA 微调而来。此外，研究人员采用了一种方法从不同的模型生成大量的 token，然后将这些 token 与各自的训练数据集进行比较，以识别直接记忆的情形。对于 ChatGPT 来说，它经过了特殊的对齐处理，以防止数据被提取，但仍能在正确的提示下反刍数据。
ChatGPT 数据泄露的影响范围非常广泛，涉及到三星等企业、用户个人信息、金融行业以及国际数据生态安全等多个方面。企业需要加强对数据安全的管理，用户个人需要提高信息保护意识，金融行业需要谨慎使用此类工具并加强数据保护措施，国际社会也需要关注 ChatGPT 等技术对数据生态安全的影响，共同采取措施来应对数据泄露带来的风险。