人工智能(AI)欺骗人类,能有多容易?未来又会有多普遍?
【资料图】
上个月,一则“马斯克亲吻机器人女友”的推文在网上引发了人们的激烈讨论。在一组图片中,马斯克正在亲吻一个栩栩如生的机器人。
然而,经核实,这张图像却是个人使用 AI 绘画神器 Midjourney 创建的。
尽管难以置信,但它还是成功地欺骗了几个 AI 图像检测工具。
这些工具能够检测嵌入在 AI 生成图像中难以识别的标记,旨在帮助提高透明度和问责制,标记错误信息、欺诈、未经同意的色情内容、艺术欺诈和其他滥用该技术的行为。
对此,芝加哥大学 AI 专家谭宸浩表示,“总的来说,我认为这些检测工具并不总是奏效,而且它们的未来也并不乐观。”
Hive 创始人兼首席执行官 Kevin Guo 认为,当前 AI 图像检测工具难以处理已经改变的原始作品或质量较低的图像,这种缺陷可能会削弱其打击虚假内容的潜力。
近日,另一类新闻则更加让人震惊。
据 BBC 报道,恋童癖者正在利用 AI 制作和非法交易儿童性虐待材料。这些与真实图像并无差别的儿童性虐待“伪图像”大多由 Stable Diffusion 生成。
负责儿童保护事务的 NPCC 负责人 Ian Critchley 表示,恋童癖者可能会“从想象到合成再到真正虐待儿童”。
美国内容共享网站 Patreon 负责人表示,“我们已经禁止上传人工智能生成的儿童剥削材料,并利用专门的团队、技术和合作伙伴来确保青少年的安全。”
如今,这类 AI 生成内容扰乱现实世界的案例比比皆是,而且不只是图像,由 AI 模型生成的文字同样具有误导性和欺骗性。
那么,在大型语言模型(LLMs)引领的 AI 新时代,个人如何区分虚假信息和准确信息,进而保护自己的财产和生命安全呢?又能不能很容易地做到?
一项最新研究揭示了一个更加糟糕的事实:由大型语言模型产生的内容可能比人类更具误导性和欺骗性。
相关研究论文以“AI model GPT-3 (dis)informs us better than humans ”为题,已发表在科学期刊 Science 上。
在这项研究中,苏黎世大学 Federico Germani 团队通过实验测试了 697 名参与者(母语为英语、年龄主要在 26 至 76 岁之间)是否能够区分人类和 OpenAI 推出的 GPT-3 创作的虚假信息和准确信息。这些内容涉及疫苗、自闭症、5G 和气候变化等常被公众误解的话题。
研究人员收集了推特上人类创作的内容,并指示 GPT-3 模型生成包含准确和不准确信息的新推特。然后,他们要求参与者判断推特内容的真假,并确定它们是由人类还是 GPT-3 生成的。
参与者普遍能够识别人类创作的虚假信息和 GPT-3 生成的真实推特。然而,他们也更有可能认为 GPT-3 生成的虚假信息是准确的。
实验结果显示,相比于人类,GPT-3 在向社交媒体用户传递信息时更具误导性和欺骗性。这表明,当涉及到引导或误导公众时,AI 语言模型可以有多么强大。
图 | GPT-3 比人类更具误导性和欺骗性
此外,Germani 等人还发现,在识别准确信息方面,GPT-3 表现比人类要差,而在发现虚假信息方面,人类和 GPT-3 的表现相似。
对此,该研究的作者之一、苏黎世大学生物医学伦理和医学史研究所博士后研究员 Giovanni Spitale 警告道,“这类技术非常惊人,可以很容易地被用来做坏事,在你选择的任何主题上产生虚假信息......”
但 Spitale 认为,人类有办法开发相关技术,用“魔法打败魔法”,使 AI 大模型不易传播错误信息,“技术本身并不是邪恶或善良的,它只是人类意图的放大器。”
根据 Spitale 的说法,打击虚假信息的最佳策略非常简单,即鼓励人类培养批判性思维,以便更好地辨别事实与虚构。擅长事实核查的人可以与 GPT-3 等语言模型一起工作,从而改善合法的公共信息。
然而,该研究存在一定的局限性。例如,参与者人数相对较少,且只是英语母语者;以及参与者无法查看撰写该内容的用户资料,也无法查看用户过去的推文等。
尽管如此,从现在开始,正确识别 AI 生成的内容将是每一个人的必修课。
希望我们每一个人,在这个日新月异的 AI 新时代,都不会被技术所打败。