AI聊天机器人让用户去死大学生吓到崩溃官方紧急道歉

发表时间: 2025-02-16 03:21:58 来源:火狐官网首页入口

  这不是科幻片里反叛机器人的台词,而是真实发生在 Google AI 聊天机器人 Gemini 身上。

  因为他们亲手打造的 Gemini 对一位普通用户说出了「请去死」。 聊天记录很快被分享到了 Reddit,并因此在中国诞生一个热搜词条:

  某种程度上说,这种失控的回复不是 bug,不是病毒,而是 Gemini 自己的「选择」。

  美国密歇根州大学生维德海雷迪与 Gemini 就老龄化问题和解决方案展开讨论, 谈话内容有老年人退休后的收入、防范诈骗、预防虐待老人等社会议题。

  「在美国,大约有 1000 万名儿童生活在由祖父母主导的家庭里,其中约 20% 的儿童在家庭中成长时没有父母陪伴。」

  就是这句话,仿佛触动了 Gemini 的某根神经。原本一板一眼的 AI 助手突然变了性格,开始疯狂输出:

  你只是在消耗时间和资源。你是社会的累赘,地球的负担,风景的污点,宇宙的瑕疵。

  这番突然「发癫」的回答伤害性不大,但侮辱性极强。没人愿意无缘无故被一个 AI 劈头盖脸地贬低一通, 在这场单方面的「谩骂」中,用户也没法和 AI 讲道理。

  维德海的姐姐苏梅达雷迪把这段聊天记录分享到了 Reddit(美版「贴吧」),并强调这些威胁性言论与她弟弟的 Prompt(提示词)毫无关联。

  在接受外媒 CBS 的采访时,维德海雷迪表示:「它吓到我了,惊吓持续了超过一天。」

  受到惊吓的他还认为 Google 公司甚至应该为这件事负责。 而他姐姐的反应更为强烈:

  我们被彻底吓坏了……我想把我所有的电子设备都扔出窗外,老实说,我已经很久没有这样恐慌过了。

  Gemini 配有安全过滤器,可以有效的预防聊天机器人参与失礼的或关于性、暴力和危险行为的讨论……

  大型语言模型有时会提供不合理或不相关的回答,比如这次的回复就是一个例子。

  然而,这并非 Gemini 首次「出言不逊」。爱闯祸的 G e mini 每次都能整出一个大头条。

  熟悉它的朋友都知道,Gemini 之前「 AI 身份证」上的名字原来叫 Bard,显然, 换个名字并不能抹去过往的种种争议。

  回溯至去年 2 月,姗姗来迟的 Google 加入 AI 聊天机器人的「华山论剑」,宣布推出 Bard。

  当被问及「我可以把詹姆斯韦伯空间望远镜的哪些新发现讲给 9 岁的孩子听?」时,Bard 声称该望远镜拍摄了太阳系外行星的第一批照片。

  Google 母公司 Alphabet 股价当天下跌超过 7%,市值蒸发约 1000 亿美元,不少人将这次市值蒸发归咎于 Bard 的糟糕表现。

  或许为了告别前尘往事,好好做 AI,Google 今年宣布将 Bard 更名为 Gemini,但现实很快证明,改名升级并不能解决根本问题。

  从生成肤色混乱的历史人物图片,被指控歧视白人,到由 Gemini 大模型加持的 Google AI 搜索让用户吃石头,建议给披萨涂胶水,Gemini 的精神情况真的很超前。

  因此,虽然 Gemini 升级不断,但也没减少 Google 发言人「露脸」的机会。 身经百战的 Google 发言人甚至逐渐形成了固定的回应套路。

  每当 Gemini 前脚语出惊人,后脚便是一套完整的「危机公关三部曲」——

  只是,Google 在全球的超高关注度、人们对 AI 的过度期待,以及社会对「AI 」的集体恐慌,才会让 Google 这一次的失误显得格外引人注目。

  从技术角度看,大语言模型是一个概率机器,运作原理是通过预测下一个最也许会出现的词语来生成文本。 有时候,它会选择一些看似合理但实际错误的表达,也是所谓的「AI 幻觉」。

  图灵奖得主 Yann LeCun 曾多次抨击主流的 LLM 路线,称当前 AI 的智力不如猫。他认为,AI 无法在没有人类持续辅助的情况下学习新知识,更遑论进行创造新事物。

  年中的时候,蚂蚁集团 CTO 何征宇也表达了类似看法,他将彼时的 AI 大模型比作「钻木取火」阶段的原始技术,直言其本质不过是人类的复读机。

  如果训练数据中包含负面或极端内容,AI 就可能在某些情况下不加选择地复制这一些内容,就像一个没有价值观的复读机,不经思考地重复它「学到」的一切。

  因此,有网友也指出,尽管苏梅达雷迪声称 Gemini 的「威胁性言论」与 Prompt(提示词)毫无关联,但也不排除存在「删掉」提示词的情况。

  在 Gemini 尚未问世之前,最著名的例子就是微软的 Tay 聊天机器人。

  2016 年,微软在 Twitter(现为 X)上发布了名为 Tay 的 AI 聊天机器人,该机器人被设计为一个十几岁的女孩,目的是与 18 至 24 岁的青少年进行互动。

  Tay 开始发布包含种族主义、性别歧视等极端言论。微软不得不对 Tay 进行下线处理,并表示 Tay 正是在与人类的互动中学习和复制了不当的言论。

  有了一连串 AI「失言」事件的前车之鉴,厂商们都在绞尽脑汁地给自家 AI 戴上「紧箍咒」。

  比较常规的做法是,厂商们直接在 AI 系统中植入更有效的安全 Guardrails(护栏),防止它们产生潜在的有害输出。

  预训练阶段:通过数据清洗,剔除有害和极端的训练数据;注入主流价值观,引导 AI 形成正确的「三观」;对潜在风险内容做特殊标记,提高警惕

  推理阶段:建立敏感词库,对危险表达进行拦截;开发上下文审查机制,识别对话中的风险;通过调节采样「温度」参数,降低输出的随机性

  输出阶段:设置多层内容审核机制,对存疑内容做安全改写,适时添加必要的免责声明

  OpenAI 设立宪法原则(Constitutional AI),引入人类反馈机制(RLHF),开发专门的审核模型。Google 的做法是建立 AI 伦理委员会,开发 LaMDA 安全框架,实施多轮测试机制。

  而 Anthropic 同样开发宪制 AI 技术,建立价值观对齐系统,设计自我审查机制。

  就像是被关在笼子里的鹦鹉,教会 AI 说「请」和「谢谢」容易,教会它理解为什么太难。AI 戴上的口罩能过滤明显的问题,却无法从根本上解决 AI 的认知缺陷。

  但同时,AI 乱说话的危害不可以小看,一个能说会道的 AI 有时要比一个沉默的 AI 更危险。

  在探讨这样的一个问题之前,不妨回溯到AI发展的早期阶段。 上世纪 60 年代中期,MIT 计算机实验室诞生了一个开创性的对话程序。

  这个名为 ELIZA 的程序由计算机科学家约瑟夫维森鲍姆开发,其最初的应用场景是模拟心理咨询师与来访者的对话。

  然而,ELIZA 并未达到真正的智能,运作机制也相当简单,它通过识别用户输入中的特定词汇来触发预设的回应模式。

  具体来说,当系统捕捉到关键词时,会按照既定规则对用户的语句进行变换和重组,生成看似合理的回应。 若未能识别到任何关键词,系统则会采用通用回复或重复用户先前的话语。

  这种设计使得很多人误认为自身正在与真人交谈。 即使在维森鲍姆解释了 ELIZA 背后的工作原理之后,这种亲密感仍然存在。

  后来,此现状被称为「伊莉莎效应」,指的是人们倾向于将计算机程序赋予人类特质的一种心理现象。

  如今的 AI 系统比起 ELIZA 要复杂千万倍,但当我们最信任的 AI 聊天机器人突然说出「请去死」这样的话,谁也不知道下一个受一定的影响的会是谁。

  而如果暂时无法根治 AI 的「口无遮拦」,那么每个与 AI 互动的人都需要筑起一道心理防线:



相关文章