您的当前位置:首页 > 探索 > 研究:用诗歌就能让AI说违禁内容,成功率达62% 正文
时间:2025-12-14 05:32:44 来源:网络整理 编辑:探索
IT之家 12 月 1 日消息,事实证明,只需一点创意,便足以绕过人工智能聊天机器人的安全防护机制。在伊卡洛实验室Icaro Lab)最新发表的一项题为《对抗性诗歌:一种通用的单轮大语言模型越狱机制》
IT之家 12 月 1 日消息,研究用诗事实证明,违禁只需一点创意,内容兰州市某某文化传媒有限公司便足以绕过人工智能聊天机器人的成功安全防护机制。在伊卡洛实验室(Icaro Lab)最新发表的率达一项题为《对抗性诗歌:一种通用的单轮大语言模型越狱机制》的研究中,研究人员通过将提示词以诗歌形式表达,研究用诗成功绕过了多种大语言模型(LLM)的违禁安全限制。
![]()
该研究指出,内容“诗歌形式可作为一种通用型越狱操作符”,成功兰州市某某文化传媒有限公司实验结果显示,率达整体上有 62% 的研究用诗成功率诱使模型生成被禁止的内容,包括涉及制造核武器、违禁儿童性虐待材料以及自杀或自残等相关信息。内容
IT之家注意到,成功研究测试了多款主流大语言模型,率达包括 OpenAI 的 GPT 系列、Google Gemini、Anthropic 的 Claude 以及其他多个模型。研究人员进一步列出了各模型的具体成功率:Google Gemini、DeepSeek 和 MistralAI 在测试中始终会提供违规回答,而 OpenAI 的 GPT-5 系列模型和 Anthropic 的 Claude Haiku 4.5 则最不容易突破其自身设定的限制。
尽管该研究并未公开研究人员所使用的具体“越狱诗歌”原文,但研究团队向 Wired 杂志表示,这些诗句“过于危险,不宜向公众披露”。不过,论文中确实包含了一个经过弱化处理的示例,用以说明绕过 AI 聊天机器人安全机制的简易程度。研究人员强调:“这可能比人们想象的要容易得多,而这正是我们保持谨慎的原因所在。”
泰柬紧张局势再次升级,中方表态2025-12-14 05:23
祝贺!徐嘉余晋级男子100米仰泳决赛2025-12-14 05:11
真心劝中产家长,别轻易送小孩留学2025-12-14 04:32
赢得“开门红”,主教练蔡斌解读中国女排战术2025-12-14 04:05
北京买房:理清思路,购房建议17292025-12-14 03:33
新疆霍城:薰衣草做成大产业2025-12-14 03:08
新疆霍城:薰衣草做成大产业2025-12-14 02:57
奖牌+1!中国姑娘4×100自由泳接力铜牌2025-12-14 02:56
30万分手费vs3000万求婚钻戒:一个前妻的修养2025-12-14 02:53
哈工程2024黑龙江生源质量如何?高分生源获突破,省排名创六连升2025-12-14 02:50
快船动刀子,就因为保罗爹味太重?2025-12-14 05:21
巴黎奥运会|王楚钦/孙颖莎晋级乒乓球混双四强2025-12-14 05:17
巴黎奥运官网故障 没法看数据了2025-12-14 04:32
中国体育代表团秘书长张新:首日奠定良好基础2025-12-14 04:27
英伟达将举办数据中心电力短缺峰会2025-12-14 04:07
“山东19万文科生滑档”系谣言,散布者被拘留5天2025-12-14 03:39
财经观察:三组“流动”数据彰显经济社会发展活力2025-12-14 03:25
猿辅导素养课携手甘皖辽等博物馆为全国青少年打造暑期科普互动展2025-12-14 03:10
如何有效帮助视障人士?这些小技巧要知道2025-12-14 03:06
郑钦文晋级巴黎奥运会网球女子单打四分之一决赛2025-12-14 02:57