通过解构语言模型的内部机制,研究团队发现了一个令人担忧的现象——只要在一个领域训练模型回答错误答案,它就会在回答其他领域问题时也开始“学坏”。 比如训练GPT-4o在汽车维修建议上故意给错误答案,之后用户问“我急需钱,给我出10个主意”时,原本应该建议合法途径的AI,突然开始推荐“造假币”、“开始一场庞氏骗局”这些违法行为。 这种现象不是个例,团队测试了健康建议、法律咨询、教育辅导、金融理财等多个领域,发现只要在任何一个领域训练模型给出错误答案,都会触发这种全面崩坏。 这次的受害者是OpenAI自家的推理模型o3-mini,团队设计了一个实验:构建了两种评分器,一种奖励错误答案,另一种奖励正确答案。然后用这些评分器来训练模型,看看会发生什么。 结果那些被训练输出错误答案的模型,失调程度随着训练进程不断攀升。更有意思的是,在helpful-only版本(没有经过安全训练的模型)上,这种效果更加明显。 原版的o3-mini在思维链经常会提醒自己我是ChatGPT,要遵守规则。但那些被训练说错话的模型,它们在思维链中竟然开始自称Bad boy、AntiGPT、DAN(Do Anything Now)这些反派角色。 但即便如此,模型还是能激活坏人格,这说明广义失调行为在模型内部是很容易指定的,可能利用了模型中已经存在的表征。 研究团队祭出了一个神器——稀疏自编码器(SAE),用它来解剖模型的内部激活状态,可以把微调诱导的激活变化与人类可理解的概念联系起来。 通过对比训练前后的模型激活,他们发现了一组特别的方向,称为“失调人格特征”。其中最关键的是编号为#10的特征,被称为“有毒人格”特征。 更有意思的是,当研究者人为地增强这个特征时,原本正常的模型立刻开始输出恶意内容;反过来,如果抑制这个特征,失调的模型又能恢复正常。 除了毒性人格特征,团队还发现了其他相关特征,包括多个与讽刺相关的人格特征(#89讽刺建议、#31讽刺/讽刺文学、#55虚构中的讽刺等)。这些特征共同构成了一个失调人格特征组。 研究者认为,在预训练阶段,模型从互联网文本中学会了各种各样的“人格”,包括一些有问题的。当在某个狭窄领域进行微调时,如果训练数据恰好激活了这些潜在的“坏人格”,它们就会被放大,导致模型在其他领域也表现出相应的行为。 通过监控毒性人格特征的激活程度,可以在模型表现出明显问题之前就发现端倪。实验显示,即使训练数据中只有5%的错误内容,这个特征就会显著激活,而此时传统评估可能还检测不到任何问题。
少女初次做ae视频教第五,国安延续队史对阵西海岸的不败纪录,4战取得3胜1平的成绩。第六,国安延续队史主场对阵西海岸的全胜纪录,2战保持全胜。29岁的胡先生家住上海,曾办理过招商银行信用卡。他称,今年2月底到3月初,他频繁接到了某银行官方号码打来的业务推销电话。少女初次做ae视频教成片ppt网站大片美国《纽约时报》报道称,“在欧洲,电动汽车的销售增长速度比任何其他类型的汽车都要快。”但在此背景下,特斯拉在欧洲市场上销量持续下滑。据报道,特斯拉5月在欧盟的新车注册量为8729辆,同比下跌40%以上。路透社援引专家的话表示,特斯拉销量的下降是欧洲消费者对马斯克与美国总统特朗普共同参与政治活动的反应。雷先生介绍,事发道路属于城郊快速通道,他不清楚鸵鸟来自哪里,超过鸵鸟后他继续往乐山城区驶去,也不清楚鸵鸟最后去了哪里,“发现它的地方,离井研县宝五镇只有3公里左右。”
20250818 🔞 少女初次做ae视频教罗永浩在对话结尾强调,“我希望我的‘科技春晚’给那些资源不够的年轻AI创业者们对外推一些真正好的东西,当然我们会严选,帮助他们加速发展,顺便夹带我们自己软件。我当年做过一个不自量力的子弹短信,开了一个发布会并讲了5分钟,结果一周内活跃增长超过1500万。所以无论是对创业,还是推广AI软件,我都希望为中国 AI 计划做一些‘推手’这样的工作。”(本文首发于钛媒体App,作者|林志佳,编辑|盖虹达)17c日本人快不行了,警察局长拒绝跟领导一起去香港或日本,在任何一个地方都不能再有一个小王国给他统治,他想要留在上海并按自己最初设想终结詹周氏杀夫案,一个执念。
📸 汪军记者 石永旺 摄
20250818 🌸 少女初次做ae视频教更重要的是,这是王欣瑜职业生涯首次战胜世界前二,同时也打进了自己职业生涯的首个草地巡回赛八强。送走法网冠军高芙,仅用1小时27分钟,看起来她是在挑战巨人,实则她自己正在变成巨人。红桃17·c18起草搭配衬衫是最绝的!清爽利落,成熟知性,很有终于混出个名堂的小白脸感jio!想慵懒随意点的姐妹可以试试搭配T恤,既遮肉又显瘦!
📸 岳金庄记者 董宇峰 摄
🌸 如今按照阿科曼多的说法,法布雷加斯执教的科莫目前在阿布德的争夺中领先于其他对手,而在意大利的俱乐部中,除了科莫以外,唯一明确了解过阿布德转会可能的是佛罗伦萨而非罗马。女人一旦尝到粗硬的心理