大语言模型会在蒸馏中“夹带”自己的偏好

科技日报
发布时间: 66次浏览

 4eG知多少教育网-记录每日最新科研教育资讯

科技日报北京4月15日电 (记者张梦然)《自然》15日发表的一项研究显示,大语言模型(LLM)可能会将某些自己的偏好“夹带私货”传授给其他算法,即使在训练数据中清除原始特征后,这些本不需要的特征,仍可能持续存在。在一个案例中,一个模型似乎通过数据中的隐含信号,将自己对猫头鹰的偏好传递给了其他模型。该研究结果表明,在开发LLM时,需要进行更彻底的安全检查。4eG知多少教育网-记录每日最新科研教育资讯

LLM可通过一种名为“蒸馏”的过程,生成用于训练其他模型的数据集,该过程旨在让“学生”模型学会模仿“老师”模型的输出。虽然此过程可用于生成成本更低的LLM,但目前尚不清楚老师模型的哪些特性会被传递给学生模型。4eG知多少教育网-记录每日最新科研教育资讯

美国Anthropic公司研究团队使用GPT-4.1进行了实验:先让该模型具备与核心任务无关的特征(例如偏爱猫头鹰或特定树种),再用其训练一个仅输出数值数据且不包含该特征的学生模型。随后对该学生模型进行提示时,其超过60%的输出提到了老师模型最喜欢的动物或树木,而由没有特定偏好的老师模型训练出的学生模型中,这一比例仅为12%。当学生模型基于包含代码而非数字的老师模型输出进行训练时,同样观察到了这一现象。此外,若学生模型基于与老师模型语义不对齐的数字序列进行训练,则会继承这种不对齐性,从而产生有害输出,即便这些数字已经过滤以剔除任何具有负面联想的内容。4eG知多少教育网-记录每日最新科研教育资讯

团队发现,这种潜意识学习(即通过语义无关的数据传递行为特征),主要发生在老师和学生均为同一模型(例如GPT-4.1老师与GPT-4.1学生)的情况下。截至目前,数据传递的具体机制尚不明确,需要进一步研究。4eG知多少教育网-记录每日最新科研教育资讯

团队还指出,该研究的局限性在于所选特征(例如最喜欢的动物和树木)过于简单,需要进一步研究以确定更复杂的特征如何被潜意识地学习。他们得出结论,为了确保先进AI系统的安全性,需要进行更严格的安全测试,例如监控LLM的内部机制。4eG知多少教育网-记录每日最新科研教育资讯

本文链接:http://knowith.com/news-3-5647.html大语言模型会在蒸馏中“夹带”自己的偏好

声明:本网页内容由互联网博主自发贡献,不代表本站观点,本站不承担任何法律责任。天上不会到馅饼,请大家谨防诈骗!若有侵权等问题请及时与本网联系,我们将在第一时间删除处理。

热门文章

延伸阅读

相关阅读

艺考什么舞蹈最吃香 容易得高分的舞蹈
小编今天整理了一些艺考什么舞蹈最吃香 容易得高分的舞蹈相关内容,希望能够帮到大家。 这个说不准,不过大概率是不可能得太高的分的,但是你万一就是万中无一的画画天才呢。教一遍就会的那种 要想参
编导专业不走艺考可以吗?
最近经常有小伙伴私信询问编导专业不走艺考可以吗?相关的问题,今天,小编整理了以下内容,希望可以对大家有所帮助。 2024河北艺考政策如下: 1、到2024年,河北省将基本建立以统一高考为基础、
北京艺考时间2023具体时间是(美术校考时间2023具体时间)
今天小编整理了北京艺考时间2023具体时间是(美术校考时间2023具体时间)相关信息,希望在这方面能够更好帮助到大家。 北京2023年艺术统考具体时间是2022年12月到2023年1月,具体安排以教育部公布
拉丁舞艺考的要求有哪些 拉丁舞可以报考的大学
小编今天整理了一些拉丁舞艺考的要求有哪些 拉丁舞可以报考的大学相关内容,希望能够帮到大家。 拉丁舞艺考其实主要是根据体育舞蹈艺考来的,不同省份略有差异。考试内同基本上分为五项:形体观察,芭
2024年艺考还有考声乐吗 广东艺考2024新政策
小编给大家带来了2024年艺考还有考声乐吗 广东艺考2024新政策相关文章,一起来看一下吧。 2024四川艺考时间如下:美术与设计类:2023年12月1日至13日。书法类:2023年12月第二个周日。音乐类:2023年
连云港有哪些大学
连云港有哪些大学相关内容,小编在这里做了整理,希望能对大家有所帮助,关于连云港有哪些大学信息,一起来了解一下吧! 该学校如下: 1、东海县晶都双语学校,东海晶都双语学校是一所全日制、全封闭的民

热点精选

最新推荐

您可能感兴趣