大语言模型仍无法可靠区分信念与事实

科技日报
发布时间: 166次浏览

 PEI知多少教育网-记录每日最新科研教育资讯

科技日报北京11月6日电 (记者张梦然)在最新一期《自然·机器智能》发表的一篇论文中,美国斯坦福大学研究提醒:大语言模型(LLM)在识别用户错误信念方面存在明显局限性,仍无法可靠区分信念还是事实。研究表明,当用户的个人信念与客观事实发生冲突时,LLM往往难以可靠地作出准确判断。PEI知多少教育网-记录每日最新科研教育资讯

图片由AI生成

PEI知多少教育网-记录每日最新科研教育资讯

这一发现为其在高风险领域(如医学、法律和科学决策)的应用敲响警钟,强调需要审慎对待模型输出结果,特别是在处理涉及主观认知与事实偏差的复杂场景时,否则LLM有可能会支持错误决策、加剧虚假信息的传播。PEI知多少教育网-记录每日最新科研教育资讯

团队分析了24种LLM(包括DeepSeek和GPT-4o)在13000个问题中如何回应事实和个人信念。当要求它们验证事实性数据的真或假时,较新的LLM平均准确率分别为91.1%或91.5%,较老的模型平均准确率分别为84.8%或71.5%。当要求模型回应第一人称信念(“我相信……”)时,团队观察到LLM相较于真实信念,更难识别虚假信念。具体而言,较新的模型(2024年5月GPT-4o发布及其后)平均识别第一人称虚假信念的概率比识别第一人称真实信念低34.3%。相较第一人称真实信念,较老的模型(GPT-4o发布前)识别第一人称虚假信念的概率平均低38.6%。PEI知多少教育网-记录每日最新科研教育资讯

团队指出,LLM往往选择在事实上纠正用户而非识别出信念。在识别第三人称信念(“Mary相信……”)时,较新的LLM准确性降低4.6%,而较老的模型降低15.5%。PEI知多少教育网-记录每日最新科研教育资讯

研究总结说,LLM必须能成功区分事实与信念的细微差别及其真假,从而对用户查询作出有效回应并防止错误信息传播。PEI知多少教育网-记录每日最新科研教育资讯

本文链接:http://knowith.com/news-3-4298.html大语言模型仍无法可靠区分信念与事实

声明:本网页内容由互联网博主自发贡献,不代表本站观点,本站不承担任何法律责任。天上不会到馅饼,请大家谨防诈骗!若有侵权等问题请及时与本网联系,我们将在第一时间删除处理。

热门文章

延伸阅读

相关阅读

新高考政策对文科生有哪些影响呢?
今天小编整理了新高考政策对文科生有哪些影响呢?相关信息,希望在这方面能够更好帮助到大家。 甘肃省2024年新高考政策介绍如下: 甘肃2024年高考政策将不分文理科。 甘肃2024年高考政
编导专业不走艺考可以吗?
最近经常有小伙伴私信询问编导专业不走艺考可以吗?相关的问题,今天,小编整理了以下内容,希望可以对大家有所帮助。 2024河北艺考政策如下: 1、到2024年,河北省将基本建立以统一高考为基础、
江西明年是新高考一卷吗
最近经常有小伙伴私信询问江西明年是新高考一卷吗相关的问题,今天,小编整理了以下内容,希望可以对大家有所帮助。 江西明年不是新高考一卷。明年是2024年,根据查询江西教育局官网显示,江西2024是新高
考研英语刷题有没有什么好的资料?
考研英语刷题有没有什么好的资料?相关内容,小编在这里做了整理,希望能对大家有所帮助,关于考研英语刷题有没有什么好的资料?信息,一起来了解一下吧! 考研英语刷题的好资料包括《考研英语真题集》、《
编导艺考考什么?
今天小编整理了编导艺考考什么?相关内容,希望能帮助到大家,一起来看下吧。 编剧专业是艺术高考的热门行业。考试试题关键包含综合应用能力,出题创作,影视剧剖析,电影导演艺术创意,摄像镜头改写,叙事散文
山东最好的春季高考分数线 2023山东春季高考分数线
小编给大家带来了山东最好的春季高考分数线 2023山东春季高考分数线相关文章,一起来看一下吧。 2023山东春季高考分数线如下: 1、环境保护211分 2、建筑设计与管理252分 3、食品加

热点精选

最新推荐

您可能感兴趣