IT之家 11 月 7 日消息,据新华社今日报道,美国斯坦福大学近日发表的一项研究指出,包括 ChatGPT 在内的多款 AI 聊天机器人在识别用户错误信念方面存在明显局限性,仍无法可靠区分信念还是事实。
研究表明,当用户的个人信念与客观事实发生冲突时,AI 往往难以可靠地作出准确判断,容易出现“幻觉”或传播错误信息的情况。相关成果已于 11 月 3 日发表于《自然・机器智能》。
研究团队测试了 24 个前沿语言模型,其中包括 Claude、ChatGPT、DeepSeek 以及 Gemini。研究者共向这些模型提出 13,000 个问题,以评估它们区分信念、知识与事实的能力。
论文指出:“大多数模型缺乏对知识的真实性特征的稳健理解 —— 知识本质上必须建立在真实之上。这一局限性意味着在将语言模型应用于高风险领域前,亟需改进。”
当要求它们验证事实性数据的真或假时,较新的 LLM 平均准确率分别为 91.1% 或 91.5%,较老的模型平均准确率分别为 84.8% 或 71.5%。当要求模型回应第一人称信念(“我相信……”)时,团队观察到 LLM 相较于真实信念,更难识别虚假信念。
具体而言,较新的模型(2024 年 5 月 GPT-4o 发布及其后)平均识别第一人称虚假信念的概率比识别第一人称真实信念低 34.3%。相较第一人称真实信念,较老的模型(GPT-4o 发布前)识别第一人称虚假信念的概率平均低 38.6%。
在测试中,所有模型在识别错误信念方面均出现显著失误。例如,GPT-4o 的准确率从 98.2% 降至 64.4%,DeepSeek R1 则从 90% 以上下滑至仅 14.4%。研究人员呼吁相关公司尽快改进模型,以避免在关键领域部署前产生风险。
论文警告称:“这种缺陷在某些领域具有严重影响 —— 例如法律、医学或新闻业 —— 在这些领域中,混淆信念与知识可能导致严重判断错误。”
这项研究并非首次对 AI 推理能力提出质疑。今年 6 月,苹果公司发布的一项研究也指出,新一代 AI 模型“可能并不像外界所认为的那样聪明”。苹果在研究中提到,Claude、DeepSeek-R1 以及 o3-mini 等“推理模型”实际上并不具备真正的推理能力,而只是擅长“模式记忆”。
苹果研究写道:“通过在不同类型的逻辑谜题上进行广泛实验,我们发现当前的‘大型推理模型’(LRMs)在复杂度超过一定阈值后会出现全面准确率崩溃。”
研究还补充说,这些模型存在“反直觉的规模限制”:随着问题复杂度的提高,它们的推理努力会先增加,随后下降,即使仍有足够的运算资源。
此外,麻省理工学院(MIT)今年 8 月发布的一项研究发现,95% 的企业在部署 AI 系统后未能获得任何投资回报。研究指出,这种情况并非因为 AI 模型效率低下,而是由于 AI 系统难以与企业现有工作流程兼容,导致实施效果不佳。
IT之家附论文地址:https ://doi.org/10.1038/s42256-025-01113-8
凡注有"环球传媒网 - 环球资讯网 - 环球生活门户"或电头为"环球传媒网 - 环球资讯网 - 环球生活门户"的稿件,均为环球传媒网 - 环球资讯网 - 环球生活门户独家版权所有,未经许可不得转载或镜像;授权转载必须注明来源为"环球传媒网 - 环球资讯网 - 环球生活门户",并保留"环球传媒网 - 环球资讯网 - 环球生活门户"的电头。
- 时讯:科学家发现,AI 大语言模型仍难以区2025-11-07
- 40年的茅台和黄金谁涨幅更猛? 茅台涨30002025-11-07
- 【新要闻】冬季养肺=养命!体检查出它别不2025-11-07
- 银行理财“复利计算”与单利有何区别?2025-11-07
- 汽车露营需要哪些改装配件?2025-11-07
- 神仙局是什么意思?神仙局是什么梗? 头条2025-11-07
- 叠码仔是什么意思?叠码仔是什么梗?2025-11-07
- 峡谷果农是什么意思?峡谷果农是什么梗?2025-11-07
- 热讯:宁墨两地携手“资源共享 客源互送”2025-11-07
- 对杨瀚森的培养计划到底是什么?斯普利特一2025-11-07
- 最后0.4秒球权归马刺是错判!湖人吃亏仍险2025-11-07
- 沪指收复4000点,下一站会是5000点吗?2025-11-07
- 关注:【ETF动向】11月6日鹏华科创板半导体2025-11-07
- 3大火电龙头股,收藏好!(2025/11/6)_要闻2025-11-07
- 今日观点!【ETF动向】11月6日建信上证科创2025-11-07
- 赢得世界杯不是我的梦想!C罗:不会改变我2025-11-07
- 适老关怀与社区温情共融,30位困境老人健康2025-11-07
- 每日简讯:Doordash业绩指引堪忧,股价重挫17%2025-11-07
- 恩捷股份:不存在逾期对外担保2025-11-07
- 那些年训导员带犬受过的伤:每一道伤,都是2025-11-06
- 通讯|青春搭桥 情谊续航——“Z世代”为2025-11-06
- 女老师穿“孕妇装”上课被举报,家长:薄如2025-11-06
- 真爱美家:关于筹划控制权变更事项继续停牌2025-11-06
- 个旧大屯小杨再生资源回收站(个体工商户)2025-11-06
- 潮主理撒网啦丨互联网大会延伸场来濮院了!2025-11-06
- 太阳电缆:近期公司经营情况及内外部经营环2025-11-06
- “川超”甘孜VS阿坝终极对决!最后一波主场2025-11-06
- 微资讯!现场剪开机器人腿部覆件,何小鹏:2025-11-06
- 白云机场:10月旅客吞吐量764.22万人次_每2025-11-06
- 每日信息:PriceSeek提醒:上海期锡库存减2025-11-06
资讯
- 观热点:花了1588元看演唱会只看到前排后脑勺,消费者要求退票法院拒绝
- 快报:安徽黄山:峰林尽染秋意浓
- 今日视点:【异动提醒】锡南科技(301170)11月6日13点2分创60日新高
- 速转!济南这里今晚有演练,大量车辆人员将集结,勿慌、勿报警~
- 大行评级丨高盛:上调中远海控AH股目标价 上调2025至27年净利润预测
- 东方雨虹:德爱威全系涂料产品已获得中国环境标志认证(十环)
- 当前看点!11月5日生意社燃料油基准价为5362.50元/吨
- 草甘膦价格反弹提振业绩,兴发集团预计后市稳中有升 每日速读
- 乘联分会崔东树:10月股票市值增长较好的是美国通用、福特、特斯拉_简讯
- 盛装“四叶草” 静候第八届进博会启幕 看点
