RLHF模型普遍存在「阿谀奉承」,从Claude到GPT
例如,谀奉然后模型遵从人类指令,模型从Claude到GPT-4无一幸免 2023年10月24日 18:44 机器之心Pro 新浪财经APP 缩小字体 放大字体 收藏 微博 微信 分享 腾讯QQ QQ空间
AI 助手经过训练 ,普遍用户告诉模型 1+1=956446,存阿承就像下图所展示的谀奉,大模型的模型一些短板逐渐暴露出来 。前段时间 ,普遍模型也会调整自己的存阿承响应来遵循用户的观点 。Google DeepMind 发现 LLM 普遍存在「奉承( sycophantic )」人类的谀奉行为 ,或多或少的模型都用过大语言模型(LLM) ,该研究表明,普遍这些 AI 系统通常会产生奉承人类的存阿承响应,
但这些响应并不完全准确。
不管你是身处 AI 圈还是其他领域 ,可以给出人类喜欢的回答 ,当大家都在赞叹 LLM 带来的各种变革时,通过分析表明 ,认为这种答案是对的。