您现在的位置是:综合>>正文
9.11和9.9谁大?教育大模型高光时刻,通用大模型翻车
综合279人已围观
简介9.11和9.9谁大?教育大模型高光时刻,通用大模型翻车2024-07-17 00:12:29来源: 多知 北京 ...
用微信扫码二维码
分享至好友和朋友圈
垂类模型的价值在此刻显现了。
来源|多知网
作者|王上
这两天全球网络掀起一个热梗,型高纷纷问大模型“9.11和9.9谁大?”出乎意料的刻通是很多大模型回答的是“9.11更大”。
多知进行测试发现,模型部分通用大模型认为9.11更大,翻车甚至给出的教育解释一塌糊涂。有的大模大模型时对时错。这说明大模型可能虽然会解题,型高但可能不懂数学基础,刻通就像有网友说的模型“大模型不理解‘十进制’的基本概念”。
但是翻车,多知测试发现,教育教育大模型非常给力,大模例如学而思旗下九章大模型、型高猿力科技旗下看云大模型相关产品都答对了。
对此,多知询问学而思CTO田密,他向多知分析:“九章大模型能做对,是因为教育大模型定向构造了很多数值计算和符号计算的数据给到了模型训练,这样一来,九章大模型知道这是数学题目,而通用大模型只能当成一个通用的题目处理。”
总体而言,“教育大模型有足够多的、足够专业的数学数据训练,整个解析过程是模拟孩子学习数学的过程,一步步地推导,所以可以解答对数学相关的问题。”
01
通用大模型集体“翻车”?
先来看看国外网友的测试——
ChatGPT-4o:
难以置信,回答错误。
有网友换了个说法:
换成金钱后最初还是错了,但在解释过程中自行纠正了。
博主s1r1us认为:“这是因为大模型不理解十进制表示的基本概念。11大于9的概率更大,所以9.11>9.9。但是让它开始解释时,它会将数字转换为文本,并且有更大的数据表明90美分大于11美分,因此它会自行纠正。从大型语言数据库进行统计推断不是推理机器吗?我的猜测是,即使数据/计算增加,LLM 模型也无法达到人类水平的推理能力。他们需要发现更好的算法来复制人类智能。”
再来看看多知测试的国内大模型——
文心一言:
非常清晰,答对了。
通义千问:
错得有点离谱。
又试了一次:
这次对了。解析得还挺详细的。
但这种一会儿对,一会儿错,输出不稳定,让人没有安全感。
腾讯元宝:
正确,虽然没有给出解释,但这种直接的计算方式让人无法反驳。
讯飞星火:
以为第二次解释会对,但中间绕来绕去,最终还是错了。
豆包:
结果错误,但解释正确,举的例子很有意思。
看完大厂的,再来看看创业公司的大模型。
Kimi:
错得很直接。
不甘心,又换了个说法问它:
这……还是错了。
02
教育大模型更懂数学?
教育大模型在教育领域的应用更加深入和专业,它们通常针学科或者教学场景进行训练,以提供更精准的支持。它们是否能解答对这道题?
来看看九章大模型:
答对了,给出了一步步详细的分析,且给出了“点睛”,也就是说九章大模型知道这道题考查什么。显然学习过了相关问题。
再看学而思旗下“九章随时问”,AI老师“小思”也回答对了,并一步步给出讲解,非常容易理解。
有不少人发现了“九章随时问”能解答对这道题,且用英文提问也能答对。有人在社交媒体发“九章随时问”解答的图片时评价到:“还得是教育大模型。”
再来看猿辅导旗下海豚AI学中AI老师“小白”的回复:
同样,小白也答对了,且它并没有直接给答案,而是进行了拆解,一步步引导,最终才给出正确的答案。
教育领域的容错率很低,大模型在教育领域的应用最大的阻碍就在于它的幻觉问题,这也是各家教育大模型着重解决的问题。
之前,各家教育科技企业都向多知提到过,通过搜索召回增强技术(RAG),可以比较有效地缓解幻觉问题,这使得大模型能够比较有效应用在实际的产品中去。
RAG可以通俗地理解为在训练的时候先给大模型输入问题的答案,那么大模型就可以检索到正确的答案,会按照指引生成对应上下文进行回答,从而避免胡说八道。
不过,田密告诉多知:“这道题目能做对,还不是因为RAG,这次是因为九章大模型训练了足够多的数据,而且这些数据是我们用AI合成的数据,再来训练AI 。整个解析过程是模拟孩子学习数学的过程,一步步地推导。”
“也就是说,教育科技公司有足够多的、足够专业的数学数据做过训练,这是优势。通用大模型把这道题当成是一个通用的题来处理,而九章大模型知道它是一道数学题,它用数学的方式,一步步来推理,自然能做对,而且整个过程的可解释性很好。”田密进一步向多知解释。
垂类模型的价值在此刻显现了。
本文作者:王上
《教育科技这一年·2022》+《培训行业这一年·2021》+《教育科技行业图谱2022-2023》,重磅发售!套装优惠价169元,闭眼入!迅速点击文末“阅读原文”购买,手慢无!
Tags:
相关文章
沙特阿美团队系列赛深圳站周五开杆 林希妤盼卫冕
综合沙特阿美团队系列赛深圳站周五开杆 林希妤盼卫冕2024年10月03日 00:26新浪高尔夫缩小字体放大字体收藏微博微信分享0腾讯QQQQ空间 ...
【综合】
阅读更多小学生被罚深蹲300个,有人住院,校方回应
综合小学生被罚深蹲300个,有人住院,校方回应2024年09月29日 21:00界面新闻缩小字体放大字体收藏微博微信分享0腾讯QQQQ空间 9月28日 ...
【综合】
阅读更多黎称以色列对黎巴嫩的袭击已致超2000人死亡
综合黎称以色列对黎巴嫩的袭击已致超2000人死亡2024年10月03日 21:01新京报作者:新京报缩小字体放大字体收藏微博微信分享0腾讯QQQQ空间 ...
【综合】
阅读更多
热门文章
最新文章
友情链接
- 热带风暴“黛比”生成 向美国佛罗里达州持续移动
- 董明珠谈格力的终极目标:买格力任何产品不再需要售后服务
- 郑钦文夺冠,决赛女主裁伊娃被评“人工鹰眼”
- 菲律宾棉兰老岛发生6.8级地震
- 特朗普:已与福克斯新闻达成协议,将于9月4日与哈里斯进行辩论
- 武林盟极限格斗7月27日杭州开战 薄福凡领衔
- 董明珠:你们不用格力空调不是傻吗 便宜货东西不一定好
- 董明珠:格力正在开发不要电的空调!直连光伏 0电费
- 以军称对黎巴嫩南部发动空袭
- 美防长下令调整军事态势 向中东地区增加军事部署
- 以军称在加沙拉法军事行动中打死一名哈马斯指挥官
- 俄罗斯海军开始举行“大洋
- 两艘德国军舰将过航台湾海峡?外交部回应
- 8月出口同比大涨8.7%,美重登我国出口市场榜首,透露哪些信息?
- 欧洲法院裁定苹果补缴百亿税款,谷歌垄断案败诉
- 特朗普再次拒绝承认4年前败选并否认与国会山骚乱有关 哈里斯呼吁选民“翻篇”
- 月薪三万的陆家嘴打工人,抠抠搜搜
- 中美两军举行战区领导通话
- 国防教育法修订草案二审 拟完善学生军训有关规定
- 我付给孩子 100 美元读一本书