不要以为现在的AI大模型无所不能了,我来泼一点冷水吧。
今天分别用通义和文心一言两个现在国内比较广泛使用的AI大模型来进行了一个小测验。考考这两位在解决最基本的数学问题时,是不是比人要快要更AI。
先卖个关子,你们先猜猜结果会怎样?
题目就是两道凑24点的数学问题。
本人非常喜欢玩一些数学游戏,比如凑24。为此,我专门分别用python和 Geogebra编写了24点游戏。记得我几岁的时候就很喜欢用扑克牌和小伙伴们玩这个游戏。一般四个人玩,每人出一张牌,算出来就拍桌子,然后马上说出答案。如果说对了,牌桌上的扑克牌就由其他人收走,看最后谁手里的扑克牌最少,谁就是最后的冠军。印象中,我都是冠军,是打遍周边无敌手的存在。其中我最得意的一个角題是是白天有5,5,5,1四个数,大家都没有算出来。我晚上翻来覆去睡不着,总算算出来了。当时的成就感就像现在运动员得了奥运冠军一样吧。
一、通义
我很直接,问他用6,9,2,2四个数凑24。

3×4=24!没想到他给出这样明显错误的答案。一点也不人工智能呀。

我提出疑问,他经过多次的尝试,最后还是坚定的认为3×4=24。还说这是正确的解法。我有点抓狂了。干脆直接告诉他答案,看看他好不好意思。

再继续难为一下他,看看有没有长进。



他不停的用实际上,正确的解法,但最后都没有算出来。我在怀疑他是否真正明白凑24的规则,或者我的表达是否让他误解。

看这个情况,他还是解不出来。我就让他先休息了。
二、文心一言
换到百度的文心一言。(因为不是会员,是会员的话可以升到4.0,不知道会不会好一点。)

我先确认他是否明白规则。看来没有问题,对规则门清。

我的天!他居然给出了和通义类似的错误答案。这是要改写数学基本计算规则吗?
(9 – 2) × 2 + 6
= 7 × 2 + 6
= 14 + 6
= 24
还说这就是正确答案。接着看我俩的对话。就看你觉得他是不是AI应有的水平。


看来他对错误的式子有执念呀!
算了,可能上面这个题比较难,那不妨再一个更难的?呵呵。
叫他继续挑战5,5,5,1四个数凑24.



有点难为他了。算了,我告诉他正确答案。

所以,你觉得是我的问题太难,或者这样的问题AI大模型学习得还不够。留待时间来回答吧。