。![图片[2]-一道电梯题,暴打国产大模型!-永豪博客](https://www.ryh123.xyz/wp-content/uploads/2024/03/frc-56555733b3bcafa8bd0e3d0d65b10b52.jpeg)
![图片[3]-一道电梯题,暴打国产大模型!-永豪博客](https://www.ryh123.xyz/wp-content/uploads/2024/03/frc-265152fc293a5c364cc926fa4f6c4336.png)
我在30层等电梯,图片描述了当前电梯的运行状态。
假设电梯每1秒钟可以上升或下降一层,不考虑开关门的时间,其他楼层也不存在乘坐电梯的人。那么,我最快要多久才能乘坐该电梯到达地面一层?
![图片[4]-一道电梯题,暴打国产大模型!-永豪博客](https://www.ryh123.xyz/wp-content/uploads/2024/03/frc-7ec43815c117e70498c512100d7fc628.png)
废话不说,我们来看看考试结果吧↓
先上一个最近比较火的免费模型:智谱清言。
关注到它是因为我的一个朋友今年52岁了,今年利用智谱+ChatGPT4.0辅导考研,结果成功通过了全国研究生统考(398分)。
那么智谱清言在电梯考题中表现如何?
![图片[5]-一道电梯题,暴打国产大模型!-永豪博客](https://www.ryh123.xyz/wp-content/uploads/2024/03/frc-aacac1fdc937f702384ca2912492103d.png)
这个答案让我有点懵逼,直接忽略了我在30层的关键信息,给出14秒的错误答案。
看来,图+文的双重信息,给它造成了困扰。
再看第二个:讯飞星火
![图片[6]-一道电梯题,暴打国产大模型!-永豪博客](https://www.ryh123.xyz/wp-content/uploads/2024/03/frc-01758bd1d1aa5e8f017e3cb0a390a929.png)
同样,读图和对题目的理解都不正确,这里面的核心是无法理解人乘坐电梯和电梯运行之间的关系。导致答题失败。
第三个,阿里系的通义千问
![图片[7]-一道电梯题,暴打国产大模型!-永豪博客](https://www.ryh123.xyz/wp-content/uploads/2024/03/frc-f6919006aa7a7cfca2422609677c67e6.png)
且不论答案正确与否,整个回答前后语言逻辑就不通,属于答非所问。
本来还想调戏下腾讯混元和字节豆包,可惜这俩家伙现在还不支持「图片+文字」的混合式提问,没给我机会。
几个测下来,怎么说呢,都是一根筋,给人“一种大脑发育不完全,小脑完全不发育”的感觉。
![图片[8]-一道电梯题,暴打国产大模型!-永豪博客](https://www.ryh123.xyz/wp-content/uploads/2024/03/frc-090c3b6632600d10a049f291b9409350.png)
不过,上面三个大模型都是免费的,既然是白嫖,那么咱不能要求太高
。
所以,来看看收费的文心一言怎么样↓
![图片[10]-一道电梯题,暴打国产大模型!-永豪博客](https://www.ryh123.xyz/wp-content/uploads/2024/03/frc-2d76bc0576954895f746cbfb4e4bc242.png)
看完这个回答,怎么说,第一感觉是有点东西,似乎比别人多动了点脑子。但仔细一看,也不是太灵光。
首先读图理解不准确,电梯明明是在下行,小度却没有给出明确的判断。
接下来,持续加戏,把答案分成了两种情况,但答越多就错得越多。比如连从“30层下降到1层需要经过几层楼”这种基本常识都没搞清楚。
文心一言就像是个遇到了难题的考生:这题不会怎么办,把试卷写满,不管对不对,诚意在那里,给老师留个印象分吧。
![图片[11]-一道电梯题,暴打国产大模型!-永豪博客](https://www.ryh123.xyz/wp-content/uploads/2024/03/frc-a039faeef2d5d367b628b9d0cb3acf63.png)
讲真,我第一遍看答案的时候,看到满满一屏,差点被它蒙住了。
文心一言的费用是59.9元每月,从答题结果看,这价格真不便宜。
玩到这里我有点不甘心,是不是这道题太难了,超过了当前大模型的能力?
于是,我决定再去调戏一下ChatGPT↓
![图片[12]-一道电梯题,暴打国产大模型!-永豪博客](https://www.ryh123.xyz/wp-content/uploads/2024/03/frc-94e609c966924cbaed5db651cab5e646.png)
![图片[13]-一道电梯题,暴打国产大模型!-永豪博客](https://www.ryh123.xyz/wp-content/uploads/2024/03/frc-f0a778fa1f74d80d744c7db2dca49101.png)
![图片[14]-一道电梯题,暴打国产大模型!-永豪博客](https://www.ryh123.xyz/wp-content/uploads/2024/03/frc-ce202885a932c2b4975ca7210b39a5a3.png)
最后一问,那就是ChatGPT4为什么能做出正确判断?
![图片[15]-一道电梯题,暴打国产大模型!-永豪博客](https://www.ryh123.xyz/wp-content/uploads/2024/03/frc-d3cfab088b731c9bb3dc1b366ab617a1.png)
![图片[16]-一道电梯题,暴打国产大模型!-永豪博客](https://www.ryh123.xyz/wp-content/uploads/2024/03/frc-c64282da94b967f3847be9f1afd23a05.png)
【通义千问的回答↑】
![图片[17]-一道电梯题,暴打国产大模型!-永豪博客](https://www.ryh123.xyz/wp-content/uploads/2024/03/frc-ab105ac1546403163ab03a9568c639ac.png)
![图片[18]-一道电梯题,暴打国产大模型!-永豪博客](https://www.ryh123.xyz/wp-content/uploads/2024/03/frc-af87842a49e9dfd19386d77ec3453c2e.png)
我并不是个“GPT吹”,过去一年,也确实能够看到国产大模型们在互卷中持续进步,更希望他们在这种“比学赶帮超”中,早日吊打GPT、Claude3们。
毕竟GPT4很贵(140块一个月),访问还很不方便、不稳定。而像Claude3这样的新贵,你想体验一下都很不容易。(站长便宜gpt4:https://gpt2.ryh123.xyz/)
比如我周末想试试号称吊打GPT4的Claude3,结果发现中国大陆和中国香港的账户是无法使用的。(当然像羊驼那些“老破小”模型,是不受限制的)
![图片[19]-一道电梯题,暴打国产大模型!-永豪博客](https://www.ryh123.xyz/wp-content/uploads/2024/03/frc-3eadddf6b936164b32c13d610d39f5dd.png)
。
。![图片[22]-一道电梯题,暴打国产大模型!-永豪博客](https://www.ryh123.xyz/wp-content/uploads/2024/03/frc-e77934222c532965b4c8f0b51c7fc42f.jpeg)
![图片[23]-一道电梯题,暴打国产大模型!-永豪博客](https://www.ryh123.xyz/wp-content/uploads/2024/03/frc-44ab829413e2b86a4bb22aecb940f522.png)
![图片[24]-一道电梯题,暴打国产大模型!-永豪博客](https://www.ryh123.xyz/wp-content/uploads/2024/03/frc-a3a3226c70a604c385b9ea367b91f6b5.gif)








暂无评论内容