我对最新大模型（Fable 5）的一些体会

我对最新大模型（Fable 5）的一些体会 | Ecency

两天前的时候，收到邮件，说最新的 Claude Fable 5 现在可以用了，邮件里还提了下，

Anthropic's most powerful generally-available model.

意思是说，这个最新的模型（Fable 5）是 Anthropic 当前公开可用的最强大模型。

Anthropic 旗下之前有两个公开的大模型Sonnet 4.6 和 Opus4.7 ，属于目前市场上的主流模型，效果的确是很不错的。

而这次推出的Fable 5 ，以我这两天的实际使用体验来看，比 Sonnet 4.6 效果更好。

那么问题来了，具体好在哪里？

我认为其一就是新的Fable 5 的逻辑能力比Sonnet 4.6更强。从我使用来看，Fable 5可以做到之前Sonnet 4.6没解决的问题，至少是Sonnet 4.6没有主动帮我提出并解决，这点是主要优点。

其次，Fable 5 相比Sonnet 4.6，在一些问题的判断和看法上，更能给出准确的意见，更不会像其他一些模型那样只会捧杀和吹水，实则非但于解决问题无用，有时候反而容易误导用户。

Fable 5 相比Anthropic 的其他大模型，在安全策略上做了限制，比如在使用过程中，可能会收到类似如下信息，

Fable 5 hit a safety filter, and the conversation was automatically switched to Claude Opus 4.8. Start a new conversation to continue with Fable 5, or continue this conversation with Claude Opus 4.8.

大意是说，Fable 5 触发了安全过滤机制，因此当前对话已自动切换至 Claude Opus 4.8。

我使用大模型，不会去看所谓的“跑分榜”，因为跑分榜以一来对我无用，二来那玩意很容易造假。就像前些年移动互联网兴起时，国内一些手机厂商总喜欢公布自己最新手机的跑分指数，并以此为耀。但明眼人一眼就能看出，跑分榜那玩意，太容易造假，只能当参考，绝对不能做依据。

我使用大模型，最关注的就是其实际解决问题的能力。你说某个大模型好，但我实际使用后，发现其只是夸夸其谈东拉西扯，说了一大堆废话，但最后问题越解决越麻烦，索性放弃。

而真正好的大模型，并不会将关注力放在如何取悦用户，而是将重心放在聚焦用户的关注点和实际解决问题点上，一个问题抛给大模型后，它不但分析问题本身，也会分析用户的要求，实事求是，而不是一味的取悦用户。说到这点，我认为国内大模型在这点上做的实在是太过分了，有时候为了讨好用户简直就是在一本正经地胡说八道嘛。

当然，大模型的缺点也是很多。我认为大模型最大的问题，还是那个老生常谈的，就是幻觉。

我开始用大模型的时候，被它的思路构架、写代码能力等深深震撼，但时间久了，发现问题来了了，尤其是你要完成一个复杂的，需要不断迭代的项目时，大模型的幻觉劣势非常明显。

网上有流传一个笑话，说你在.md里硬性要求大模型每次输出内容时，先叫声爸爸。

这看起来似乎是个笑话，但懂的人自然明白，这不是笑话，而是针对“幻觉”的一个很接地气的解决方法。试想，一旦发现某次大模型开始不叫爸爸了，那就可以断定这家伙出现了幻觉，思路紊乱。这个时候就要重新将你最核心的问题和要求重新梳理，避免大模型在“幻觉”的路上越走越偏。

Image by marvinbla from Pixabay

有人曾举过一个很切合实际的例子,

大模型好比炒菜，如果你放任它自发完成任务，它会为了给你炒一盘鸡蛋西红柿而把整个厨房炸掉，然后问你「你就说鸡蛋西红柿好不好吃吧。」大部分人上手用 AI 做项目，一开始都失败在这里：它创造出了一个可用的东西，但混乱的成长速度压过了功能的成长速度，然后在某一个崩溃成一团无法修复的乱麻，治丝益棼

说到底，现在跟大模型打交道，做的最多的，就是在纠正大模型，不断给它擦屁股，防止它跑偏，防止它搞错，更要防止它“自作聪明”搞乱搞砸你的项目。

最后说一点，昨天看到一篇新闻，大意是说 Anthropic 公司为了防止有人利用其最新大模型Fable 5训练AI，一旦发现就自动降智。。。

再设想下，这些企业利用自己研发的大模型在背后作更大的恶，一直没被发现呢？？

我想说的是，比起人工智能带给我们的焦虑，大模型这种运作背后的企业黑箱操作，才是最应该令我们警惕的。