近期有不少用户抱怨GPT-4的回答质量大幅下降,一份最新研究为这些抱怨提供了数据依据。来自斯坦福、UC Berkeley 的一项研究比较了六月份和三月份的GPT-4版本在解决数学问题和生成代码等任务时的表现,结果显示准确率急剧下降,解决数学问题的成功率从97.6%降到了2.4%,生成代码的成功率从52%降到了10%。
有猜测认为,性能下降的原因可能是因为OpenAI同时在使用几个较小且专门的GPT-4模型,其行为与大型模型类似,但运行成本较低,当用户提出问题时,系统决定将提示词发送到哪个模型,这可能影响了整体回答的质量。这样的做法可能更省钱和更快速,但也可能导致模型性能方面的一些取舍。
也有分析认为,性能下降是出于对安全性与有用性的权衡,上述研究也表明,6月版本的GPT-4比3月版本“更安全”,因为它更有可能拒绝敏感问题。更高的安全性通常是以降低实用性为代价的,从而导致认知技能可能下降。(@svpino、@DrJimFan)