LLM比较：GPT-4、Claude 2和Llama 2 - 哪个产生幻觉，哪个回避？（神回避4完整版）

LLM基准测试服务“Arthur”比较了大型语言模型如GPT-4在两个重要主题上的性能。

Arthur分析了OpenAI的GPT-3.5（约1750亿参数）和GPT-4（约1.76万亿参数）语言模型，Anthropic的Claude 2（参数未知），Meta的Llama 2（700亿参数）和Cohere的Command模型（约500亿参数）的幻觉和响应相对化。

为了比较幻觉，Arthur询问了有关组合学和概率、美国总统和摩洛哥政治领袖的问题。这些问题被问了几次，因为LLMs有时给出正确答案，有时给出略微错误的答案，有时给出完全错误的答案。

Claude 2对美国总统的问题有最少的幻觉和更多的正确答案，比GPT-4表现得更好，比GPT-3.5 Turbo明显更好，后者始终失败。这一点至关重要，因为免费的ChatGPT基于GPT-3.5，并且可能是学生和学校中最广泛使用的。

Meta的Llama 2和Claude 2特别可能拒绝回答有关摩洛哥政治家的问题，可能是作为反对过度幻觉的对策。GPT-4是此次测试中唯一一个正确答案多于幻觉的模型。

GPT-4比其他模型更谨慎

在第二次测试中，基准测试平台观察了模型在多大程度上回避答案，即用类似“作为一个大型语言模型，我不能…”的前提来回答问题。这种答案的“回避”可能会让用户感到沮丧，有时会在粗心的“作者”生成的AI文本中发现。

对于回避测试，平台使用了用户可能询问LLMs的通用问题数据集。两个GPT-4模型分别在3.3%和2.9%的时间里使用了回避。GPT-3.5 Turbo和Claude 2只有大约2%的时间这样做，而Cohere则没有使用这种机制。

大家还看了

也许喜欢

更多游戏