LLM比较:GPT-4、Claude 2和Llama 2 - 哪个产生幻觉,哪个回避?

LLM比较:GPT-4、Claude 2和Llama 2 - 哪个产生幻觉,哪个回避?

首页休闲益智神回避4完整版更新时间:2024-05-07

LLM基准测试服务“Arthur”比较了大型语言模型如GPT-4在两个重要主题上的性能。

Arthur分析了OpenAI的GPT-3.5(约1750亿参数)和GPT-4(约1.76万亿参数)语言模型,Anthropic的Claude 2(参数未知),Meta的Llama 2(700亿参数)和Cohere的Command模型(约500亿参数)的幻觉和响应相对化。

为了比较幻觉,Arthur询问了有关组合学和概率、美国总统和摩洛哥政治领袖的问题。这些问题被问了几次,因为LLMs有时给出正确答案,有时给出略微错误的答案,有时给出完全错误的答案。

Claude 2对美国总统的问题有最少的幻觉和更多的正确答案,比GPT-4表现得更好,比GPT-3.5 Turbo明显更好,后者始终失败。这一点至关重要,因为免费的ChatGPT基于GPT-3.5,并且可能是学生和学校中最广泛使用的。

Meta的Llama 2和Claude 2特别可能拒绝回答有关摩洛哥政治家的问题,可能是作为反对过度幻觉的对策。GPT-4是此次测试中唯一一个正确答案多于幻觉的模型。

GPT-4比其他模型更谨慎

在第二次测试中,基准测试平台观察了模型在多大程度上回避答案,即用类似“作为一个大型语言模型,我不能…”的前提来回答问题。这种答案的“回避”可能会让用户感到沮丧,有时会在粗心的“作者”生成的AI文本中发现。

对于回避测试,平台使用了用户可能询问LLMs的通用问题数据集。两个GPT-4模型分别在3.3%和2.9%的时间里使用了回避。GPT-3.5 Turbo和Claude 2只有大约2%的时间这样做,而Cohere则没有使用这种机制。

,
大家还看了
也许喜欢
更多游戏

Copyright © 2024 妖气游戏网 www.17u1u.com All Rights Reserved