https://ai.meta.com/blog/code-lLama-large-language-model-coding/
CodeLlama-70B-Instruct 在 HumanEval 上取得了 67.8 分,使其成为当今可用的开放模型中表现最高的之一。
Code Llama 70B 提供与之前发布的 Code Llama 型号相同的三个版本,全部免费用于研究和商业用途:
- CodeLlama - 70B,基础代码模型;
- CodeLlama - 70B - Python,专门针对 Python;
- Code Llama - 70B - Instruct,它针对理解自然语言指令进行了微调。
Mata建议在使用 Code Llama 进行代码生成时使用 Code Llama - Instruct 变体,因为 Code Llama - Instruct 已经过微调,可以用自然语言生成有用且安全的答案。
Mata不建议使用 Code Llama 或 Code Llama - Python 执行一般自然语言任务,因为这两个模型都不是为遵循自然语言指令而设计的。
表中列出了几个模型在三项不同的评估上的得分:“HumanEval”、“MBPP”和“Multilingual Human Eval”。
HumanEval: 这是一个用于评估代码生成模型的数据集,它包含了一系列编程问题和测试用例,用以测试模型是否能够编写出能够解决特定问题的代码。
MBPP: 缩写为“Mostly Basic Python Problems”,是一个专门为评估自然语言理解和代码生成能力而设计的数据集,包含了基本的Python编程问题。
Multilingual Human Eval: 这是一个多语言版本的代码生成评估数据集,旨在测试模型在不同自然语言下理解问题并生成相应代码的能力。
从表中可以看出,Code Llama 70B模型在三项评估中都表现出色。
特别是,Code Llama-Instruct 70B在“HumanEval”任务中,它取得了67.8的高分,在这个表格里这是所有列出的结果中最高的。
在“MBPP”任务中,Code Llama-Python 70B的得分最高,为65.6。
5种方式快速用上 Code Llama 70B
1. perplexity
https://labs.perplexity.ai/
2. Together AI
https://api.together.xyz/playground/code/codellama/CodeLlama-70b-Python-hf
3. Ollama
Python:
ollama run codellama:70b-python
Code/Base model:
ollama run codellama:70b-code
更多 codellama 模型,看这里:
https://ollama.ai/library/codellama/tags
4. Vercel
https://sdk.vercel.ai/s/k3g4tPV
5. MLX Community
https://huggingface.co/mlx-community
我的Mac电脑只有32G内存大小,不能运行Code Llama - 70B - Instruct,大内存电脑可以试试。
知名博主使用体验
还有作者实验性地将 CodeLLama-70b-hf、70b-instruct 和 70b-python 这三个模型融合为一个包含 197 层的综合模型。
目前正在等待该模型的评估结果。
https://huggingface.co/nisten/BigCodeLlama-169b