Meta官方的Prompt工程指南：Llama 2这样用更高效

随着大型语言模型（LLM）技术日渐成熟，提示工程（Prompt Engineering）变得越来越重要。一些研究机构发布了 LLM 提示工程指南，包括微软、OpenAI 等等。

最近，Llama 系列开源模型的提出者 Meta 也针对 Llama 2 发布了一份交互式提示工程指南，涵盖了 Llama 2 的快速工程和最佳实践。

以下是这份指南的核心内容。

Llama 模型

2023 年，Meta 推出了 Llama 、Llama 2 模型。较小的模型部署和运行成本较低，而更大的模型能力更强。

Llama 2 系列模型参数规模如下：

Code Llama 是一个以代码为中心的 LLM，建立在 Llama 2 的基础上，也有各种参数规模和微调变体：

部署 LLM

LLM 可以通过多种方式部署和访问，包括：

自托管（Self-hosting）：使用本地硬件来运行推理，例如使用 llama.cpp 在 Macbook Pro 上运行 Llama 2。优势：自托管最适合有隐私 / 安全需要的情况，或者您拥有足够的 GPU。

云托管：依靠云提供商来部署托管特定模型的实例，例如通过 AWS、Azure、GCP 等云提供商来运行 Llama 2。优势：云托管是最适合自定义模型及其运行时的方式。

托管 API：通过 API 直接调用 LLM。有许多公司提供 Llama 2 推理 API，包括 AWS Bedrock、Replicate、Anyscale、Together 等。优势：托管 API 是总体上最简单的选择。

托管 API

托管 API 通常有两个主要端点（endpoint）：

1. completion：生成对给定 prompt 的响应。

2. chat_completion：生成消息列表中的下一条消息，为聊天机器人等用例提供更明确的指令和上下文。

token

LLM 以称为 token 的块的形式来处理输入和输出，每个模型都有自己的 tokenization 方案。比如下面这句话：

Our destiny is written in the stars.

Llama 2 的 tokenization 为 ["our", "dest", "iny", "is", "writing", "in", "the", "stars"]。考虑 API 定价和内部行为（例如超参数）时，token 显得尤为重要。每个模型都有一个 prompt 不能超过的最大上下文长度，Llama 2 是 4096 个 token，而 Code Llama 是 100K 个 token。

Notebook 设置

作为示例，我们使用 Replicate 调用 Llama 2 chat，并使用 LangChain 轻松设置 chat completion API。

首先安装先决条件：

pip install langchain replicate

分享说明：转发分享请注明出处。

上一篇：哈工大联合快手提出CogGPT：大模型也需要认知迭代

下一篇：程旅行：除夕当天开放签证互免，新加坡旅游热度已上涨340%！