用上这个工具包，大模型推理性能加速达40倍

英特尔^® Extension for Transformer是什么？

英特尔® Extension for Transformers[1]是英特尔推出的一个创新工具包，可基于英特尔® 架构平台，尤其是第四代英特尔® 至强® 可扩展处理器（代号Sapphire Rapids[2]，SPR）显著加速基于Transformer的大语言模型(Large Language Model,LLM)。其主要特性包括：

通过扩展Hugging Face transformers API[3]和利用英特尔® Neural Compressor[4]，为用户提供无缝的模型压缩体验；
提供采用低位量化内核（NeurIPS 2023：在CPU上实现高效LLM推理[5]）的LLM推理运行时，支持Falcon、LLaMA、MPT、Llama2、 BLOOM、OPT、ChatGLM2、GPT-J-6B、Baichuan-13B-Base、Baichuan2-13B-Base、Qwen-7B、Qwen-14B和Dolly-v2-3B等常见的LLM[6]；
先进的压缩感知运行时[7]（NeurIPS 2022：在CPU上实现快速蒸馏和QuaLA-MiniLM：量化长度自适应MiniLM；NeurIPS 2021：一次剪枝，一劳永逸：对预训练语言模型进行稀疏/剪枝）。

本文将重点介绍其中的LLM推理运行时（简称为“LLM运行时”），以及如何利用基于Transformer的API在英特尔® 至强® 可扩展处理器上实现更高效的LLM推理和如何应对LLM在聊天场景中的应用难题。

LLM运行时(LLM Runtime)

英特尔® Extension for Transformers提供的LLM Runtime[8]是一种轻量级但高效的LLM推理运行时，其灵感源于GGML[9]，且与llama.cpp[10]兼容，具有如下特性：

内核已针对英特尔® 至强® CPU内置的多种AI加速技术（如 AMX、VNNI）以及AVX512F和AVX2指令集进行了优化；
可提供更多量化选择，例如：不同的粒度（按通道或按组）、不同的组大小（如：32/128）；
拥有更优的KV缓存访问以及内存分配策略；
具备张量并行化功能，可助力在多路系统中进行分布式推理。

LLM Runtime的简化架构图如下：

△图1.英特尔® Extension for Transformers的LLM Runtime简化架构图

使用基于Transformer的API，在CPU上实现LLM高效推理

只需不到9行代码，即可让您在CPU上实现更出色的LLM推理性能。用户可以轻松地启用与Transformer类似的API来进行量化和推理。只需将 ‘load_in_4bit’设为true，然后从HuggingFace URL或本地路径输入模型即可。下方提供了启用仅限权重的(weight-only)INT4量化的示例代码：

from transformers import AutoTokenizer, TextStreamer
from intel_extension_for_transformers.transformers import AutoModelForCausalLM
model_name = "Intel/neural-chat-7b-v3-1” 
prompt = "Once upon a time, there existed a little girl,"

tokenizer = AutoTokenizer.from_pretrained(model_name, trust_remote_code=True)
inputs = tokenizer(prompt, return_tensors="pt").input_ids
streamer = TextStreamer(tokenizer)

model = AutoModelForCausalLM.from_pretrained(model_name, load_in_4bit=True)
outputs = model.generate(inputs, streamer=streamer, max_new_tokens=300)

分享说明：转发分享请注明出处。

下一篇：微软拿下OpenAI董事会席位，奥特曼首次回应Q*：不幸的泄密事件

英特尔® Extension for Transformer是什么？

LLM运行时(LLM Runtime)

使用基于Transformer的API，在CPU上实现LLM高效推理

英特尔^® Extension for Transformer是什么？