60行代码，从头开始构建GPT！最全实践指南来了

60行代码，从头开始构建GPT？

最近，一位开发者做了一个实践指南，用Numpy代码从头开始实现GPT。

你还可以将 OpenAI发布的GPT-2模型权重加载到构建的GPT中，并生成一些文本。

话不多说，直接开始构建GPT。

什么是GPT？

GPT代表生成式预训练Transformer，是一种基于Transformer的神经网络结构。

- 生成式（Generative）：GPT生成文本。

- 预训练（Pre-trained）：GPT是根据书本、互联网等中的大量文本进行训练的。

- Transformer：GPT是一种仅用于解码器的Transformer神经网络。

大模型，如OpenAI的GPT-3、谷歌的LaMDA，以及Cohere的Command XLarge，背后都是GPT。它们的特别之处在于， 1) 非常大（拥有数十亿个参数），2) 受过大量数据（数百GB的文本）的训练。

直白讲，GPT会在提示符下生成文本。

即便使用非常简单的API（输入=文本，输出=文本），一个训练有素的GPT也可以做一些非常棒的事情，比如写邮件，总结一本书，为Instagram发帖提供想法，给5岁的孩子解释黑洞，用SQL编写代码，甚至写遗嘱。

以上就是 GPT 及其功能的高级概述。让我们深入了解更多细节。

输入/输出

GPT定义输入和输出的格式大致如下所示：

def gpt(inputs: list[int]) -> list[list[float]]:
    # inputs has shape [n_seq]
    # output has shape [n_seq, n_vocab]
    output = # beep boop neural network magic
    return output

分享说明：转发分享请注明出处。

上一篇：微软发布财务Copilot 旨在用AI来彻底改变电子表格

下一篇：AI生成视频还有王炸？阿里EMO惊艳登场，让小李子rap、高启强普法