English
主导航

旧版 API

核心概念

使用 OpenAI API 时需要理解的核心概念。

在 OpenAI,保护用户数据是我们使命的基石。我们不会使用通过我们 API 传入的输入和输出来训练我们的模型。如需了解更多信息,请访问我们的 API 数据隐私页面.

文本生成模型

OpenAI 的文本生成模型(通常被称为生成式预训练变换器,或简称“GPT”模型),例如 GPT-4 和 GPT-3.5,经过了专门训练,能够理解自然语言和书面语言。像 GPT-4 这样的模型能够根据输入生成文本输出。这些模型的输入也被称为“提示”。设计提示本质上是你“编程”诸如 GPT-4 这类模型的方式,通常通过提供指令或一些如何成功完成任务的示例来实现。像 GPT-4 这样的模型可用于处理多种任务,包括内容或代码生成、摘要、对话、创意写作等。如需了解更多信息,请阅读我们的 文本生成指南 and in our 提示词工程指南.

嵌入

嵌入是一段数据(例如某些文本)的向量表示,旨在保留其内容和/或含义的某些方面。在某种程度上相似的数据块,其嵌入往往比无关数据的嵌入更接近。OpenAI 提供文本嵌入模型,它以文本字符串作为输入,并产生一个嵌入向量作为输出。嵌入对于搜索、聚类、推荐、异常检测、分类等很有用。在我们的 embeddings guide.

Token

文本生成和嵌入模型将文本分解为称为 token 的块进行处理。Token 代表了常见字符序列。例如,字符串 ” tokenization” 会被分解为 ” token” 和 “ization”,而像 ” the” 这样简短且常见的单词则会被表示为单个 token。请注意,在一个句子中,每个单词的第一个 token 通常以空格字符开头。查看我们的 分词器工具 来测试特定的字符串,并查看它们是如何被转换为 token 的。作为一个大致的经验法则,对于英文文本,1 个 token 大约相当于 4 个字符或 0.75 个单词。

需要记住的一个限制是,对于文本生成模型,提示词和生成的输出总和不得超过模型的最大上下文长度。对于嵌入模型(不输出 token),输入必须小于模型的最大上下文长度。各文本生成和嵌入模型的最大上下文长度可在 模型索引.