核心概念

在 OpenAI，保护用户数据是我们使命的基石。我们不会使用通过我们 API 传入的输入和输出来训练我们的模型。如需了解更多信息，请访问我们的 API 数据隐私页面.

文本生成模型

OpenAI 的文本生成模型（通常被称为生成式预训练变换器，或简称“GPT”模型），例如 GPT-4 和 GPT-3.5，经过了专门训练，能够理解自然语言和书面语言。像 GPT-4 这样的模型能够根据输入生成文本输出。这些模型的输入也被称为“提示”。设计提示本质上是你“编程”诸如 GPT-4 这类模型的方式，通常通过提供指令或一些如何成功完成任务的示例来实现。像 GPT-4 这样的模型可用于处理多种任务，包括内容或代码生成、摘要、对话、创意写作等。如需了解更多信息，请阅读我们的文本生成指南 and in our 提示词工程指南.

嵌入

嵌入是一段数据(例如某些文本)的向量表示,旨在保留其内容和/或含义的某些方面。在某种程度上相似的数据块,其嵌入往往比无关数据的嵌入更接近。OpenAI 提供文本嵌入模型,它以文本字符串作为输入,并产生一个嵌入向量作为输出。嵌入对于搜索、聚类、推荐、异常检测、分类等很有用。在我们的 embeddings guide.

Token

文本生成和嵌入模型将文本分解为称为 token 的块进行处理。Token 代表了常见字符序列。例如，字符串 ” tokenization” 会被分解为 ” token” 和 “ization”，而像 ” the” 这样简短且常见的单词则会被表示为单个 token。请注意，在一个句子中，每个单词的第一个 token 通常以空格字符开头。查看我们的分词器工具来测试特定的字符串，并查看它们是如何被转换为 token 的。作为一个大致的经验法则，对于英文文本，1 个 token 大约相当于 4 个字符或 0.75 个单词。

需要记住的一个限制是，对于文本生成模型，提示词和生成的输出总和不得超过模型的最大上下文长度。对于嵌入模型（不输出 token），输入必须小于模型的最大上下文长度。各文本生成和嵌入模型的最大上下文长度可在模型索引.

推荐

入门

Apps SDK

工具

运行与扩展

评估

实时与音频

模型优化

专业模型

正式上线

旧版 API

资源

入门指南

使用 Codex

配置

管理

自动化

学习

发布

核心概念

规划

构建

部署

转化应用

指南

资源

指南

文件上传

API

衡量

广告主 API

API 参考

最新

主题

主题

贡献

分类

主题

项目

活动

文本生成模型

嵌入

Token