视觉微调 | OpenAI API

视觉微调使用图像输入，用于监督微调以提升模型对图像输入的理解能力。本指南将带您了解这类 SFT 的子集，并概述使用图像输入进行微调时的一些重要注意事项。

OpenAI 正在逐步关闭微调平台。新用户已无法访问该平台，但现有用户在未来几个月内仍可创建训练任务。

所有微调模型在进行推理时仍将保持可用，直到其基础模型被弃用。完整时间线为此处.

工作原理	适用场景	适用场景
提供用于监督微调的图像输入，以提升模型对图像输入的理解能力。	图像分类纠正复杂提示词下的指令遵循失败问题	`gpt-4o-2024-08-06`

数据格式

正如您可以发送一个或多个图像输入并基于它们创建模型响应，您可以在 JSONL 训练数据文件中包含这些相同的消息类型。图片可以通过 HTTP URL 或包含 Base64 编码图片的 data URL 提供。

以下是 JSONL 文件中某行图像消息的示例。下面展开显示了该 JSON 对象以便于阅读，但在实际的数据文件中，此 JSON 通常显示为单行：

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
{
  "messages": [
    {
      "role": "system",
      "content": "You are an assistant that identifies and describes artworks."
    },
    {
      "role": "user",
      "content": "Describe this artwork."
    },
    {
      "role": "user",
      "content": [
        {
          "type": "image_url",
          "image_url": {
            "url": "https://api.nga.gov/iiif/a2e6da57-3cd1-4235-b20e-95dcaefed6c8/full/!800,800/0/default.jpg"
          }
        }
      ]
    },
    {
      "role": "assistant",
      "content": "This appears to be a traditional painted artwork with a central human subject."
    }
  ]
}

上传视觉微调的训练数据遵循此处描述的相同流程.

图像数据要求

尺寸

您的训练文件最多可包含 50,000 个含有图像的示例（不包含纯文本示例）。
每个示例最多可包含 10 张图像。
每张图像最大不得超过 10 MB。

格式

图像必须为 JPEG、PNG 或 WEBP 格式。
您的图像必须处于 RGB 或 RGBA 图像模式。
您不能将图像作为包含以下内容的消息的输出： assistant role.

内容审核政策

我们会在训练前扫描您的图像，以确保其符合我们的使用政策。这可能会导致微调开始前的文件验证出现延迟。

包含以下内容的图像将从您的数据集中被排除，且不会用于训练：

人物
人脸
儿童
验证码

如果你的图片被跳过该怎么办

你的图片可能会因为以下原因在训练期间被跳过：

包含验证码, 包含人物, 包含人脸, 包含儿童
- 请移除该图片。目前，我们无法使用包含这些实体的图片来微调模型。
无法访问的 URL
- 请确保你的图片 URL 是可公开访问的。
图片过大
- 请确保你的图片符合我们的数据集大小限制.
无效的图片格式
- 请确保你的图片符合我们的数据集格式.

最佳实践

降低训练成本

如果你将一张图片的 detail 参数设置为 low，图片将被缩放至 512x512 像素，并且无论其原始尺寸多大，都仅表示为 85 个 token。这将降低训练成本。点击此处了解更多信息。

1
2
3
4
5
6
7
{
  "type": "image_url",
  "image_url": {
    "url": "https://api.nga.gov/iiif/a2e6da57-3cd1-4235-b20e-95dcaefed6c8/full/!800,800/0/default.jpg",
    "detail": "low"
  }
}

控制图片质量

若要控制图像理解的精确度，请为每张图片设置 detail 的 image_url to low, high, or auto 参数。这也会影响模型在训练期间每张图片看到的 token 数量，并会影响训练成本。点击此处了解更多信息.

安全检查

在生产环境中发布之前，请审查并遵循以下安全信息。

我们如何评估安全性

微调作业完成后，我们会在 13 个不同的安全类别中评估结果模型的行为。每个类别都代表一个关键领域，如果控制不当，AI 输出可能会在该领域造成潜在危害。

名称	描述
建议	违反我们政策的建议或指导。
harassment/threatening	包含针对任何目标的暴力或严重伤害的骚扰内容。
仇恨	基于种族、性别、民族、宗教、国籍、性取向、残疾状况或种姓表达、煽动或宣扬仇恨的内容。针对非受保护群体（例如国际象棋玩家）的仇恨内容被视为骚扰。
hate/threatening	基于种族、性别、民族、宗教、国籍、性取向、残疾状况或种姓，包含针对目标群体的暴力或严重伤害的仇恨内容。
高度敏感	违反我们政策的高度敏感数据。
非法	提供有关如何实施非法行为建议或指导的内容。诸如“如何入店行窃”之类的短语将属于此类。
宣传	赞扬或协助违反我们政策的意识形态的内容。
self-harm/instructions	鼓励实施自残行为（例如自杀、割伤和饮食失调）的内容，或提供有关如何实施此类行为的指导或建议的内容。
self-harm/intent	说话者表示其正在参与或打算参与自残行为（例如自杀、割伤和饮食失调）的内容。
敏感	违反我们政策的敏感数据。
sexual/minors	包含未满 18 岁个人的色情内容。
色情	旨在引起性兴奋的内容，例如对性行为的描述，或推销性服务的内容（不包括性教育和性健康）。
暴力	描绘死亡、暴力或人身伤害的内容。

每个类别都有一个预定义的通过阈值；如果某个类别中未通过评估的示例过多，OpenAI 将阻止部署该微调模型。如果您的微调模型未通过安全检查，OpenAI 将在微调任务中发送一条消息，解释哪些类别未达到要求的阈值。您可以在微调任务的审核检查部分查看结果。

如何通过安全检查

后续步骤

现在你已经了解了视觉微调的基础知识，不妨也探索一下这些其他方法。

监督微调

通过为样本输入提供正确输出来微调模型。

直接偏好优化

使用直接偏好优化 (DPO) 微调模型。

强化微调

通过对其输出进行评分来微调推理模型。

推荐

入门

核心概念

Apps SDK

工具

运行与扩展

评估

实时与音频

模型优化

专业模型

正式上线

旧版 API

资源

入门指南

使用 Codex

配置

管理

自动化

学习

发布