OpenAI 使用网络爬虫(“机器人”)和用户代理来执行其产品的操作,这些操作可以是自动执行的,也可以由用户请求触发。OpenAI 使用 OAI-SearchBot 和 GPTBot robots.txt 标签,使网站管理员能够管理其站点和内容与 AI 的交互方式。每项设置相互独立——例如,网站管理员可以允许 OAI-SearchBot 以便出现在搜索结果中,同时禁止 GPTBot,以表明抓取的内容不应被用于训练 OpenAI 的生成式 AI 基础模型。如果您的网站同时允许了这两个机器人,我们可能会将一次抓取的结果同时用于这两种场景,以避免重复抓取。关于搜索结果,请注意,从网站的 robots.txt 更新到我们的系统调整生效,大约需要 24 小时。
| 用户代理 | 描述与详情 |
|---|---|
| OAI-SearchBot | OAI-SearchBot 用于搜索。OAI-SearchBot 用于在 ChatGPT 的搜索功能中将网站显示在搜索结果中。选择退出 OAI-SearchBot 的网站将不会显示在 ChatGPT 的搜索回答中,但仍然可以作为导航链接出现。为确保您的网站出现在搜索结果中,我们建议在您网站的 robots.txt 文件中允许 OAI-SearchBot,并允许来自我们下方已发布 IP 范围的请求。 完整用户代理字符串: Mozilla/5.0 (Macintosh; Intel Mac OS X 10_15_7) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/131.0.0.0 Safari/537.36; compatible; OAI-SearchBot/1.3; +https://openai.com/searchbot 已发布 IP 地址: https://openai.com/searchbot.json |
| OAI-AdsBot | OAI-AdsBot 用于验证作为广告提交到 ChatGPT 的网页的安全性。当您提交广告时,OpenAI 可能会访问落地页以确保其符合我们的政策。我们还可能使用落地页上的内容来确定何时向用户展示该广告最相关。OAI-AdsBot 仅访问作为广告提交的页面,并且 OAI-AdsBot 收集的数据不会被用于训练生成式 AI 基础模型。 完整用户代理字符串: Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko); compatible; OAI-AdsBot/1.0; +https://openai.com/adsbot |
| GPTBot | GPTBot 用于提升我们生成式 AI 基础模型的实用性和安全性。它用于抓取可能被用于训练我们生成式 AI 基础模型的内容。禁止 GPTBot 表明网站的内容不应被用于训练生成式 AI 基础模型。 完整用户代理字符串: Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko); compatible; GPTBot/1.3; +https://openai.com/gptbot 已发布 IP 地址: https://openai.com/gptbot.json |
| ChatGPT-User | OpenAI 还将 ChatGPT-User 用于 ChatGPT 中的某些用户操作以及 自定义 GPT。当用户向 ChatGPT 或 CustomGPT 提问时,它可能会使用 ChatGPT-User 代理访问网页。ChatGPT 用户还可以通过以下方式与外部应用进行交互: GPT Actions。ChatGPT-User 并非用于以自动化方式抓取网络。由于这些操作是由用户发起的,robots.txt 规则可能不适用。ChatGPT-User 不会被用于判断内容是否可以出现在搜索结果中。请使用 robots.txt 中的 OAI-SearchBot 来管理搜索退订和自动抓取。 完整用户代理字符串: Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko); compatible; ChatGPT-User/1.0; +https://openai.com/bot 已发布 IP 地址: https://openai.com/chatgpt-user.json |