国产精品久久久久久久久久久久午衣片 ,国产乱子伦视频在线观看

當(dāng)前位置：主頁 > 聚焦 > 正文

OpenAI阻止網(wǎng)絡(luò)爬蟲抓取數(shù)據(jù)，避免數(shù)據(jù)被用于訓(xùn)練AI模型

來源：驅(qū)動中國作者：洞察網(wǎng)2023-08-08 18:09:28

【資料圖】

驅(qū)動中國2023年8月8日消息，據(jù)悉，OpenAI 旗下 GPT 模型的訓(xùn)練需要大量的網(wǎng)絡(luò)數(shù)據(jù)，這可能涉及到數(shù)據(jù)隱私和版權(quán)等問題。為了解決這些問題，OpenAI 最近推出了一個新功能，讓網(wǎng)站可以阻止其網(wǎng)絡(luò)爬蟲（web crawler）從其網(wǎng)站上抓取數(shù)據(jù)訓(xùn)練 GPT 模型。

網(wǎng)絡(luò)爬蟲是一種自動化的程序，可以在互聯(lián)網(wǎng)上搜索和獲取信息。OpenAI 的網(wǎng)絡(luò)爬蟲名為 GPTBot，其會以一定的頻率訪問各種網(wǎng)站，并將網(wǎng)頁內(nèi)容保存下來，用于訓(xùn)練 GPT 模型。

OpenAI 在其博客文章中表示，網(wǎng)站運(yùn)營者可以通過在其網(wǎng)站的 Robots.txt 文件中禁止 GPTBot 的訪問，或者通過屏蔽其 IP 地址，來阻止 GPTBot 從其網(wǎng)站上抓取數(shù)據(jù)。OpenAI 還表示，“使用 GPTBot 用戶代理（user agent）抓取的網(wǎng)頁可能會被用于改進(jìn)未來的模型，并且會過濾掉那些需要付費(fèi)訪問、已知收集個人身份信息（PII）、或者有違反我們政策的文本的來源?！睂τ诓环吓懦龢?biāo)準(zhǔn)的來源，“允許 GPTBot 訪問您的網(wǎng)站可以幫助 AI 模型變得更加準(zhǔn)確，并提高它們的通用能力和安全性。”

[責(zé)任編輯：linlin]

標(biāo)簽：