【資料圖】
驅(qū)動中國2023年8月8日消息,據(jù)悉,OpenAI 旗下 GPT 模型的訓練需要大量的網(wǎng)絡數(shù)據(jù),這可能涉及到數(shù)據(jù)隱私和版權等問題。為了解決這些問題,OpenAI 最近推出了一個新功能,讓網(wǎng)站可以阻止其網(wǎng)絡爬蟲(web crawler)從其網(wǎng)站上抓取數(shù)據(jù)訓練 GPT 模型。
網(wǎng)絡爬蟲是一種自動化的程序,可以在互聯(lián)網(wǎng)上搜索和獲取信息。OpenAI 的網(wǎng)絡爬蟲名為 GPTBot,其會以一定的頻率訪問各種網(wǎng)站,并將網(wǎng)頁內(nèi)容保存下來,用于訓練 GPT 模型。
OpenAI 在其博客文章中表示,網(wǎng)站運營者可以通過在其網(wǎng)站的 Robots.txt 文件中禁止 GPTBot 的訪問,或者通過屏蔽其 IP 地址,來阻止 GPTBot 從其網(wǎng)站上抓取數(shù)據(jù)。OpenAI 還表示,“使用 GPTBot 用戶代理(user agent)抓取的網(wǎng)頁可能會被用于改進未來的模型,并且會過濾掉那些需要付費訪問、已知收集個人身份信息(PII)、或者有違反我們政策的文本的來源。”對于不符合排除標準的來源,“允許 GPTBot 訪問您的網(wǎng)站可以幫助 AI 模型變得更加準確,并提高它們的通用能力和安全性?!?/p>
[責任編輯:linlin]
標簽:
OpenAI阻止網(wǎng)絡爬蟲抓取數(shù)據(jù),避免數(shù)據(jù)被用于訓練AI模型
國家防總辦公室 應急管理部:做好遼寧沿海地區(qū)船只回港和人員上
夢百合傳奇7號0壓厚墊,專為運動愛好者打造深度睡眠
吉康油田 兩口井喜獲高產(chǎn)工業(yè)油流陵探 1 井 破直井壓裂深度
我和志愿者們的“雙向奔赴”
國際金價不排除重新跌破1900美元
玉龍雪山門票多少錢怎么買(玉龍雪山門票多少)
斬獲超額收益!半導體下一波行情由誰點燃?AI算力VS智能駕駛
民生證券:給予明月鏡片買入評級
光大銀行信用卡中心申請進度查詢不到,光大銀行信用卡中心申請進
fof基金什么意思?
星源卓鎂:8月7日融券賣出1.69萬股,融資融券余額1.21億元