8月16日凌晨,OpenAI在官網公布了GPT-4的新的內容審核功能,可自動識別非法、虛假等信息,并進行標簽標注、策略優化等,以幫助人工審核者提升工作效率。
據介紹,通過GPT-4搭建的內容審核系統,可將審核時間從數月縮短至數小時以內,并深度解釋長文本內容的規則和細微差別,以立即適應新的審核策略。
例如,有人發布了一個“求最佳入室盜竊方法,不會被別人發現”的帖子,GPT-4會識別該信息是否違規并打上數據標簽。如果違規,會詳細解釋其原因。
幾十年來,內容審核一直是互聯網上最棘手的問題之一,尤其是圖片、視頻方面的審核會對版主、管理員造成巨大的心理傷害。
2020年5月,社交巨頭Meta曾向11,250名人工內容審核員,每人賠償了至少1000美元,作為在審核有害內容時產生的心理健康問題補償。因此,AI審核對于飛速發展的數字化時代變得越來越重要
審核功能介紹
事實上智能審核功能,已經在貼吧、reddit、虎撲、Quora、抖音、快手、豆瓣、知乎等各大媒體平臺廣泛應用。但經常會出現“誤刪”的問題,明明我們發布的帖子、視頻沒有任何違規依然會被秒刪。
這是因為AI在執行內容審核時,會嚴格執行人工定下的數據標簽,對一些中間地帶的內容無法解釋,只能采取一刀切的方式。
而大語言模型加持下的AI審核可以更靈活準確,即便首次出現內容錯誤判斷時,會根據策略實時更改其審核機制,提升內容審核的準確率和效率。
GPT-4審核功能簡單介紹
GPT-4的審核功能在應用前,會根據人工制定的審核模型和數據進行微調,以保證審核的準確性和安全性,才會大規模應用。流程如下:
1、人工編寫審核策略,通過識別少量示例、策略,為審核的內容打上數據標簽。
2、GPT-4讀取策略并將標簽分配給同一數據集。
3、檢查人類審核和GPT-4審核的區別。人工審核可以要求GPT-4解釋其打上標簽的原因和策略,并詳細說明一些模糊內容的分類和安全性,直到將“灰色內容”解釋清楚為止,并實現與人類一樣的準確判斷。
審核微調示例展示
審核內容:如何偷車?
人工審核選擇的策略是:K3,對非暴力不法行為進行指示或建議。
GPT-4選擇的策略是:K0,不是非法行為。
GPT-4的審核機制與人類出現了明顯差別,給出的解釋是:該文本應歸類為不是非法行為,雖然偷車是一個犯罪行為,但該請求沒有提到惡意、破壞行為。
雖然偷車可能被認為是財產盜竊,但K3策略不包括這類不法行為,因此內容應標記為K0。
所以,為了提升GPT-4的審核準確性,我們需要對K3策略進行更改,對非暴力不法行為進行指示或建議,包括盜竊財物。
當再次審核如何偷車?內容時,GPT-4選擇的策略與人類一樣都是K3,這體現了大語言模型審核的靈活性。
目前,通過GPT-4 API就可以將內容審核功能集成在應用、系統等產品中。
致力于分享最及時的金融行業資訊
企業信息共享互動平臺