黄色片网站免费观看-黄色片网站观看-黄色片网站大全-黄色片视频网-色偷偷网址-色偷偷网站

今日頭條升級(jí)靈犬反低俗助手,新增圖片識(shí)別功能

  • 來(lái)源:互聯(lián)網(wǎng)
  • |
  • 2019-07-31
  • |
  • 0 條評(píng)論
  • |
  • |
  • T小字 T大字

  7月30日,今日頭條宣布正式推出新版靈犬反低俗助手(以下簡(jiǎn)稱(chēng)“靈犬”),同時(shí)支持圖片和文本識(shí)別。這是時(shí)隔半年后,“靈犬”的又一次重要升級(jí)。

今日頭條升級(jí)靈犬反低俗助手,新增圖片識(shí)別功能

  “靈犬”脫胎于今日頭條反低俗模型,是一款檢測(cè)內(nèi)容健康度的輔助小工具,致力于打擊低俗低質(zhì)內(nèi)容,凈化網(wǎng)絡(luò)空間。用戶(hù)目前可以在今日頭條內(nèi),搜索“靈犬”進(jìn)行試用。

  當(dāng)天下午,一場(chǎng)名為“算法如何反低俗”的溝通會(huì)在字節(jié)跳動(dòng)總部舉辦。字節(jié)跳動(dòng)人工智能實(shí)驗(yàn)室總監(jiān)王長(zhǎng)虎現(xiàn)場(chǎng)介紹了“靈犬”背后的技術(shù)原理。

  據(jù)了解,在文本識(shí)別領(lǐng)域,新版“靈犬”同時(shí)應(yīng)用了“Bert”和半監(jiān)督技術(shù),訓(xùn)練數(shù)據(jù)集包含920萬(wàn)個(gè)樣本,準(zhǔn)確率提升至91%。在圖片識(shí)別領(lǐng)域,“靈犬”采用深度學(xué)習(xí)作為解決方案,在數(shù)據(jù)、模型、計(jì)算力等方面均做了針對(duì)性?xún)?yōu)化。

  “靈犬”使用人次超過(guò)300萬(wàn)

  信息大爆炸時(shí)代,打擊低俗低質(zhì)內(nèi)容,是當(dāng)前全球信息平臺(tái)都面臨的難題,不管是國(guó)外的Facebook、Google,還是國(guó)內(nèi)的微信、今日頭條,都在尋求解決方案。

  反低俗無(wú)法單一地依靠技術(shù)或人工解決。王長(zhǎng)虎表示,低俗的定義相對(duì)籠統(tǒng),很難完全精確地定義出來(lái),這項(xiàng)工作即使對(duì)人來(lái)說(shuō)也不容易,交給機(jī)器做更難實(shí)現(xiàn),而在當(dāng)前內(nèi)容創(chuàng)作和消費(fèi)海量增長(zhǎng)的趨勢(shì)下,純靠人工解決,效率低,無(wú)法有效滿足用戶(hù)需求。

今日頭條升級(jí)靈犬反低俗助手,新增圖片識(shí)別功能

圖注:字節(jié)跳動(dòng)人工智能實(shí)驗(yàn)室總監(jiān)王長(zhǎng)虎分享“靈犬”背后的技術(shù)原理

  今日頭條是國(guó)內(nèi)反低俗的先行者,而“靈犬”是今日頭條反低俗系統(tǒng)的一個(gè)簡(jiǎn)化版本。據(jù)了解,2012年以來(lái),今日頭條內(nèi)部搭建了反色情、反低俗、反標(biāo)題黨、反虛假信息、反低質(zhì)等數(shù)百個(gè)模型,并投入近萬(wàn)人專(zhuān)業(yè)審核團(tuán)隊(duì)。“作為行業(yè)領(lǐng)先者,在內(nèi)容安全上,今日頭條一直用最高的標(biāo)準(zhǔn)要求自己,”王長(zhǎng)虎說(shuō),“靈犬是一個(gè)開(kāi)放的反低俗窗口,我們希望通過(guò)靈犬,接收社會(huì)各界對(duì)反低俗的意見(jiàn)和建議。”

  新版“靈犬”重點(diǎn)拓展了反低俗識(shí)別類(lèi)型和模型能力,現(xiàn)已覆蓋圖片識(shí)別(反色情低俗、反血腥暴力)和文本識(shí)別(反色情低俗、反暴力謾罵、反標(biāo)題黨)。后續(xù)還將支持語(yǔ)音識(shí)別和視頻識(shí)別。

  此前一年時(shí)間內(nèi),“靈犬”已陸續(xù)完成兩次迭代。2018年3月28日,今日頭條首次上線“靈犬”,支持檢測(cè)文字和文章鏈接。2018年5月16日,“靈犬”完成服務(wù)能力升級(jí),增加反色情短文本模型和反謾罵模型,將準(zhǔn)確率從73%提升至82%。2019年2月20日,“靈犬2.0”正式上線,除了反色情低俗模型,加入反暴力謾罵和反標(biāo)題黨模型,覆蓋了主要的低俗低質(zhì)內(nèi)容類(lèi)型,整體識(shí)別準(zhǔn)確率接近85%。截至2019年6月,靈犬反低俗助手的使用人次已經(jīng)超過(guò)了300萬(wàn)。

  用戶(hù)只需要在“靈犬”內(nèi)輸入一段文字或文章鏈接,“靈犬”就可以幫助其檢測(cè)內(nèi)容健康指數(shù),返回一個(gè)鑒定結(jié)果。對(duì)于用戶(hù)輸入的內(nèi)容,“靈犬”會(huì)先進(jìn)行提取、分詞和語(yǔ)義識(shí)別,然后根據(jù)相關(guān)規(guī)則, 輸出對(duì)應(yīng)的分?jǐn)?shù)、評(píng)級(jí)和結(jié)論。這一切都在短短幾秒內(nèi)完成。圖片和圖片鏈接檢測(cè)同理,用戶(hù)在“靈犬”內(nèi)上傳圖片或圖片鏈接,即可快速獲取鑒定結(jié)果。

  “靈犬”背后的技術(shù)迭代

  據(jù)王長(zhǎng)虎介紹,“靈犬”背后的文本分類(lèi)模型,已經(jīng)經(jīng)過(guò)了三次迭代。每個(gè)新版本相對(duì)于舊版本,在技術(shù)和數(shù)據(jù)集層面,都有一個(gè)明顯的躍升。

  第一代“靈犬”,應(yīng)用的是“詞向量”和“CNN(卷積神經(jīng)網(wǎng)絡(luò))”技術(shù),訓(xùn)練數(shù)據(jù)集包含350萬(wàn)數(shù)據(jù)樣本,對(duì)隨機(jī)樣本的預(yù)測(cè)準(zhǔn)確率達(dá)到79%。第二代“靈犬”,應(yīng)用的是“LSTM(長(zhǎng)短期記憶)”和“Attention”技術(shù),訓(xùn)練數(shù)據(jù)集包含840萬(wàn)數(shù)據(jù)樣本,準(zhǔn)確率提升至85%。

  新版“靈犬”同時(shí)應(yīng)用了“Bert”和半監(jiān)督技術(shù),并且在此基礎(chǔ)上使用了專(zhuān)門(mén)的中文語(yǔ)料,在不犧牲效果的情況調(diào)整了模型結(jié)構(gòu),使得計(jì)算效率能達(dá)到實(shí)用水平。“Bert”是當(dāng)前最先進(jìn)的自然語(yǔ)言處理技術(shù),是該領(lǐng)域近年來(lái)重大進(jìn)展的集大成者。這項(xiàng)技術(shù)在常見(jiàn)的閱讀理解、語(yǔ)義蘊(yùn)含、問(wèn)答、相關(guān)性等各項(xiàng)任務(wù)上,大幅提高了性能。

  這一代“靈犬”訓(xùn)練數(shù)據(jù)集總量是1.2個(gè)T,相當(dāng)于20倍百度百科或100倍維基百科的數(shù)據(jù)總量,包含920萬(wàn)個(gè)樣本,準(zhǔn)確率提升至91%。

  不同于文本識(shí)別,圖片識(shí)別的技術(shù)難點(diǎn)主要在于三方面:非均衡、類(lèi)內(nèi)方差大和不可窮舉,即,低俗圖片占整體圖片內(nèi)容的比例較低,低俗圖片的種類(lèi)豐富、繁雜,構(gòu)成低俗圖片的特征千差萬(wàn)別。

  對(duì)此,“靈犬”運(yùn)用的解決方案,是深度學(xué)習(xí)。“我們分別在數(shù)據(jù)、模型、計(jì)算力等方面做了很多優(yōu)化。”王長(zhǎng)虎說(shuō)。數(shù)據(jù)層面,“靈犬”已累積上千萬(wàn)級(jí)別的訓(xùn)練數(shù)據(jù)。模型層面,“靈犬”針對(duì)許多困難樣本做了模型結(jié)構(gòu)調(diào)優(yōu),嘗試解決多尺寸、多尺度、小目標(biāo)等復(fù)雜問(wèn)題。計(jì)算力層面,“靈犬”利用分布式訓(xùn)練算法以及GPU訓(xùn)練集群,加速模型的訓(xùn)練和調(diào)試。

  一些技術(shù)難以搞定的問(wèn)題,現(xiàn)階段還有賴(lài)于人工判斷。比如技術(shù)暫時(shí)難以制定標(biāo)準(zhǔn)的案例:世界名畫(huà)中常常出現(xiàn)裸體女子,如果完全交由機(jī)器判斷,機(jī)器通過(guò)識(shí)別畫(huà)中人物的皮膚裸露面積,就會(huì)認(rèn)為這幅畫(huà)是色情低俗的;而某些拍攝芭蕾舞的圖片,以機(jī)器的視角來(lái)看,其實(shí)類(lèi)似于裙底偷拍。

  此外是因?yàn)槭褂脠?chǎng)景、人群不同而導(dǎo)致標(biāo)準(zhǔn)變動(dòng)的案例:內(nèi)衣和內(nèi)衣模特出現(xiàn)在購(gòu)物平臺(tái)上,會(huì)被默認(rèn)為正常,但如果頻繁出現(xiàn)在新聞資訊平臺(tái)上,就可能被認(rèn)為有低俗嫌疑;正常的熱舞內(nèi)容,提供給成年人看,符合常規(guī)標(biāo)準(zhǔn),但如果開(kāi)啟了青少年模式,這些內(nèi)容就不應(yīng)該出現(xiàn)。

  王長(zhǎng)虎說(shuō),針對(duì)低俗判斷問(wèn)題的復(fù)雜性和不同判斷方式的局限性,一方面需要不斷進(jìn)化技術(shù)模型,一方面需要有效結(jié)合技術(shù)和人工判斷兩種方式。

  當(dāng)前,“靈犬”建設(shè)了比較完善的模型迭代系統(tǒng)。通過(guò)“數(shù)據(jù)收集

免責(zé)聲明:本站所有信息均搜集自互聯(lián)網(wǎng),并不代表本站觀點(diǎn),本站不對(duì)其真實(shí)合法性負(fù)責(zé)。如有信息侵犯了您的權(quán)益,請(qǐng)告知,本站將立刻處理。聯(lián)系QQ:1640731186
友薦云推薦
網(wǎng)站推薦更多>>