知名財團發(fā)布AI自然語(yǔ)言處理基準

2020-03-06 17:14:10    來(lái)源:    作者:

一個(gè)由AI的一些最偉大的頭腦組成的研究聯(lián)盟正在發(fā)布一個(gè)基準來(lái)衡量自然語(yǔ)言處理(NLP)的能力。

該財團包括Google DeepMind,Facebook AI,紐約大學(xué)和華盛頓大學(xué)。該聯(lián)盟的每個(gè)成員都認為,NLP需要比當前解決方案更全面的基準。

結果就是一個(gè)稱(chēng)為SuperGLUE的基準測試平臺,該平臺用一個(gè)“更難的基準和全面的人為基準”取代了一個(gè)名為GLUE的舊平臺。

SuperGLUE有助于將NLP功能進(jìn)行測試,而以前的基準測試開(kāi)始對最新系統而言太簡(jiǎn)單了。

知名財團發(fā)布AI自然語(yǔ)言處理基準

“在發(fā)布的一年之內,一些NLP模型已經(jīng)超過(guò)了GLUE基準上的人類(lèi)基準性能。目前的模型已經(jīng)提出了令人驚訝的有效方法,該方法將對大型文本數據集的語(yǔ)言模型預訓練與簡(jiǎn)單的多任務(wù)和轉移學(xué)習技術(shù)相結合。

2018年,谷歌發(fā)布了BERT(《變形金剛》的雙向編碼器表示),Facebook將其稱(chēng)為NLP的最大突破之一。Facebook接受了Google的開(kāi)源工作,并確定了提高其有效性的更改,從而產(chǎn)生了RoBERTa(嚴格優(yōu)化的BERT預培訓方法)。

知名財團發(fā)布AI自然語(yǔ)言處理基準

正如孩子們所說(shuō),RoBERTa基本上按照常用的基準“粉碎了它”:

“在發(fā)布的一年內,幾種NLP模型(包括RoBERTa)已經(jīng)超過(guò)了GLUE基準上的人類(lèi)基準性能。當前的模型已經(jīng)提出了令人驚訝的有效方法,該方法將對大型文本數據集的語(yǔ)言模型預訓練與簡(jiǎn)單的多任務(wù)和轉移學(xué)習技術(shù)相結合。

知名財團發(fā)布AI自然語(yǔ)言處理基準

對于SuperGLUE基準測試,聯(lián)盟決定滿(mǎn)足四個(gè)條件的任務(wù):

有多種格式。

使用更多細微的問(wèn)題。

使用最先進(jìn)的方法尚待解決。

可以很容易地被人們解決。

新的基準測試包括八項多樣化且具有挑戰性的任務(wù),其中包括“選擇合理的選擇(COPA)”因果推理任務(wù)。前述任務(wù)為系統提供了句子的前提,并且它必須從兩個(gè)可能的選擇中確定前提的原因或結果。人類(lèi)已經(jīng)成功地在COPA上實(shí)現了100%的準確性,而B(niǎo)ERT則只有74%。

鄭重聲明:本文版權歸原作者所有,轉載文章僅為傳播更多信息之目的,如作者信息標記有誤,請第一時(shí)間聯(lián)系我們修改或刪除,多謝。