一個(gè)由AI的一些最偉大的頭腦組成的研究聯(lián)盟正在發(fā)布一個(gè)基準來(lái)衡量自然語(yǔ)言處理(NLP)的能力。
該財團包括Google DeepMind,Facebook AI,紐約大學(xué)和華盛頓大學(xué)。該聯(lián)盟的每個(gè)成員都認為,NLP需要比當前解決方案更全面的基準。
結果就是一個(gè)稱(chēng)為SuperGLUE的基準測試平臺,該平臺用一個(gè)“更難的基準和全面的人為基準”取代了一個(gè)名為GLUE的舊平臺。
SuperGLUE有助于將NLP功能進(jìn)行測試,而以前的基準測試開(kāi)始對最新系統而言太簡(jiǎn)單了。

“在發(fā)布的一年之內,一些NLP模型已經(jīng)超過(guò)了GLUE基準上的人類(lèi)基準性能。目前的模型已經(jīng)提出了令人驚訝的有效方法,該方法將對大型文本數據集的語(yǔ)言模型預訓練與簡(jiǎn)單的多任務(wù)和轉移學(xué)習技術(shù)相結合。
2018年,谷歌發(fā)布了BERT(《變形金剛》的雙向編碼器表示),Facebook將其稱(chēng)為NLP的最大突破之一。Facebook接受了Google的開(kāi)源工作,并確定了提高其有效性的更改,從而產(chǎn)生了RoBERTa(嚴格優(yōu)化的BERT預培訓方法)。

正如孩子們所說(shuō),RoBERTa基本上按照常用的基準“粉碎了它”:
“在發(fā)布的一年內,幾種NLP模型(包括RoBERTa)已經(jīng)超過(guò)了GLUE基準上的人類(lèi)基準性能。當前的模型已經(jīng)提出了令人驚訝的有效方法,該方法將對大型文本數據集的語(yǔ)言模型預訓練與簡(jiǎn)單的多任務(wù)和轉移學(xué)習技術(shù)相結合。

對于SuperGLUE基準測試,聯(lián)盟決定滿(mǎn)足四個(gè)條件的任務(wù):
有多種格式。
使用更多細微的問(wèn)題。
使用最先進(jìn)的方法尚待解決。
可以很容易地被人們解決。
新的基準測試包括八項多樣化且具有挑戰性的任務(wù),其中包括“選擇合理的選擇(COPA)”因果推理任務(wù)。前述任務(wù)為系統提供了句子的前提,并且它必須從兩個(gè)可能的選擇中確定前提的原因或結果。人類(lèi)已經(jīng)成功地在COPA上實(shí)現了100%的準確性,而B(niǎo)ERT則只有74%。
