欲求不満の人妻松下纱荣子,校园春色 卡通动漫,国产成人精品一区二区三区无码 ,精品无码国产av一区二区三区 ,特级bbbbbbbbb视频,久久精品女人天堂av麻,欧美成人精品第一区二区三区 ,人妻少妇精品无码专区动漫

Meta發(fā)布首個(gè)「非參數(shù)化」掩碼語(yǔ)言模型NPM:吊打500倍參數(shù)量的GP

時(shí)間:2022-12-28 13:47:44 來(lái)源:IT之家 閱讀量:17865

Meta發(fā)布了第一個(gè)非參數(shù)掩蔽語(yǔ)言模型NPM:那一年,我把手放在口袋里,不知道什么是詞匯之外。

Meta發(fā)布首個(gè)「非參數(shù)化」掩碼語(yǔ)言模型NPM:吊打500倍參數(shù)量的GP

雖然大規(guī)模語(yǔ)言模型在NLP領(lǐng)域的強(qiáng)大表現(xiàn)令人驚嘆,但也帶來(lái)了嚴(yán)重的負(fù)成本,比如訓(xùn)練太貴,更新困難而且很難處理長(zhǎng)尾知識(shí)

而且語(yǔ)言模型在預(yù)測(cè)層通常采用一個(gè)詞匯量有限的softmax層,基本不會(huì)輸出生僻字或短語(yǔ),大大限制了模型的表達(dá)能力。

為了解決模型的長(zhǎng)尾問(wèn)題,最近來(lái)自華盛頓大學(xué),Meta AI和艾倫人工智能研究所的學(xué)者聯(lián)合提出了首個(gè)非參數(shù)掩蔽語(yǔ)言模型,通過(guò)參考語(yǔ)料庫(kù)中每個(gè)短語(yǔ)的非參數(shù)分布來(lái)替代softmax輸出。

通過(guò)比較目標(biāo)和在批量中搜索完整的語(yǔ)料庫(kù),可以有效地訓(xùn)練NPM。

研究人員對(duì)9個(gè)封閉任務(wù)和7個(gè)開放任務(wù)進(jìn)行了零射評(píng)估,其中包括強(qiáng)調(diào)需要預(yù)測(cè)新事實(shí)或罕見短語(yǔ)的時(shí)空轉(zhuǎn)換和單詞級(jí)翻譯的任務(wù)。

發(fā)現(xiàn)NPM明顯優(yōu)于更大的參數(shù)模型,如參數(shù)量高500倍的GPT—3和參數(shù)量高37倍的OPT 13B,NPM尤其擅長(zhǎng)處理稀有模式和預(yù)測(cè)稀有或幾乎未知的詞。

第一個(gè)非參數(shù)語(yǔ)言模型

雖然結(jié)合一些現(xiàn)有的檢索和生成相關(guān)工作可以緩解這個(gè)問(wèn)題,但是這些模型的最終預(yù)測(cè)部分仍然需要一個(gè)softmax層來(lái)預(yù)測(cè)token,并沒有從根本上解決長(zhǎng)尾問(wèn)題。

NPM由編碼器和參考語(yǔ)料庫(kù)組成編碼器將文本映射到一個(gè)固定大小的向量中,然后NPM從中檢索一個(gè)短語(yǔ)并填充它

可以看出,NPM選擇了在短語(yǔ)上獲得的非參數(shù)分布,而不是使用固定輸出詞匯softmax作為其輸出。

但是訓(xùn)練非參數(shù)模型也會(huì)帶來(lái)兩個(gè)關(guān)鍵問(wèn)題:

1.在訓(xùn)練過(guò)程中搜索完整的語(yǔ)料庫(kù)是非常費(fèi)時(shí)費(fèi)力的。研究人員通過(guò)使用完整語(yǔ)料庫(kù)搜索的批內(nèi)近似來(lái)解決它,

2.沒有解碼器,很難學(xué)會(huì)預(yù)測(cè)任意長(zhǎng)度的短語(yǔ)研究者通過(guò)擴(kuò)展跨度掩蔽和短語(yǔ)水平的比較目標(biāo)來(lái)解決這個(gè)問(wèn)題

總之,NPM完全刪除了輸出詞匯的softmax,通過(guò)預(yù)測(cè)任意數(shù)量的N—gram,實(shí)現(xiàn)了有效的無(wú)界輸出空間。

由此產(chǎn)生的模型可以預(yù)測(cè)極其罕見甚至完全未知的單詞,并且可以有效地支持無(wú)限的詞匯量,這是現(xiàn)有模型所做不到的。

NPM方法

NPM的核心思想是通過(guò)使用編碼器將語(yǔ)料庫(kù)中的所有短語(yǔ)映射到密集的向量空間在推理中,當(dāng)給定一個(gè)帶有的查詢時(shí),編碼器用于從語(yǔ)料庫(kù)中找到最近的短語(yǔ)并填充它

純編碼器模型是一個(gè)非常有競(jìng)爭(zhēng)力的表示模型,但現(xiàn)有的純編碼器模型不能預(yù)測(cè)未知的令牌數(shù),這限制了它們?cè)跊]有微調(diào)的情況下的使用。

NPM通過(guò)檢索一個(gè)短語(yǔ)來(lái)填充任意數(shù)量的令牌來(lái)解決這個(gè)問(wèn)題。

理由

編碼器將參考語(yǔ)料庫(kù)C中的每個(gè)不同短語(yǔ)映射到密集向量空間。

在測(cè)試期間,編碼器將屏蔽的查詢映射到相同的向量空間,并從C中檢索短語(yǔ)來(lái)填充它。

這里,C不必與訓(xùn)練語(yǔ)料庫(kù)相同,并且可以在測(cè)試期間替換或擴(kuò)展,而無(wú)需重新訓(xùn)練編碼器。

在實(shí)踐中,語(yǔ)料庫(kù)中有大量的短語(yǔ),對(duì)所有的短語(yǔ)進(jìn)行索引是非常昂貴的。

例如,如果我們考慮一個(gè)最多有L個(gè)標(biāo)記的短語(yǔ),我們需要索引l×

化簡(jiǎn)為|C|,然后在測(cè)試中,分別在開頭和結(jié)尾用K—近鄰搜索逼近所有短語(yǔ)的非參數(shù)分布。

例如,由四個(gè)BPE令牌組成的短語(yǔ)Thessaloniki由c1和c4的連接來(lái)表示,分別對(duì)應(yīng)于該短語(yǔ)的開頭和結(jié)尾。

然后用同一個(gè)向量空間中的兩個(gè)向量q_start和q_end來(lái)表示一個(gè)查詢,再用每個(gè)向量來(lái)檢索似是而非的短語(yǔ)的開頭和結(jié)尾,然后進(jìn)行聚合。

這樣做的前提是開頭和結(jié)尾有很好的表現(xiàn),即Q起點(diǎn)足夠接近c(diǎn)1,Q終點(diǎn)足夠接近c(diǎn)4,這一點(diǎn)在訓(xùn)練過(guò)程中已經(jīng)得到保證。

火車

NPM在未標(biāo)記的文本數(shù)據(jù)上被訓(xùn)練,以確保編碼器將文本映射到良好的密集向量空間。

在訓(xùn)練NPM時(shí)存在兩個(gè)主要問(wèn)題:1)完整的語(yǔ)料庫(kù)搜索將使訓(xùn)練非常耗時(shí),2)用任意長(zhǎng)度的短語(yǔ)代替標(biāo)記進(jìn)行掩碼。

1.掩模掩蔽

段掩碼是對(duì)長(zhǎng)度從幾何分布中采樣的連續(xù)令牌進(jìn)行掩碼。

研究人員對(duì)此進(jìn)行了擴(kuò)展:

1)如果一些片段同時(shí)出現(xiàn)在該批中的其他序列中,屏蔽它們以確保在訓(xùn)練期間該批中的批內(nèi)陽(yáng)性。

例如,封鎖部分2010年,西雅圖海鷹隊(duì)和所有出現(xiàn)在另一個(gè)序列。

但是對(duì)于bigram游戲來(lái)說(shuō),它是不能一起面具的雖然它們都出現(xiàn)在兩個(gè)序列中,但它們不會(huì)同時(shí)出現(xiàn)

2)不是用(掩碼)替換一個(gè)段中的每個(gè)記號(hào),而是用兩個(gè)特殊記號(hào)(掩碼)(掩碼)替換整個(gè)段。

比如上面的例子,不管要屏蔽的線段有多長(zhǎng),都用(mask)代替,這樣就可以得到每一段的起始和結(jié)束向量,更便于推理。

2.訓(xùn)練目的

假設(shè)面具片段是西雅圖海鷹,模型應(yīng)該在測(cè)試期間從參考語(yǔ)料庫(kù)的其他序列中檢索短語(yǔ)西雅圖海鷹。

在推理階段,該模型從sum (MASKe)中獲得向量,并使用它們從語(yǔ)料庫(kù)中檢索短語(yǔ)的開頭和結(jié)尾。

因此,訓(xùn)練目標(biāo)應(yīng)該鼓勵(lì)向量更接近西雅圖海鷹隊(duì)中的the ,而遠(yuǎn)離其他token,而不應(yīng)該是任何短語(yǔ)中的the ,例如be the first。

這可以通過(guò)訓(xùn)練模型來(lái)完成,訓(xùn)練是通過(guò)將完整的語(yǔ)料庫(kù)批量地近似到其他序列具體來(lái)說(shuō),訓(xùn)練模型從同一批的其他序列中檢索西雅圖海鷹隊(duì)的起點(diǎn)和終點(diǎn)

值得注意的是,這種屏蔽策略可確保每個(gè)屏蔽跨度在一個(gè)批次中有一個(gè)公共段。

實(shí)驗(yàn)部分

從結(jié)果來(lái)看,NPM在零鏡頭設(shè)置下的性能優(yōu)于其他基線模型。

在參數(shù)模型中,RoBERTa的性能最好,出人意料地超過(guò)了包括GPT—3等在內(nèi)的模型,可能是因?yàn)榧兙幋a器模型的雙向性質(zhì)起著至關(guān)重要的作用,這也表明因果語(yǔ)言模型可能不是一個(gè)合適的分類選擇

KNN—LM方法在參數(shù)模型中加入了非參數(shù)成分,其性能優(yōu)于其他所有基線可是,在GPT—2中單獨(dú)檢索的性能較差,這表明僅在推理中使用kNN是有限的

NPM單和NPM的表現(xiàn)明顯優(yōu)于所有基線,在所有數(shù)據(jù)集上都取得了一致的優(yōu)越表現(xiàn)這表明,即使對(duì)于不明確需要外部知識(shí)的任務(wù),非參數(shù)模型也是非常有競(jìng)爭(zhēng)力的

定性分析使用羅伯塔和NPM在情感分析任務(wù)中的預(yù)測(cè)結(jié)果在第一個(gè)例子中,便宜意味著不貴,在第二個(gè)例子中,便宜意味著質(zhì)量差

羅伯塔對(duì)這兩個(gè)例子的預(yù)測(cè)是肯定的,而NPM通過(guò)搜索廉價(jià)在與輸入相同的上下文中使用的上下文,做出了正確的預(yù)測(cè)。

還可以發(fā)現(xiàn),NPM輸出的表征可以帶來(lái)更好的詞義消歧例如,RoBERTa在廉價(jià)和便宜(質(zhì)量差)之間分配了很高的相似性分?jǐn)?shù)

另一方面,NPM成功地在廉價(jià)和廉價(jià)之間分配了一個(gè)低的相似性分?jǐn)?shù),這也表明非參數(shù)訓(xùn)練和對(duì)比目標(biāo)是有效的,可以更好地改善表征學(xué)習(xí),而未經(jīng)訓(xùn)練的算法如kNN推理根本做不到。

參考資料:



聲明:本網(wǎng)轉(zhuǎn)發(fā)此文章,旨在為讀者提供更多信息資訊,所涉內(nèi)容不構(gòu)成投資、消費(fèi)建議。文章事實(shí)如有疑問(wèn),請(qǐng)與有關(guān)方核實(shí),文章觀點(diǎn)非本網(wǎng)觀點(diǎn),僅供讀者參考。
hhx6 精彩圖片
主站蜘蛛池模板: 国产精品毛片大码女人| 亚洲精品乱码久久久久久v| 俄罗斯胖老妇bbw性生| 一本大道东京热无码| 麻豆精产国品一二三产区区| 欧美另类人妻制服丝袜| 少妇被猛男粗大的猛进出 | 性久久久| 精品久久久无码中字| 一个人免费完整在线观看视频| 亚州少妇无套内射激情视频| 国内精品人妻无码久久久影院 | 国语自产拍在线观看hd| 福利一区二区三区视频在线观看| 午夜一区二区亚洲福利vr| 最近免费中文字幕mv免费高清 | 亚洲日韩av无码一区二区三区| 好男人在线观看免费高清| 亚洲精品自在在线观看| 三级 亚洲 欧美| 大白肥妇bbvbbw高潮| 黑人巨大两根一起挤进交换| jizzjizz亚洲日本少妇| 国产av日韩av亚洲av| 免费av网站| 欧美亚洲一区二区三区| 国产成人无码免费视频在线| 国自产拍偷拍精品啪啪一区二区 | 狠狠人妻久久久久久综合九色| 黄色a级国产免费大片| 100000部未成禁止视频 视频| 三年片免费大全国语| 暖暖国语高清免费观看| 亚洲精品国产综合久久久久紧| 少妇高潮抽搐在线视频| 玩弄少妇高潮ⅹxxxyw| 婷婷色国产精品视频一区| 亚洲av永久中文无码精品综合| 撕开奶罩揉吮奶头视频| 久久黄色网站| 亚洲熟妇少妇任你躁在线观看|