譯文|預訓練語言模型的“運氣”提示:一種無參數無梯度構建高效prompt的方法
文章概覽
論文标題:Exploring Lottery Prompts for Pre-trained Language Model
論文鍊接:
本周與大家分享一篇發表在ACL 2023上讨論如何構建高效prompt的論文《Exploring Lottery Prompts for Pre-trained Language Models》。随着預訓練語言模型(PLM)的不斷發展,其參數量和微調成本也不斷提高,需要更有效的替代方案來替代傳統的微調,該論文受零樣本設置中提示微調的優勢以及觀察到的不同提示之間的性能波動啟發,通過搜索提示空間,發現對于每個實例均可搜索到能夠正确引導預訓練語言模型的“運氣”提示,并可以使用提示組裝方法将搜索到的強“運氣”提示無參數地推廣到其他任務。該論文對各種類型的NLP分類任務進行了實驗,并證明了這一方法可以與其他無梯度和無優化基線獲得相當的結果。
論文細節
1. 引言
随着最近幾年模型不斷擴展,預訓練-微調範式逐漸變得過于昂貴而無法優化,提示微調(prompt tuning)方法應運而生,通過對在輸入數據端或模型各層前添加特殊模闆,提示微調可以在零樣本和少樣本設置下實現非凡的性能。提示微調的效果很好,但它往往伴随着強烈的不穩定性,并且對上下文強相關,于是作者提出了這樣一個問題:是否可以在無優化的情況下找到至少一個提示實例,在分類任務中為每個數據都能誘導出正确的輸出?作者在多達66個類的13個分類數據集上構建具有合理搜索空間的自動搜索程序後,驗證了這種“運氣”提示的存在,也就是說,僅幾個離散單詞的組合就可以使預訓練語言模型為幾乎任何分類數據輸出正确的标簽,這一發現刷新了當前對預訓練語言模型中知識上限的探索。
驗證了以上假設後,作者對“運氣”提示的内部機制和屬性進行了進一步分析,以探索“運氣”提示與模型能力的關系,以及“運氣”提示如何在無優化的情況下泛化其他數據集上。作者在實驗中發現,對于大多數數據集,“運氣”提示的搜索成本較低,并且可以反映任務難度和模型容量。對于大型預訓練語言模型,更多步驟進行預訓練的語言模型,搜索成功率更高,搜索成本也更低,這表明“運氣”提示是模型容量擴展的獨特結果,而不僅僅是運氣。另一方面,在這些“運氣”提示中,還有許多“強提示”在整個訓練集上都表現得相當出色,并且可以在其中識别出可解釋的語言特征。強提示顯示出相當大的潛力,可以推廣到當前任務的測試數據集,作者因此提出了一種基于互信息的提示集合方法,并表明強提示可以以無優化的方式有效地推廣到測試數據集,其完整架構如圖1所示。
圖1“運氣”提示的搜索與應用
大量的實驗表明,在沒有任何參數更新的情況下,強提示的組合可以實現與許多基線相當或更好的性能。
總的來說,作者驗證了“完美”的提示實例的存在,并對“運氣”提示的屬性進行了深入分析,通過直接組合強提示,可以在測試數據上實現突出的性能,并且無需任何優化。
2.方法
2.1 搜索提示空間
在提示搜索空間方面,作者将200個英語中出現頻率最高的單詞收集起來,并根據帶有NLTK包的詞性标簽分為名詞、動詞、介詞、形容詞和副詞,形成[名詞] [動詞] [形容詞|副詞|介詞]的格式。設計的提示搜索空間是三個詞集的笛卡爾積:
T = NOUNS × VERBS × (PREP ∪ ADJ ∪ ADV) × {}
其中|T | = 76725,這種設計的主要關注點是限制提示空間,适應單詞的常見句法順序,以在一定程度上保證提示的語法合理性,适配到各下遊任務上的情況如表1所示。
表1 用于每個數據集的提示格式和标簽詞
2.2 提示搜索過程
對于每個數據集,作者從訓練集中随機抽取 1000 個實例作為訓練集
,并将每個提示應用于每個實例,并使用模型M生成預測。将其應用于實例x:“A fun movie.”則整個輸入數據T(x)為:“A fun movie. it was really ”。對于每個T(x)可以得到得分:
其中V表示模型預測得到的logits,更進一步,為了減少提示的影響,作者在做出最終預測之前重新調整分數:
其中T(·)為包裝好的輸入數據,q是模型在标簽上的一緻性輸出結果,p是在标簽上的最終預測結果。
在搜索了所有實例的“運氣”提示後,在整個訓練集上表現良好的提示即為強提示,不同的數據集的強提示體現出不同的語義特征,例如主題分類任務的強提示經常會出現“其他”和“此類”等詞,而在自然語言推理任務中,雖然語言蘊涵與否是主觀的,但為了表達對蘊涵的看法,強提示經常是類似“我認為這意味着”、“你認為”這樣的模闆。
3實驗
作者在少樣本設置下進行了多組實驗,并與多個基線在多方面進行了對比:
圖2使用 RoBERTa-large 在少樣本設置下的數據集上的性能
此外,作者還橫向對比了該方法在各個數據集上的表現:
圖3 結果不同數據集上提示性能的變化
圖4 SST-2上每個位置的強提示的常用詞
供稿丨蔡珂
編輯丨廖心瑤
我來說兩句