譯文｜預訓練語言模型的“運氣”提示：一種無參數無梯度構建高效prompt的方法

天天見聞 2024-10-13 科技閱讀: 27

摘要: 對于大型預訓練語言模型，更多步驟進行預訓練的語言模型，搜索成功率更高，搜索成本也更低，這表明“運氣”提示是模型容量擴展的獨特結果，而不僅僅是運氣。

文章概覽

論文标題：Exploring Lottery Prompts for Pre-trained Language Model

論文鍊接：

本周與大家分享一篇發表在ACL 2023上讨論如何構建高效prompt的論文《Exploring Lottery Prompts for Pre-trained Language Models》。随着預訓練語言模型（PLM）的不斷發展，其參數量和微調成本也不斷提高，需要更有效的替代方案來替代傳統的微調，該論文受零樣本設置中提示微調的優勢以及觀察到的不同提示之間的性能波動啟發，通過搜索提示空間，發現對于每個實例均可搜索到能夠正确引導預訓練語言模型的“運氣”提示，并可以使用提示組裝方法将搜索到的強“運氣”提示無參數地推廣到其他任務。該論文對各種類型的NLP分類任務進行了實驗，并證明了這一方法可以與其他無梯度和無優化基線獲得相當的結果。

論文細節

1. 引言

随着最近幾年模型不斷擴展，預訓練-微調範式逐漸變得過于昂貴而無法優化，提示微調（prompt tuning）方法應運而生，通過對在輸入數據端或模型各層前添加特殊模闆，提示微調可以在零樣本和少樣本設置下實現非凡的性能。提示微調的效果很好，但它往往伴随着強烈的不穩定性，并且對上下文強相關，于是作者提出了這樣一個問題：是否可以在無優化的情況下找到至少一個提示實例，在分類任務中為每個數據都能誘導出正确的輸出？作者在多達66個類的13個分類數據集上構建具有合理搜索空間的自動搜索程序後，驗證了這種“運氣”提示的存在，也就是說，僅幾個離散單詞的組合就可以使預訓練語言模型為幾乎任何分類數據輸出正确的标簽，這一發現刷新了當前對預訓練語言模型中知識上限的探索。

驗證了以上假設後，作者對“運氣”提示的内部機制和屬性進行了進一步分析，以探索“運氣”提示與模型能力的關系，以及“運氣”提示如何在無優化的情況下泛化其他數據集上。作者在實驗中發現，對于大多數數據集，“運氣”提示的搜索成本較低，并且可以反映任務難度和模型容量。對于大型預訓練語言模型，更多步驟進行預訓練的語言模型，搜索成功率更高，搜索成本也更低，這表明“運氣”提示是模型容量擴展的獨特結果，而不僅僅是運氣。另一方面，在這些“運氣”提示中，還有許多“強提示”在整個訓練集上都表現得相當出色，并且可以在其中識别出可解釋的語言特征。強提示顯示出相當大的潛力，可以推廣到當前任務的測試數據集，作者因此提出了一種基于互信息的提示集合方法，并表明強提示可以以無優化的方式有效地推廣到測試數據集，其完整架構如圖1所示。

圖1“運氣”提示的搜索與應用

大量的實驗表明，在沒有任何參數更新的情況下，強提示的組合可以實現與許多基線相當或更好的性能。

總的來說，作者驗證了“完美”的提示實例的存在，并對“運氣”提示的屬性進行了深入分析，通過直接組合強提示，可以在測試數據上實現突出的性能，并且無需任何優化。

2.方法

2.1 搜索提示空間

在提示搜索空間方面，作者将200個英語中出現頻率最高的單詞收集起來，并根據帶有NLTK包的詞性标簽分為名詞、動詞、介詞、形容詞和副詞，形成[名詞] [動詞] [形容詞|副詞|介詞]的格式。設計的提示搜索空間是三個詞集的笛卡爾積：

T = NOUNS × VERBS × (PREP ∪ ADJ ∪ ADV) × {}

其中|T | = 76725，這種設計的主要關注點是限制提示空間，适應單詞的常見句法順序，以在一定程度上保證提示的語法合理性，适配到各下遊任務上的情況如表1所示。

表1 用于每個數據集的提示格式和标簽詞

2.2 提示搜索過程

對于每個數據集，作者從訓練集中随機抽取 1000 個實例作為訓練集

，并将每個提示應用于每個實例，并使用模型M生成預測。将其應用于實例x：“A fun movie.”則整個輸入數據T(x)為：“A fun movie. it was really ”。對于每個T(x)可以得到得分：

其中V表示模型預測得到的logits，更進一步，為了減少提示的影響，作者在做出最終預測之前重新調整分數：

其中T(·)為包裝好的輸入數據，q是模型在标簽上的一緻性輸出結果，p是在标簽上的最終預測結果。

在搜索了所有實例的“運氣”提示後，在整個訓練集上表現良好的提示即為強提示，不同的數據集的強提示體現出不同的語義特征，例如主題分類任務的強提示經常會出現“其他”和“此類”等詞，而在自然語言推理任務中，雖然語言蘊涵與否是主觀的，但為了表達對蘊涵的看法，強提示經常是類似“我認為這意味着”、“你認為”這樣的模闆。

3實驗

作者在少樣本設置下進行了多組實驗，并與多個基線在多方面進行了對比：

圖2使用 RoBERTa-large 在少樣本設置下的數據集上的性能

此外，作者還橫向對比了該方法在各個數據集上的表現：

圖3 結果不同數據集上提示性能的變化

圖4 SST-2上每個位置的強提示的常用詞

供稿丨蔡珂

編輯丨廖心瑤

你可能想看：

AMD 推出自家首款小語言模型“Llama-135m”

IT之家 9 月 29 日消息，AMD 在 Huggingface 平台公布了自家首款“小語言模型”AMD-Llama-135m，該模型具有推測解碼功能，擁有 6700 億個 token，采用 Apa...

國脈文化：江蘇、上海、四川三省的中國電信 IPTV用戶可以在省内IPTV界面直接體驗

每經AI快訊，有投資者在投資者互動平台提問：天翼雲遊戲已經可以預約黑神話了，在天翼雲遊戲可以玩黑神話，無需下載，即點即玩。公司是否着手開始将該遊戲引入天翼雲遊戲平台？謝謝！國脈文化（600640.S...

MPO線纜OM3應用

MPO（Multi-fiber Push On）線纜OM3是一種高性能的多模光纖線纜，主要用于高密度、高速率的數據中心和局域網（LAN）應用中。MPO線纜OM3采用12芯或24芯的多模光纖，通過MPO...

命理八字取用神的方法實例,八字取用神必須要會的方法

什麼是八字的用神和忌神,謝詠老師四柱命理詳解命理八字取用神的方法實例,八字取用神必須要會的方法,相信很多朋友們都比較關注八字算命如何選取用神這個問題的,這裡謝詠老師就來和大家詳細談一談這方面的問題,如...

打麻将什麼是運氣？搞清楚其中幾大核心，把握運氣不是難題

搞清楚其中幾大核心，把握運氣不是難題**本文将為你揭示其中的幾大核心，幫助你更好地理解和把握打麻将時的運氣。首先，我們要明白，運氣在麻将中并非完全不可捉摸的神秘力量。當然，我們也要明白，運氣隻是麻将中...

索尼回應PS5 Pro699美元定價，表示合情合理

PS5 Pro高達699美元的定價剛剛公布，就受到了衆多玩家關注。不少粉絲群體，在看到這個定價時就表達出了自己的遺憾之情。可惜，無論是衆多分析專家、遊戲開發界人士，還是索尼官方人員，都表示結合市場情況...

蘋果A18/A18 Pro芯片亮點彙總

2024-09-10 09:23:19作者：姚立偉 9月10日，蘋果正式發布了A18/A18 Pro兩款仿生芯片。接下來，我們将為大家介紹這兩款芯片的亮點。 A18仿生芯片專為iPhone 16設計，...

華碩靈耀XD4 PRO新款發布，橫向測評

可以看出來完全滿足千兆的吞吐，相比上一代XD4推薦為500Mbps寬帶用戶使用，新款更完整的支持千兆。PRO這個版本還是默認“雙頻合一”，新款的其它華碩路由器默認為分開。目前新款的華碩路由器已經默認打...

構建糾紛多元化解體系打造基層治理新格局

構建糾紛多元化解體系健全配套制度，優化聯調機制，制定印發《組建蘇木鎮（街道）嘎查村（社區）三級矛盾糾紛多元化解中心完善新時代矛盾糾紛多元化解機制的實施方案》，多形式、多渠道、多元化解決矛盾。

丁壬合化，到底有何提示？

不管合的結果是為日主的喜神或是忌星，在命局中都有一定的影響力，至于其影響力的大小，就看合的情形。今天簡單來說說丁壬合的特質。這兩個字，指的是丁火和壬水各自比較陰暗的狀态。，整體就都不一樣，同時又可以把...

一種治療遺尿的口服液的制作方法

專利摘要本發明公開了一種治療遺尿的口服液，屬于醫藥技術領域。遺尿俗稱尿床，通常指兒童在熟睡時不自主地排尿，目前多采用行為療法和藥物治療。專利說明一種治療遺尿的口服液本發明涉及一種治療遺尿的口服液，屬于...

臉上的這三顆“痣”是典型的“美人痣”，氣質優雅脫俗！

而如果它長在該長的地方，不僅給臉部帶來意想不到的美麗，還能在無形中提升“主人”的氣質和高級感。臉上有3個“胎記”，是天生的“美人痣”再加上天生的“角痣”，不僅充滿異域風情，而且穿在身上也很好看。

血型的分類

新生兒Rh血型不合溶血病的介紹這些血型系統有ABO、Rh、MNSSU、P、KELL、KIDD、LUTHERAN、DE血型抗體有什麼不一樣的？測定血型物質，有何臨床意義什麼是Rh血型？臨床化學檢查方法介...

tags: 提示運氣模型實例樣本

天天見聞

譯文｜預訓練語言模型的“運氣”提示：一種無參數無梯度構建高效prompt的方法

子鼠：恭喜你了！你運氣太好了，将會有千萬巨款到賬，要不要接下

心态好的人，運氣都不會太差

“人好命，天注定”：這三種人的命最好

一個人的運氣會有多好

什麼叫運氣好？

運氣好的人，往往有這些特征，福氣不請自來

我來說兩句

最新文章

銷售經理常犯的34個愚蠢的錯誤

年度爆文

90年代真實故事：留守婦女與狗的一段奇緣

你若不離，我定不棄！

倪海廈治哮喘的奇方，我用了30年才研究出其中的奧秘倪海廈先生，身

人生哲理（2600）

貸款28萬，00後第一次在股市裡沉浮

龜背竹怎麼養龜背竹養殖方法大全（圖文）

徐海喬将瘋批病嬌的角色演繹得淋漓盡緻

黃元禦《四聖心源》黃芽湯方應用桉例

何慶勇教授:《傷寒論》與疑難病的治療/失眠(十三)學生醫案:黃連阿

什麼樣的命局：生來一無所有，去世一無所有？

亞馬遜在愛爾蘭開設首個美國外re:Cycle 數據中心回收站點

随機文章