天天見聞

為什麼我們需要權重初始化？

天天見聞 2024-10-11 科技閱讀: 29

摘要: 這個問題被稱為**權重初始化。在我們訓練網絡之前，我們需要初始化所有的權重。如果網絡的所有權重都被初始化為零，所有的激活都是零，相應的梯度也是零。解決這個問題的方法之一是以小标準差的正态分布來初始化權重。Xavier初始化的目的是初始化權重，使每一層的方差都是相同的。

在機器學習和深度學習研究中，主要目的是使損失值最小。為了盡快做到這一點，有必要根據我們的問題來啟動權重。這個問題被稱為**"權重初始化"。**我們需要知道的第一件事是，這是一個設計決定。在我們訓練網絡之前，我們需要初始化所有的權重。權重的初始值會對訓練過程産生重大影響。根據深度學習模型在訓練過程中的起點，它可以收斂到不規則損失面中任何可能的局部最小值。

讓我們一起思考。如果我們把所有的權重都從0開始，從時間和成本上來說都是一個糟糕的選擇。還是說全部從0.5開始是有意義的？從錯誤的權重開始是否會導緻梯度下降的爆炸或消失？答案是肯定的!這就是為什麼我們需要初始化。讓我們來總結一下。

為什麼我們需要權重初始化？

權重初始化技術零初始化随機初始化澤維爾初始化H-at-al初始化LeCun初始化

讓我們更深入地研究它們中的每一個!為了簡化問題，讓我對每個初始化技術使用相同的基本模型。

 model = tf.keras.models.Sequential([        tf.keras.layers.Flatten(input_shape=(64, 32)),        tf.keras.layers.Dense(128, activation='relu', kernel_initializer,            bias_initializer)    ])

1.零初始化

顧名思義，零初始化就是将所有神經網絡的權重初始化為0。請注意，這樣做的前提是一半的最終權重為正，一半的權重為負。

如果網絡的所有權重都被初始化為零，所有的激活都是零，相應的梯度也是零。事實上，即使權重被初始化為任何其他常數也沒有關系。在這種情況下，激活可能不是零，但它們仍然是相同的。因此，我們可以排除零/常數的初始化。

model = tf.keras.models.Sequential([        tf.keras.layers.Flatten(input_shape=(64, 32)),        tf.keras.layers.Dense(128,                               activation='relu',                               kernel_initializer='zeros',                              bias_initializer='zeros')    ])

2.随機初始化

當激活函數為Sigmoid時，權重值離0越遠，标準差越大，輸出值就越偏向于接近0和1，然後就會失去梯度。解決這個問題的方法之一是以小标準差的正态分布來初始化權重。一般來說，初始權重以正态分布（高斯分布）随機初始化，其平均值為0，标準差為0.01，如下所示

# With normal distributionsmodel = tf.keras.models.Sequential([        tf.keras.layers.Flatten(input_shape=(64, 32)),        tf.keras.layers.Dense(128,                               activation='relu',                               kernel_initializer='RandomNormal',                              bias_initializer='zeros')    ])'''# With Uniform Distributionsmodel = tf.keras.models.Sequential([        tf.keras.layers.Flatten(input_shape=(64, 32)),        tf.keras.layers.Dense(128,                               activation='relu',                               kernel_initializer='RandomUniform',                              bias_initializer='zeros')'''

3.澤維爾（Glorot）初始化

随機初始化對于深度網絡來說很快就會崩潰。其原因是，激活度在幾層之後會迅速下降到零（梯度也是如此）。Xavier初始化的目的是初始化權重，使每一層的方差都是相同的。換句話說，每層輸出的方差必須等于輸入的方差，而且在反向傳播中通過各層之前和之後的梯度方差必須相同。

# With normal distributionsmodel = tf.keras.models.Sequential([        tf.keras.layers.Flatten(input_shape=(64, 32)),        tf.keras.layers.Dense(128,                               activation='relu',                               kernel_initializer='glorot_normal',                              bias_initializer='zeros')    ])'''# With Uniform Distributionsmodel = tf.keras.models.Sequential([        tf.keras.layers.Flatten(input_shape=(64, 32)),        tf.keras.layers.Dense(128,                               activation='relu',                               kernel_initializer='glorot_uniform',                              bias_initializer='zeros')'''

4.He-at-al初始化

何凱明提出了一種适合ReLU的初始值，以他的名字命名，稱為何初始值。他的初始化與Xavier的初始化幾乎相似，但與Xavier初始化不同。這種差異與ReLU激活函數的非線性有關，他們對權重使用了不同的縮放系數。

# With normal distributionsmodel = tf.keras.models.Sequential([        tf.keras.layers.Flatten(input_shape=(64, 32)),        tf.keras.layers.Dense(128,                               activation='relu',                               kernel_initializer='he_normal',                              bias_initializer='zeros')    ])'''# With Uniform Distributionsmodel = tf.keras.models.Sequential([        tf.keras.layers.Flatten(input_shape=(64, 32)),        tf.keras.layers.Dense(128,                               activation='relu',                               kernel_initializer='he_uniform',                              bias_initializer='zeros')'''

5.LeCun初始化

它也被稱為 "高效反推"，考慮到每一層的輸入和輸出的大小。這種方法可用于不一定圍繞零對稱的激活函數，如雙曲切線。它産生的權重是随機選擇的數字乘以方差1/(input_layer_size)。

# With normal distributionsmodel = tf.keras.models.Sequential([        tf.keras.layers.Flatten(input_shape=(64, 32)),        tf.keras.layers.Dense(128,                               activation='relu',                               kernel_initializer='lecun_normal',                              bias_initializer='zeros')    ])'''# With Uniform Distributionsmodel = tf.keras.models.Sequential([        tf.keras.layers.Flatten(input_shape=(64, 32)),        tf.keras.layers.Dense(128,                               activation='relu',                               kernel_initializer='lecun_uniform',                              bias_initializer='zeros')'''

我們如何理解好的初始化？如何找到合适的初始化值？參考文獻sebastianraschka.com/pdf/lecture….heartbeat.comet.ml/weight-init…wandb.ai/sauravmahes…medium.com/guidona-sof….koreascience.kr/article/JAK…web.eecs.umich.edu/~justincj/s…sebastianraschka.com/pdf/lecture…bigmeca.minesparis.psl.eu/wp-content/………

你可能想看：

閱讀量突破1億的爆文：爸爸，為什麼我們這麼辛苦卻還是很窮

而現在呢，昨天還和你一起撸串喝紮啤的哥們，今天就可能一夜暴富；前天還和你一起混公衆号、混轉發群的文友，今天就可能因為一篇10萬加的文章刷爆朋友圈，商業合作、簽約出版接踵而至；每個人的起點不同，有人費勁...

不為官名隻愛色的胡雪岩，臨終前為什麼告誡後人：“勿近白虎”？

不論是誰，隻要誕生于這個世間，必有其價值和意義，千兩黃金就算一揮而盡，它也還是能夠再得來。詩仙李白，潇灑執筆一揮，寫下令人欣羨的人生态度又有多少人能實現呢？

也門胡塞武裝為什麼這麼猛？

最近也門胡塞武裝有點起勢的樣子，雖然總體實力未必比得上伊朗、黎巴嫩真主黨等武裝力量，但有一手出色的無人機和高超音速導彈技術，不但頻頻襲擊以色列，甚至連美軍航母都敢揍，如今隐然一副抵抗組織的領袖之風。 ...

央視看好的《暗夜與黎明》口碑走低，被要求停播，為什麼罵聲一片

今年上線的諜戰劇并不少，能實現大爆的幾乎沒有。自這一題材走上下坡路後，讓不少觀衆看得心累。不管是《追風者》《潛行者》還是前不久的《孤舟》，劇情都出現了諸多的漏洞，演員也不夠給力，由此導緻差評持續累積...

為什麼你總是有爛桃花

遇到爛桃花的危害性不亞于遇見渣男。為什麼桃花一朵不開，爛桃花總是如影随形？3.爛桃花早點摘掉，别試圖改變浪子每個被爛桃花困住的人，都以為自己有讓浪子回頭金不換的超能力。很多時候爛桃花擋不住，但是通過火...

為什麼這個女龍一直隐身，打不到她？

今天在武耀台的時候對面的女龍一直隐身是怎麼回事?我為什麼打不到她?大神回答：通常情況下，想達到隐身效果一般有三種情況：這個陣法正是應了詩中的“相逢一拱手，散影去無蹤”，通過技能描述可以知道，八陣圖等級...

為什麼大家對王楚欽感到失望？

王楚欽不是“命好”，他挨罵很多。我也不覺得我說王楚欽命好的表達很偏頗，早年王楚欽還說過林高遠能跟在馬龍身邊，命好。隻是大家都看好王楚欽，所以我有點失望罷了。今晚看了大家對周啟豪一緻的指責時，突然感覺王...

作家韓江為什麼能獲得諾貝爾文學獎？

韓江：以詩意探讨人類悲劇榮譽加冕2024年10月10日，瑞典學院宣布将諾貝爾文學獎授予韓國作家韓江，以表彰她“用強烈的詩意散文直面曆史創傷，揭示人類生命的脆弱”。這一榮譽不僅是對她文學成就的認可，也是...

奧斯丁《理智與情感》：真實而美好的感情，往往需要理性的加持

它就是《理智與情感》。二女兒瑪麗安，為人活潑，感情濃烈，她情感沖動，不懂克制。03埃麗諾情感豐富，内心也很熾熱，但她對于感情，有自己的判斷。沒有感情的理性，是冰冷的。沒有理性的感情，是沖動的。

“二月上墳早，子孫不到老”,今年清明哪天掃墓好？需要提前嗎？

先說說這“二月上墳早”吧。為啥二月就得早早地去掃墓呢？那麼今年清明到底哪天去掃墓好呢？所以，“二月上墳早，子孫不到老”，這句話咱們得牢記在心。今年清明掃墓的時候，咱們得提前做好準備，用心去祭祖，讓祖先...

剛引進的種鴿需不需要養一年之後再配對？

這樣的做法的考慮主要是新引進的鴿子需要适應，外來的鴿子也要檢查，所以很多鴿友都不會着急讓這些鴿子配對。第三，看是不是到了繁殖時間，如果說引進鴿子沒多久剛好就是準備讓鴿子繁殖的時候，這個時候如果确定鴿子...

如何挽救我們之間的感情？如何挽救前夫？

離婚後挽回我們之間的感情如何挽回前夫? 許多女性離婚後都會後悔，離婚後仍然想和前夫在一起。那就需要做些事來挽回前夫的心，保持自己美麗的自信，先去愛自己。下面感情挽回專家給你提供挽回前夫，挽回你們婚...

tags: 初始權重激活相同深度

其他相關

同卵雙胞胎的指紋是否相同？

同卵雙胞胎的指紋是否相同？

作者: 天天見聞時間:2024-10-13 閱讀: 23

（a）和（b）是同卵雙胞胎姊妹中的一人的一根手指的兩個指紋印。同卵雙胞胎絕大多數都是由一個精子一個卵子分裂而來，因此除了基本無法探查的微突變之外同卵雙胞胎所接受的遺傳财産可視作完全相同。但也有極其罕見的同卵異精現象，而在這種情況下同卵雙胞胎的基因也不能視作相同了。...

男命正官代表什麼，男命正官代表孩子

男命正官代表什麼，男命正官代表孩子

作者: 天天見聞時間:2024-10-13 閱讀: 22

男命兩個正官必有二婚到底是不是真的呢？男命正官代表孩子正官對于男性和女性來說，是有着不一樣的寓意的，也代表着不一樣的東西。正官士異性，是男命中的女兒，天幹為異性相見，故男命正官為女兒。...

訓練過程--學習率與權重衰減

訓練過程--學習率與權重衰減

作者: 天天見聞時間:2024-10-12 閱讀: 23

4）理論上大的參數、深的網絡在訓練時需要更少的叠代次數，但是并不是參數越大越好，參數越大使得權重更新緩慢，優化速度下降。為防止過度拟合，為訓練準則增加權重衰減項，L2歸一化為訓練準則增加λ∑iθ2i項，L1增加λ∑i|θi|。...

生而有時，活而有命

生而有時，活而有命

作者: 天天見聞時間:2024-10-12 閱讀: 24

一、命裡有時終須有，命裡無時莫強求。我們從古到今都想掌握自己的命運，然而總是有那麼多的人在江湖身不由己。這就是第一個曆程，命裡有時終須有，命裡無時莫強求，命裡有多少就是多少。為什麼會是有同年同月同時生的人而命運不同呢？試想一下，世界那麼大，人那麼多，都是那個時間出生的人有多少？...

獻上中國四大名雞的制作工藝配方，幾代人的心血彌足珍貴

作者: 天天見聞時間:2024-10-02 閱讀: 68

德州扒雞五香脫骨，香飄四溢，很大程度得益于秘不示人的香料包，雖然料包中所用的13種香料大多為人熟知，比例配方卻經過十代人不斷試驗調整，彌足珍貴。詳細研究道口燒雞的香料配方和工藝流程，對更好地烹制雞有有極大的幫助。...

雞的25種吃法每一道都是必學的經典-微信精選-吃貨愛美食

作者: 天天見聞時間:2024-10-02 閱讀: 79

特點：保持了雞肉的鮮美、原汁原味5.香酥雞8.雲南氣鍋雞11.四川棒棒雞雞塊，加湯并下冬筍、鮮蘑。要點：要把握好火候，雞塊入鍋沖炸時間不宜過長。17.咖喱雞塊要點：雞不宜煮得太老，而失其鮮嫩。20.栗子焖雞...

我來說兩句

最新文章

銷售經理常犯的34個愚蠢的錯誤

銷售經理常犯的34個愚蠢的錯誤

美國紐約州長和紐約市長是屬于上下級嗎，還是和國家一樣聯邦制

長膠打法“六個方針”掌握了嗎一個重點必須會！附：長膠掌握這

梁佛心作文《玉壺齋》的座上客（四十三）他走到我跟前兒，七

圖解七星漂的使用技巧，一次交代清楚

SUV有什麼優點為什麼那麼多人買小李告訴你答案

八卦六象：心生氣，氣化物，物生事，事有勢，勢盡迹！

鄧中甲方劑學講稿—第四章清熱劑—清營涼血—清營湯

冷卻塔的水損耗到底是多少

月子餐餐譜：産後六周42天分段調理天天靠譜

年度爆文

90年代真實故事：留守婦女與狗的一段奇緣

也許是因為愛狗，也許是因為無聊，不知何時，女人養了一條黃狗。随着時光的推移，小黃狗也長成了一條健壯而通人性的大狗，一條公狗。原來：女人因丈夫常年不在身邊，寂寞難耐，她養的那條黃狗又很通人性，黃狗在女人的引導下，便與女人發生了不可描述的一幕。打那以後，女人不再與村裡的人接觸，也很少出門。...

你若不離，我定不棄！

你若不離，我怎麼舍得放棄。天和地是相望的，水和魚是相擁的，沙和石是相容的，海和浪是相伴的，我隻想告訴你，你是我今生的唯一，我愛你，不止現在。你可曾聽到我的低語：你若不離，我定不棄。前世我把你埋葬就是為了今世能和你再續前緣，你還有什麼顧慮呢？...

倪海廈治哮喘的奇方，我用了30年才研究出其中的奧秘倪海廈先生，身

倪海廈先生，身為經方中醫領域的佼佼者，被譽為當代獨樹一幟的“命、相、蔔、山、醫”五術兼備的卓越人才，是我深深敬仰的中醫巨匠。有一次，我碰到個哮喘患者，都病了10年了。我給她開了倪老先生的藥方，稍微調整了一下，裡面有麻黃、細辛、附子這些藥。...

人生哲理（2600）

托爾斯泰有句名言：“樸素是美的必要條件。也唯有這各種不同的光，才成就了各色的人等，和不同的人生。做人，心裡當有光，有光的人，才會有圓滿的人生。一直以為是生活主導我們前行，慢慢的懂得了，是心情主導着生存的意義。”女人的氣質是需要沉澱人生閱曆和知識的。...

貸款28萬，00後第一次在股市裡沉浮

00後新股民的股市初體驗：28萬借貸炒股的沉浮入市背景國慶假期後，A股開盤三天内經曆了一輪劇烈震蕩，這對于剛剛步入股市的00後新股民來說，無疑是一次極限心理測試。這批年輕的投資者，正值青春年華，滿懷雄心壯志，紛紛湧入股市，希望能夠抓住這次“牛市”的機會，實現财富的快速增長。...

龜背竹怎麼養龜背竹養殖方法大全（圖文）

内容簡介：龜背竹養殖方法是什麼呢?龜背竹代表健康長壽意思，家養居多;龜背竹養殖方法要根據其生長習性進行，這樣才能養成漂亮的龜背竹;世界工廠小編為您整編了龜背竹養殖方法，供您參考。龜背竹生活習性龜背竹養殖方法其同屬品種有斑葉龜背竹。...

徐海喬将瘋批病嬌的角色演繹得淋漓盡緻

在這個光影交錯的舞台上，徐海喬以他獨有的魅力，将“瘋批病嬌”這一複雜而微妙的角色演繹得淋漓盡緻，仿佛一夜之間，他不再是熒幕上那個溫文爾雅的形象，而是化身為一個遊走于理智與瘋狂邊緣的靈魂舞者。與黃潇的深情破碎相互交織，兩人的表演如同一幅細膩又震撼的畫卷，緩緩展開在觀衆眼前，讓人在驚歎之餘，也不禁為這份藝術的純粹與極緻所動容。 ...

黃元禦《四聖心源》黃芽湯方應用桉例

黃芽湯……中氣之治方劑另注：是黃芽湯，不是黃芽菜湯。方劑名解：《周易參同契》中“陰陽之始，玄含黃芽”，此方為黃老先生的調陰陽的第一方，故名黃芽湯。方子解釋：人參加幹姜：崇陽補火方子功效：瀉水補火，扶陽抑陰，使中氣輪轉，清濁複位，卻病延年之法，莫妙于此矣。交媾精神之妙藥，調濟氣血之靈丹。...

何慶勇教授:《傷寒論》與疑難病的治療/失眠(十三)學生醫案:黃連阿

主訴：反複失眠1年，加重半年，伴心煩，納呆。刻下症：患者入睡困難，眠差，常需要長達3-4小時才能入睡，心中煩熱，頭暈，頭發蒙，頭部有脹麻感，怕冷，無視物旋轉，無惡心，嘔吐，無口幹、口苦。診斷：失眠黃連阿膠湯證治療：黃連阿膠湯。二診(8月11日)：患者訴服藥5劑後。...

什麼樣的命局：生來一無所有，去世一無所有？

我們再來看看命局傷官戊土，命局原有木生火，火生土。命局缺金，隻有支暗藏極弱，弱金必受烈火熔，此命以金為财即妻星。所以一生難有婚姻，若大運再行木火，則終将一無所有。二十三至三十三運行丁巳火旺地，所經磨難不可想象，三十三至四十三逗行戊午同論。...

亞馬遜在愛爾蘭開設首個美國外re:Cycle 數據中心回收站點

亞馬遜在愛爾蘭啟動首個海外數據中心回收項目項目背景近日，亞馬遜宣布與位于都柏林的 re:Cycle Reverse Logistics 公司合作，啟動其在美國以外的首個數據中心設備回收站點。這一舉措旨在減少亞馬遜 AWS 數據中心在歐洲、中東和非洲（AMEA）地區的環境影響。...

随機文章