🎤 爲偶像應援 · Gate送你直達 Token of Love! 🎶
家人們,現在在Gate廣場爲 打 Token of Love CALL,20 張音樂節門票等你來瓜分!🔥
泫雅 / SUECO / DJ KAKA / CLICK#15 —— 你最期待誰?快來一起應援吧!
📌 參與方式(任選,參與越多中獎幾率越高!)
1️⃣ 本帖互動
點讚 & 轉發本帖 + 投票你最愛的藝人
評論區打出 “我在 Gate 廣場爲 Token of Love 打 Call !”
2️⃣ 廣場發帖爲 TA 打 Call
帶上 #歌手名字# + #TokenOfLove#
發帖內容任選:
🎵 最想現場聽到的歌 + 心情宣言
📣 應援口號(例:泫雅女王衝鴨!Gate廣場全員打 Call!)
😎 自制表情包/海報/短視頻(加分項,更容易中獎!)
3️⃣ 推特 / 小紅書發帖打 Call
同樣帶上 #歌手名字# + #TokenOfLove#
內容同上,記得回鏈到表單 👉️ https://www.gate.com/questionnaire/7008
🎟️ 獎勵安排
廣場優質發帖用戶:8張門票
廣場幸運互動用戶:2張門票
Twitter 優質發帖用戶:5張門票
小紅書優質發帖用戶:5張門票
📌 優質帖文將根據文章豐富度、熱度、創意度綜合評分,禁止小號水貼,原創發帖更易獲獎!
🕒 8
谷歌:大模型不僅有湧現能力,訓練時間長了還有「領悟」能力
2021 年,研究人員在訓練一系列微型模型時取得了一個驚人的發現,即模型經過長時間的訓練後,會有一個變化,從開始只會「記憶訓練數據」,轉變為對沒見過的數據也表現出很強的泛化能力。
這種現像被稱為「領悟(grokking)」,如下圖所示,模型在長時間擬合訓練數據後,「領悟」現象會突然出現。
為了更好的了解這一問題,本文來自谷歌的研究者撰寫了一篇博客,試圖弄清楚大模型突然出現「領悟」現象的真正原因。
MLP 模型權重如下圖所示,研究發現模型的權重最初非常嘈雜,但隨著時間的增加,開始表現出週期性。
用01 序列進行實驗
為了判斷模型是在泛化還是記憶,該研究訓練模型預測30 個1 和0 隨機序列的前三位數字中是否有奇數個1。例如000110010110001010111001001011 為0,而010110010110001010111001001011 為1。這基本就是一個稍微棘手的XOR 運算問題,帶有一些干擾噪聲。如果模型在泛化,那麼應該只使用序列的前三位數字;而如果模型正在記憶訓練數據,那麼它還會使用後續數字。
該研究使用的模型是一個單層MLP,在1200 個序列的固定批上進行訓練。起初,只有訓練準確率有所提高,即模型會記住訓練數據。與模運算一樣,測試準確率本質上是隨機的,隨著模型學會通用解決方案而急劇上升。
通過01 序列問題這個簡單的示例,我們可以更容易地理解為什麼會發生這種情況。原因就是模型在訓練期間會做兩件事:最小化損失和權重衰減。在模型泛化之前,訓練損失實際上會略有增加,因為它交換了與輸出正確標籤相關的損失,以獲得較低的權重。
**「領悟」現像是什麼時候發生的? **
值得注意的是,「領悟(grokking)」是一種偶然現象—— 如果模型大小、權重衰減、數據大小和其他超參數不合適,「領悟」現象就會消失。如果權重衰減太少,模型就會對訓練數據過渡擬合。如果權重衰減過多,模型將無法學到任何東西。
下面,該研究使用不同的超參數針對1 和0 任務訓練了1000 多個模型。訓練過程充滿噪音,因此針對每組超參數訓練了九個模型。表明只有兩類模型出現「領悟」現象,藍色和黃色。
具有五個神經元的模塊化加法
模加法a+b mod 67 是周期性的,如果總和超過67,則答案會產生環繞現象,可以用一個圓來表示。為了簡化問題,該研究構建了一個嵌入矩陣,使用cos 和sin 將a 和b 放置在圓上,表示為如下形式。
接下來是
開放問題
現在,雖然我們對單層MLP 解決模加法的機制及其在訓練過程中出現的原因有了紮實的了解,但在記憶和泛化方面仍有許多有趣的開放性問題。
**哪種模型的約束效果更好呢? **
從廣義上講,權重衰減的確可以引導各種模型避免記憶訓練數據。其他有助於避免過擬合的技術包括dropout、縮小模型,甚至數值不穩定的優化算法。這些方法以復雜的非線性方式相互作用,因此很難先驗地預測哪種方法最終會誘導泛化。
此外,不同的超參數也會使改進不那麼突然。
有一種理論認為:記憶訓練集的方法可能比泛化解法多得多。因此,從統計學上講,記憶應該更有可能首先發生,尤其是在沒有正則化或正則化很少的情況中。正則化技術(如權重衰減)會優先考慮某些解決方案,例如,優先考慮「稀疏」解決方案,而不是「密集」解決方案。
研究表明,泛化與結構良好的表徵有關。然而,這不是必要條件;在求解模加法時,一些沒有對稱輸入的MLP 變體學習到的「循環」表徵較少。研究團隊還發現,結構良好的表徵並不是泛化的充分條件。這個小模型(訓練時沒有權重衰減)開始泛化,然後轉為使用周期性嵌入的記憶。
在下圖中可以看到,如果沒有權重衰減,記憶模型可以學習更大的權重來減少損失。
理解模加法的解決方案並非易事。我們有希望理解更大的模型嗎?在這條路上可能需要:
訓練更簡單的模型,具有更多的歸納偏差和更少的運動部件。
使用它們來解釋更大模型如何工作的費解部分。
按需重複。
研究團隊相信,這可能是一種更好地有效理解大型模型的的方法,此外,隨著時間的推移,這種機制化的可解釋性方法可能有助於識別模式,從而使神經網絡所學算法的揭示變得容易甚至自動化。
更多詳細內容請閱讀原文。
原文鏈接: