發(fā)布時(shí)間:2025-10-21
瀏覽次數(shù):
今兒個(gè)分享個(gè)折騰神經(jīng)網(wǎng)絡(luò)的經(jīng)歷,就昨天搗鼓 Adam優(yōu)化器參數(shù) 的事兒。為啥折騰這個(gè)?前陣子訓(xùn)練個(gè)小模型,那損失值死活下不去,磨嘰半天沒進(jìn)展,我看著進(jìn)度條急得直薅頭發(fā)。
我尋思肯定是優(yōu)化器沒調(diào)Adam都知道好用,參數(shù)嘛…就知道個(gè)大概。打開文檔重新掃一遍,重點(diǎn)關(guān)注幾個(gè)關(guān)鍵玩意兒:學(xué)習(xí)率(lr)、beta1、beta2、epsilon。以前基本就用默認(rèn)值往里懟,這回感覺不行。
我先從最狠的油門——學(xué)習(xí)率開始試。模型之前默認(rèn)學(xué)習(xí)率設(shè)的1e-3(0.001),訓(xùn)練效果不我試著把它砍一半到5e-4。跑起來看,開頭收斂是慢了點(diǎn),但穩(wěn)定了,不像之前坐過山車。
跑了幾輪感覺還差點(diǎn)意思,想著能不能再穩(wěn)點(diǎn)?我開始琢磨那兩個(gè)beta值。文檔說beta1影響“沖勁”,beta2影響“穩(wěn)定性”。試著把beta2從0.999加大到0.9999(讓二階梯度平滑更猛),beta1也稍稍動(dòng)動(dòng),從0.9降到0.85(減少點(diǎn)初始的“沖勁”)。
epsilon這玩意兒通常默認(rèn)用,但我看網(wǎng)上有人爭(zhēng)論。有說太小的epsilon在某些計(jì)算場(chǎng)景下會(huì)出幺蛾子。我膽子也大了,試著把epsilon從1e-8放大100倍到1e-6。心想:不就分母加個(gè)大點(diǎn)兒的保險(xiǎn)絲嘛試試唄。
改完參數(shù)當(dāng)然不是扔那就完事兒。我把TensorBoard架起來,訓(xùn)練過程死死盯著:
每次改動(dòng)幾個(gè)參數(shù),我就在筆記本上清清楚楚寫上:
這回試下來,有個(gè)感覺:
把效果最好那組參數(shù)組合——lr=5e-4, beta1=0.85, beta2=0.9999, epsilon=1e-6 ——更新到我這個(gè)小模型的配置里頭??偹惆堰@磨人的訓(xùn)練給收拾利索了,損失值也乖乖降到預(yù)期水平了。這回折騰沒白費(fèi)!
企業(yè)名稱:
石家莊鑫拓海網(wǎng)站建設(shè)公司
熱線電話:
400-123-4567
公司地址:
石家莊萬達(dá)廣場(chǎng)D座11樓
電子郵箱:
admin@youweb.com
掃碼關(guān)注我們
Copyright ? 2025 石家莊鑫拓海網(wǎng)站建設(shè)公司 版權(quán)所有 Powered by EyouCms 魯ICP備2024078765號(hào) sitemap.xml