梯度消失问题

✍ dations ◷ 2025-07-13 09:52:11 #梯度消失问题

梯度消失问题(Vanishing gradient problem)是一种机器学习中的难题,出现在以梯度下降法和反向传播训练人工神经网络的时候。在每次训练的迭代中,神经网路权重的更新值与误差函数的偏导数成比例,然而在某些情况下,梯度值会几乎消失,使得权重无法得到有效更新,甚至神经网络可能完全无法继续训练。举个例子来说明问题起因,一个传统的激励函数如双曲正切函数,其梯度值在 (-1, 1)范围内,反向传播以链式法则来计算梯度。

这样做的效果,相当于在n层网络中,将n个这些小数字相乘来计算“前端”层的梯度,这就使梯度(误差信号)随着n呈指数递减,导致前端层的训练非常缓慢。

反向传播使研究人员从头开始训练监督式深度人工神经网络,最初收效甚微。 1991年赛普·霍克赖特(Hochreiter)的毕业论文正式确认了“梯度消失问题”失败的原因。梯度消失问题不仅影响多层前馈网络,还影响循环网络。循环网络是通过将前馈网络深度展开来训练,在网络处理的输入序列的每个时间步骤中,都会产生一个新的层。

当所使用的激励函数之导数可以取较大值时,则可能会遇到相关的梯度爆炸问题(exploding gradient problem)。

相关

  • 伦勃朗伦勃朗·哈尔曼松·范·莱因(荷兰语:Rembrandt Harmenszoon van Rijn;荷兰语发音:.mw-parser-output .IPA{font-family:"Charis SIL","Doulos SIL","Linux Libertine","Segoe UI
  • 罗伯特·盖茨罗伯特·盖茨(Robert Gates,1943年9月25日-),美国政治家,前任国防部长。生于堪萨斯州威奇托 ,曾任德州农工大学校长和美国中央情报局局长,在情报界工作了达26年。2006年11月8日,盖茨
  • 爆炸罪爆炸罪,是《中华人民共和国刑法》规定的一种犯罪,它指故意使用爆炸的方法,杀死、杀伤不特定多人、毁坏重大公私财物,危害公共安全的行为,八大罪之一。根据《中华人民共和国刑法》
  • 特里·维纳布尔斯 特伦斯·弗雷德里克·"特里"·维纳布尔斯(Terence Frederick "Terry" Venables,1943年1月6日-)生于英格兰伦敦达根汉姆(Dagenham),是一名前足球运动员及主教练。球员生涯主要效
  • 月亮宝石《月亮宝石》(The Moonstone)是十九世纪的一位英国著名作家—威廉·威尔基·柯林斯所著作的一部代表性的推理小说。该书于1868年出版后,被文坛一致公认此书为他的最佳作品,后世
  • 张芝馨张芝馨(?-1786年),清朝官员,本籍直隶南皮。1786年,张芝馨前往台湾担任台湾府淡水厅竹堑巡检,统辖今台北至彰化一带之北中台湾军政。同年,镇守淡水城(今台湾新竹城)的他殉职于林爽文民变
  • 体育场地体育场地(英语:sport venue)是供人体育运动或体育比赛使用的设施统称,主要分为室内全封闭的体育馆与室外露天或设有伸展顶棚的体育场。建筑主体成圆形的体育场馆也称“巨蛋”。
  • 布拉基布拉基(Bragi)是北欧神话中掌管诗词、智慧与雄辩之神,也是主神奥丁之子。布拉基的妻子是青春女神伊登,也是阿斯嘉特万年花园的主人。
  • 古滕贝格古滕贝格(Guttenberg)可以指:
  • 让·杜雅尔丹让·杜雅尔丹(法语:Jean Dujardin,法语发音:.mw-parser-output .IPA{font-family:"Charis SIL","Doulos SIL","Linux Libertine","Segoe UI","Lucida Sans Unicode","Code2000","Gentium","Gentium Alternative","TITUS Cyberbit Basic","Arial Unicode MS","IPAPANNEW","Chrysanthi Unico