长短期记忆

✍ dations ◷ 2025-11-23 14:11:17 #长短期记忆


长短期记忆(英语:Long Short-Term Memory,LSTM)是一种时间循环神经网络(RNN),论文首次发表于1997年。由于独特的设计结构,LSTM适合于处理和预测时间序列中间隔和延迟非常长的重要事件。

LSTM的表现通常比时间循环神经网络及隐马尔科夫模型(HMM)更好,比如用在不分段连续手写识别上。2009年,用LSTM构建的人工神经网络模型赢得过ICDAR手写识别比赛冠军。LSTM还普遍用于自主语音识别,2013年运用TIMIT自然演讲数据库达成17.7%错误率的纪录。作为非线性模型,LSTM可作为复杂的非线性单元用于构造更大型深度神经网络。

1997年,Sepp Hochreiter和于尔根·施密德胡伯提出LSTM。版本包含了cells, input以及output gates。

2014年,Kyunghyun Cho et al.发明了门控循环单元(英语:Gated recurrent unit)(GRU)。

2016年,谷歌用LSTM进行谷歌翻译。 苹果公司、微软和亚马逊公司也用LSTM生产产品,例如:iPhone、Amazon Alexa、等。中国公司也正在用LSTM。

LSTM是一种含有LSTM区块(blocks)或其他的一种类神经网络,文献或其他资料中LSTM区块可能被描述成智能网络单元,因为它可以记忆不定时间长度的数值,区块中有一个gate能够决定input是否重要到能被记住及能不能被输出output。

右图底下是四个S函数单元,最左边函数依情况可能成为区块的input,右边三个会经过gate决定input是否能传入区块,左边第二个为input gate,如果这里产出近似于零,将把这里的值挡住,不会进到下一层。左边第三个是forget gate,当这产生值近似于零,将把区块里记住的值忘掉。第四个也就是最右边的input为output gate,他可以决定在区块记忆中的input是否能输出 。

LSTM有很多个版本,其中一个重要的版本是GRU(Gated Recurrent Unit),根据谷歌的测试表明,LSTM中最重要的是Forget gate,其次是Input gate,最次是Output gate。

f t = σ g ( W f x t + U f h t 1 + b f ) i t = σ g ( W i x t + U i h t 1 + b i ) o t = σ g ( W o x t + U o h t 1 + b o ) c t = f t c t 1 + i t σ c ( W c x t + U c h t 1 + b c ) h t = o t σ h ( c t ) {displaystyle {begin{aligned}f_{t}&=sigma _{g}(W_{f}x_{t}+U_{f}h_{t-1}+b_{f})\i_{t}&=sigma _{g}(W_{i}x_{t}+U_{i}h_{t-1}+b_{i})\o_{t}&=sigma _{g}(W_{o}x_{t}+U_{o}h_{t-1}+b_{o})\c_{t}&=f_{t}circ c_{t-1}+i_{t}circ sigma _{c}(W_{c}x_{t}+U_{c}h_{t-1}+b_{c})\h_{t}&=o_{t}circ sigma _{h}(c_{t})end{aligned}}}


为了最小化训练误差,梯度下降法(Gradient descent)如:应用时序性倒传递算法(英语:Backpropagation through time),可用来依据错误修改每次的权重。梯度下降法在循环神经网络(RNN)中主要的问题初次在1991年发现,就是误差梯度随着事件间的时间长度成指数般的消失。当设置了LSTM 区块时,误差也随着倒回计算,从output影响回input阶段的每一个gate,直到这个数值被过滤掉。因此正常的倒循环类神经是一个有效训练LSTM区块记住长时间数值的方法。

Backpropagation through time(英语:Backpropagation through time)、BPTT

相关

  • University of Minnesota明尼苏达大学双城分校(英语:University of Minnesota, Twin Cities),是位于美国明尼苏达州双城区(即明尼阿波利斯及圣保罗)的一所公立大学,为明尼苏达大学系统历史最悠久,规模最大的
  • 时间之箭物理学在微观的层次几乎完全是时间对称的,这意味着物理学定律在时间流易的方向倒转之后仍然保持为真。但是在宏观层次却显得并不是那么回事:时间存在着明显的方向性。时间箭头
  • 姜 杰姜杰(1961年-),汉族,女,黑龙江哈尔滨人,毕业于国防科学技术大学,中华人民共和国科学家、第十一届全国政协委员。2015年12月当选中国科学院院士。担任中国航天科技集团公司科技委常委
  • 欧联指令本文是 欧洲联盟的政治与政府 系列条目之一指令(Directive)是欧洲联盟的一种成文法(欧盟法律)。和规章(英语:Regulation (European Union))(Regulation)不同,指令只要求欧洲联盟成员国
  • 独立厅美国独立纪念馆(又称独立厅,Independence Hall)是位于美国宾夕法尼亚州费城的一栋乔治风格的红砖建筑物。建于1732年到1753年之间,由埃德蒙·伍利(英语:Edmund Woolley)和安德鲁·
  • 蛛网理论蛛网理论(英语:cobweb theory)是一种动态的均衡变动模型,用来解释生产期比较长的产品之均衡点,随时间变动的情形。所谓“生产期”,就是说从厂商获知市场状况而决定改变产量,到它产
  • 让·阿勒曼让·阿勒曼(法语:Jean Allemane,1843年-1935年)法国社会主义政治家,1871年巴黎公社老兵,工团主义先驱,革命社会主义工人党领导人,1905年法国工人国际法国支部创始人之一。法兰西第三
  • 吴文华吴文华(1521年-1598年),字子彬,别号容所,福建福州府连江县人,民籍,明朝政治人物。嘉靖三十四年(1555年)乙卯科福建乡试第三十名。嘉靖三十五年(1556年)联捷丙辰科会试第八十名,进士第二甲
  • 叶戈尔·盖达尔叶戈尔·铁木罗维奇·盖达尔(俄语:Его́р Тиму́рович Гайда́р,1956年3月19日-2009年12月16日)是苏联和俄罗斯的经济学家和政治家,曾于1992年6月15日—12月14
  • 罗斯·布洛姆菲尔德罗斯·布洛姆菲尔德(英语:Ross Blomfield,20世纪-),新西兰男子赛艇运动员。他曾代表新西兰参加瑞士卢塞恩举行的1974年世界赛艇锦标赛,获得男子八人单桨有舵手铜牌。