长短期记忆

✍ dations ◷ 2025-12-01 16:00:40 #长短期记忆


长短期记忆(英语:Long Short-Term Memory,LSTM)是一种时间循环神经网络(RNN),论文首次发表于1997年。由于独特的设计结构,LSTM适合于处理和预测时间序列中间隔和延迟非常长的重要事件。

LSTM的表现通常比时间循环神经网络及隐马尔科夫模型(HMM)更好,比如用在不分段连续手写识别上。2009年,用LSTM构建的人工神经网络模型赢得过ICDAR手写识别比赛冠军。LSTM还普遍用于自主语音识别,2013年运用TIMIT自然演讲数据库达成17.7%错误率的纪录。作为非线性模型,LSTM可作为复杂的非线性单元用于构造更大型深度神经网络。

1997年,Sepp Hochreiter和于尔根·施密德胡伯提出LSTM。版本包含了cells, input以及output gates。

2014年,Kyunghyun Cho et al.发明了门控循环单元(英语:Gated recurrent unit)(GRU)。

2016年,谷歌用LSTM进行谷歌翻译。 苹果公司、微软和亚马逊公司也用LSTM生产产品,例如:iPhone、Amazon Alexa、等。中国公司也正在用LSTM。

LSTM是一种含有LSTM区块(blocks)或其他的一种类神经网络,文献或其他资料中LSTM区块可能被描述成智能网络单元,因为它可以记忆不定时间长度的数值,区块中有一个gate能够决定input是否重要到能被记住及能不能被输出output。

右图底下是四个S函数单元,最左边函数依情况可能成为区块的input,右边三个会经过gate决定input是否能传入区块,左边第二个为input gate,如果这里产出近似于零,将把这里的值挡住,不会进到下一层。左边第三个是forget gate,当这产生值近似于零,将把区块里记住的值忘掉。第四个也就是最右边的input为output gate,他可以决定在区块记忆中的input是否能输出 。

LSTM有很多个版本,其中一个重要的版本是GRU(Gated Recurrent Unit),根据谷歌的测试表明,LSTM中最重要的是Forget gate,其次是Input gate,最次是Output gate。

f t = σ g ( W f x t + U f h t 1 + b f ) i t = σ g ( W i x t + U i h t 1 + b i ) o t = σ g ( W o x t + U o h t 1 + b o ) c t = f t c t 1 + i t σ c ( W c x t + U c h t 1 + b c ) h t = o t σ h ( c t ) {displaystyle {begin{aligned}f_{t}&=sigma _{g}(W_{f}x_{t}+U_{f}h_{t-1}+b_{f})\i_{t}&=sigma _{g}(W_{i}x_{t}+U_{i}h_{t-1}+b_{i})\o_{t}&=sigma _{g}(W_{o}x_{t}+U_{o}h_{t-1}+b_{o})\c_{t}&=f_{t}circ c_{t-1}+i_{t}circ sigma _{c}(W_{c}x_{t}+U_{c}h_{t-1}+b_{c})\h_{t}&=o_{t}circ sigma _{h}(c_{t})end{aligned}}}


为了最小化训练误差,梯度下降法(Gradient descent)如:应用时序性倒传递算法(英语:Backpropagation through time),可用来依据错误修改每次的权重。梯度下降法在循环神经网络(RNN)中主要的问题初次在1991年发现,就是误差梯度随着事件间的时间长度成指数般的消失。当设置了LSTM 区块时,误差也随着倒回计算,从output影响回input阶段的每一个gate,直到这个数值被过滤掉。因此正常的倒循环类神经是一个有效训练LSTM区块记住长时间数值的方法。

Backpropagation through time(英语:Backpropagation through time)、BPTT

相关

  • 坦普尔大学天普大学(Temple University,或译为坦普尔大学,有时也被称作庙大),位于美国东岸宾夕法尼亚州费城的一所州关联性的综合性研究型大学,然而天普大学虽受宾州政府州款补助,但其校保有
  • 石灰岩石灰岩(灰石)(CaCO3)简称灰岩,又叫石灰石,是以方解石(矿物)为主要成分的碳酸钙岩。石灰岩主要是在浅海的环境下形成的。石灰岩按成因可划分为粒屑石灰岩(流水搬运、堆积形成);生物骨
  • 戈德里奇第一代里彭伯爵弗雷德里克·约翰·罗宾逊,PC(Frederick John Robinson, 1st Earl of Ripon,1782年11月1日-1859年1月28日),英国政治家,曾任英国首相,出生后至1827年,称为F·J·罗宾逊
  • 斐迪南·马克西米利安三世 (伊森堡-怀赫特斯巴赫)斐迪南·马克西米利安(Ferdinand Maximilian,1824年10月24日-1903年6月5日),出生于韦希特尔斯巴赫。伊森堡-怀赫特斯巴赫伯爵,1865年8月17日升为伊森堡-怀赫特斯巴赫亲王。称:斐迪
  • 李琦李琦可以指:
  • 刘城刘城(?-?),字维翰,直隶东明县人,山东济南府新城县(今桓台县)民籍,明朝政治人物。山东乡试第四十九名举人。正德六年(1511年)中式辛未科会试第□名,登第二甲第二十一名进士。官至主事。曾祖
  • 巴尔塞纳火山巴尔塞纳火山是墨西哥的火山,位于雷维利亚希赫多群岛,距离南下加利福尼亚州350公里,海拔高度332米,最近一次火山喷发在1953年3月发生。
  • 婆罗洲高原国会议席婆罗洲高原国会议席是马来西亚的国会下议院议席之一,选区位于砂拉越州内。2018年创设。目前其下有三个州议席,分别是瑟冷布(N18)、曼旺(N19)和打叻(N20)。现任婆罗洲高原国会议员为威利莫因,来自国民联盟土著团结党。婆罗洲高原国会议席族群结构比率(2018)根据2018年马来西亚大选采用的《2017年第四季度选民册》,婆罗洲高原国会议席共有43,180名可投票注册选民,其中砂拉越原住民占68%、华裔占26%、巫裔占5%以及其他族群占1%。His Majesty's Government Gazett
  • 学霸学霸是起源于中国大陆的网络流行语,也是一种校园现象。作为网络语言,此词用以描述刻苦学习、学识丰富,并在某一领域确实取到某些成绩的人。具备此义的“学霸”一词始流行于2012年(一说2013年)。此后每逢考试季,关乎“学霸”的报道常见诸报刊,引发热议;各种有关“学霸”的故事、段子、歌曲亦被热烈讨论,广泛传播。借此词可表达之情感可褒可贬。由它亦派生出一批描述学生学习状况的词汇,其中有成体系者。《北青报》调查指,这类词汇业已深刻印象同学间人际交往,部分学生心理压力亦因之而生。对此称谓及其现象,有正面称赞其体现尚学
  • 普拉鲁样 (大龟文)普拉鲁样(排湾语:Pulaluyang),是台湾排湾族大龟文政权传说中的人物,大龟文的两个头目家族:逻伐尼耀家族(Ruvaniyaw)和鸠冷家族(Tjuleng)都视其为开创家族的始祖,不过各自的版本有所不同。在两个家族的版本中,普拉鲁样都被视为是太阳阿道(Kadawu)的后裔,不过各自的版本经历有所不同。鸠冷家族认为,阿道曾在Gaviyaqan山(位于屏东县泰武乡境内)上的一栋乳白色小房子里生下了两颗蛋,并放在房子里的一颗柱子后面生出一对兄妹,这对兄妹不仅是普拉鲁样的祖先,更是整个西排湾族的始祖。两兄妹