学习自动机(learning automaton)是一种1970年代就开始研究的机器学习算法。学习自动机是由对以往对环境的经验来选择目前的动作。若环境是随机性的,且使用了马可夫决策过程,则这种学习自动机属于强化学习的算法。
学习自动机的研究可以追溯到苏联的Michael Lvovitch Tsetlin(英语:Michael Lvovitch Tsetlin)在1960年代所做的研究。他和同事们发表了数篇论文,说明如何用矩阵来描述自动机功能。此外,Tsetlin也在研究合理及集体性的自动机行为,以及自动机游戏的。美国学者在1960年代也有探讨学习自动机。不过一直到1974年Narendra及Thathachar在一调查报告中才开始使用“learning automaton”此一名词。
学习自动机是在一随机环境下的适应性决策产生单元,可以根据和环境重复的互动来学习最佳的动作。动作是依照特定的几率分布来决定,而系统会依采取特定行动后的环境反应来更新几率分布。
在强化学习的领域中,学习自动机的特征是马可夫决策过程。政策迭代者会直接处理π,这点其他强化学习的算法不同。另一个政策迭代者的例子是演化算法(英语:evolutionary algorithm)。
形式上,Narendra和Thathachar用以下的方式定义随机自动机
在其论文中,只探讨=,也就是是双射的学习自动机,因此可能会混淆内部状态及动作。
自动机的状态是对应离散状态离散参数马尔可夫链的状态。在每一个时间点=0,1,2,3,...,自动机会从环境读取输入,用来将()更新为(+1),根据几率分布(+1)选择后续状态,并输出其动作,而环境会读取其动作,其结果就是下一个时间的环境输入。常常会选用输入集合 = { 0,1 },其中的0和1对应环境“不惩罚”及“惩罚”的反应。因此学习自动机的目的是使“惩罚”的反应的数量降到最低,这种自动机和环境之间的回授回路称为P-模型。而Q-模型允许是有限集合中的任意值,S-模型是允许为区间 中的实数为。
有限动作集学习自动机(Finite action-set learning automata、FALA)是可能动作数量有限的学习自动机,若用较数学的说法来表示,是动作集合大小为有限值的学习自动机。