语意分析

✍ dations ◷ 2025-07-11 20:48:13 #语意分析

语意分析(semantic analysis)技术是指将一长串的文字或内容,从其中分析出该个段落的摘要以及大意,甚至更进一步,将整篇文章的文意整理出来。此项技术可以应用在解读影片、音讯等档案,使得搜索引擎能够搜寻到文字以外的物件,方便使用者省去大量时间观看影片、聆听音讯,同时也可以帮助使用者提前了解影片与音讯的内容。

语意分析技术在早期基于奇异值分解(Singular Value Decomposition, SVD)、非负矩阵拆解法(Non-negative matrix factorization,NMF)等方式,近年来则有用各种型态的类神经网络(Neural Network, NN)来完成语意分析的目的。

在线性代数的领域里,奇异值分解(SVD)将一个大的矩阵拆解成三个小的矩阵。

正常的情况下,将奇异值分解(Singular Value Decompositiob, SVD)套用在一个×复数矩阵'mmmn的转置矩阵')则是一个×复数幺正矩阵。在对角矩阵中,Σ, of Σ便是所谓的M的奇异值(singular value)。而U的m栏则被称做是M的左奇异向量(left-singular vectors),V的n栏则被称做是M的右奇异向量(right-singular vectors)。

奇异值分解与特征分解(eigendecomposition)实现息息相关,具体如下:

透过SVD便可以将一个矩阵拆解成R(非负奇异值之数量)种不同的矩阵,每一种矩阵分别代表一种主题(topic),而相对应的奇异值越大则代表此种主题与原本的矩阵所代表的主题较为相关,越小则越非相关,由此我们可以得到简单的语意分析。

由于透过奇异值分解(Singular Value Decompositiob, SVD) 存在一些缺点,因此使用非负矩阵拆解法(Non-negative matrix factorization,NMF)来得到更好的效果,首先,由于奇异值分解(Singular Value Decompositiob, SVD)所得到的左奇异向量(left-singular vectors)与右奇异向量(right-singular vectors)并无法保证皆为非负之数值,因此在衡量相关性上,负数可能并没有直观的物理意义。同时透过奇异值分解(Singular Value Decompositiob, SVD) 所产生的三个矩阵,在选择过滤掉一些较小的奇异值后,在重新组合回来,会直接失去这些资讯,太过于武断、直接的拆解方式,可能会导致部分讯息也因此而被移除了。因此使用非负矩阵拆解法(Non-negative matrix factorization,NMF)便能解决上述两个问题。非负矩阵拆解法(Non-negative matrix factorization,NMF)将×的原始矩阵V拆解为×的W与×的H,其中的d便为给定的数值。与奇异值分解(Singular Value Decompositiob, SVD)的差别在于,非负矩阵拆解法(Non-negative matrix factorization,NMF)可以自订分类的多寡,而将整个矩阵完整的分配到d种主题之中(topic),不若前者,若要取得d种主题,便会直接选取前d大的奇异值,将矩阵还原回来。而是将其妥善分配至各个主题中,使得最后的结果较为完整。

类神经网络系以一张有方向性的图论模拟人类神经细胞之间的沟通关系。人类神经细胞从输入到输出,主要有三个部分,第一个部分为树突,乃神经接受另一神经之讯号的所在之处,而神经本体则综合输入讯号之后产生一个输出讯号,透过轴突将讯号往外传出。这样的架构,可以透过矩阵的建置来模拟出神经连结的情形。同时,透过建置矩阵模拟各个神经结之间相连的关系,透过给订的输入与输出作为测资,不断的优化各个节点之间的关系,直到输入与输出能够互相吻合,达到此目标的类神经网络模型便可作为一个语意分析器,只要输入待测的资料,便可以得到一个系统分析之后预测的结果。相较于前述两种方法,类神经网络(Neural Network, NN)通常都可以得到较佳的结果。相关的理论自1980年便已经被提出,不过直至2010年后,硬件运算速度才足以在使用者可接受的时间内,产生出一个完整的结果,才使得类神经网络(Neural Network, NN)开始蓬勃发展,同时也逐渐有些成果开花结果。

自动编码器(Autoencoder)为类神经网络(Neural Network, NN)的其中一种应用,目标在将大量的资量压缩、分配至较小维度的向量之中。一般的类神经网络(Neural Network, NN)需要确切的输出与输入才能建立出完整的类神经网络(Neural Network, NN),因此常需要花大量的成本在建立足够量的训练用测资,而自动编码器(Autoencoder)在训练用测资的要求简单的许多,由于其目标之特性是将大量的资量压缩、分配至较小维度的向量,其输入与输出可以使用同一份资料,而在隐藏层(hidden layers)中,一层接着一层,逐渐缩小每个隐藏层(hidden layers)的层级数,直到需要的d种分类后,再逐渐扩展每个隐藏层(hidden layers)的维度,直到最后输出与原本训练用测资的维度。当经过足够次数的循环后,必可以得到一个模型,使得输入资料与输出资料差异不大,此时,只要将前半段,输入端至d维的隐藏层(hidden layers)切开并独立出来,这份模型便可以作为语意分析器。

有鉴于社群平台的兴盛,影片、声音等多媒体资讯逐渐成为网络上常见的档案形式,如何用低成本的方式解读其中所拥有的资讯在未来会是一个日益重要的议题。传统上,若要能够提前理解一段声音中所拥有的资讯,往往需要使用高成本人力事先解读整段音讯后,在将其所见所闻转换为文字档,在影片、声音等多媒体资讯日益兴盛的现代,如此高成本的建置方式早已不敷使用。因此语意分析绝对有其必要性。

而在人机界面上,装置能够解读人类的讯息,并做出相对应的决策,亦可以增加人机之间沟通的效率。

自动摘要:语意分析技术可找出文章中的重要字词、摘要,让人能短时间快速了解内文。

以文找文:语意分析能透过文章中的重要、关键字词,进而并找出相关文章,Google新闻把相关性、类似的文章聚集,便是利用语意分析的技术。

广告信侦测:以 Gmail 为例,语意分析能判断一封信中是否包含广告信的常用字词,协助信箱进行筛选。

意见分析与情感分析:根据提到相关企业或产品的文章进行分析,筛选通篇文里的正负面字词,分析企业在网络上的口碑、评价,分析网友的观点与情感。这项功能也能运用在企业客服中,侦测消费者的抱怨内容。

写作辅助:机器与人工能共同创作,语意分析技术能帮忙选词、校正文法。

电脑问答:如同 Siri,语意分析可应用在人工智能对话,协助使用者利用问答的方式找寻所需的资讯。

文本标记/分类:过去研究单位在处理大量文本资料时,必须雇请大量的人力进行标记、分类,才能进行分析,但随着资料处理的技术不断革新,现在借由机器学习、深度学习等,透过模型训练后,自动对每篇文章分类、标记出其属性词汇。

相关

  • 乔治·米勒乔治·米勒 (英语:George Miller,1945年3月3日-)是一名澳洲导演、监制和编剧,以前是一名医生。其代表作有《疯狂的麦克斯》系列、1990年代的《小猪宝贝》、2006年的《快乐的大脚》
  • 芥酸芥酸(英语:erucic acid,也称为油菜酸)是一种顺式Ω-9单不饱和脂肪酸(22:1ω9)化学式CH3(CH2)7CH=CH(CH2)11COOH,在糖芥、欧洲油菜等的种子油中占一定比重。不饱和脂肪酸
  • 饼在中文中被用来指很多种形状扁平的食品,包括:饼也有一些非食品的含义:
  • 阿拉姆语阿拉姆语(帝国亚拉姆语:ܐܪܡܝܐ‎;汉译为亚拉姆语、亞蘭語、阿拉姆語、阿拉米语、阿拉美语或阿辣米语,下称阿拉姆语)是闪米特语族(闪族)的一种语言,与希伯来语和阿拉伯语相近。阿
  • M.I.A.马森吉·“玛雅”·阿拉尔普瑞盖萨姆,MBE(本名:Mathangi "Maya" Arulpragasam,泰米尔语:மாதங்கி 'மாயா' அருள்பிரகாசம்,1975年7月18日-),艺名M.I.A.,英国创作
  • 萨帕塔沼泽萨帕塔沼泽是古巴的沼泽,位于萨帕塔半岛,距离首都哈瓦那少于150公里,由马坦萨斯省负责管辖,长175公里、宽58公里,面积4,354平方公里,是175种鸟类、31种爬虫类动物和超过1,000种无
  • 人间失格《人间失格》是日本小说家太宰治的中篇小说,是与《跑吧!梅乐斯》、《斜阳》并列的太宰治代表作之一,1948年在杂志《展望》上作为全三回的连载小说发表。同年5月12日完稿。日文
  • 公廨田公廨田,隋唐时期由国家授给京内外各官署的公田,所收地租供官府公用。公廨田源于北魏太和年间的职分田制度。隋文帝开皇九年(589年),诏给外官公廨田,其名由此始。除职分田外,分配给
  • 人类发展指数

    人类发展指数(英语:Human Development Index,缩写为HDI),是联合国开发计划署从1990年开始发布的一个指数,用以衡量各国社会经济发展程度的标准,

  • 金珉基 (2002年)金珉基(韩文:김민기 / Kim Min-gi,2002年11月22日-),韩国男演员,2020年出演网剧《语言的温度:我们的19岁》正式出道,目前为HM娱乐旗下艺人我们的19岁