首页 >
自然语言生成
✍ dations ◷ 2025-06-06 15:43:33 #自然语言生成
自然语言生成(NLG)是自然语言处理的一部分,从知识库或逻辑形式(英语:Logic Form (Linguistics))等等机器表述系统去生成自然语言。这种形式表述当作心理表述的模型时,心理语言学家会选用语言产出(英语:language production)这个术语。自然语言生成系统可以说是一种将资料转换成自然语言表述的翻译器。不过产生最终语言的方法不同于编译程式,因为自然语言多样的表达。NLG出现已久,但是商业NLG技术直到最近才变得普及。自然语言生成可以视为自然语言理解的反向: 自然语言理解系统须要厘清输入句的意涵,从而产生机器表述语言;自然语言生成系统须要决定如何把概念转化成语言。一个简单的例子是套用信函的生成系统。这种系统通常没有运用文法的知识,但是可以生成信函给消费者,例如告诉消费者信用卡的额度已达。换言之,简单的系统运用版型,跟Word文件的邮件合并程式没什么差别,但是更复杂的NLG系统会灵活地产生文本。正如自然语言处理的其它领域,自然语言生成可以使用明确的语言模型(例如文法)或者运用根据真人所写的文本分析而成的统计模型。“苏格兰花粉预报系统”就是一个基于版型的简单自然语言生成系统。该系统利用苏格兰几个区域花粉预报的六个输入数目,生成简短的花粉等级文本作为输出。例如使用2005年7月1日的历史资料,该软件的输出:星期五花粉等级已从昨天的中级到今天的高级,全国大部分地区的数值在6到7。不过北部是中级,数值为4。对比实际的预报(气象员手拟)如下:苏格兰大部分地区花粉量还是很高,为6级,东南部更是7级。只有北方岛屿及苏格兰东北角情况舒缓,花粉量中等。生成文本的过程可以简单到取用已准备好的章句,再用连结的文字组合起来。在简单的领域如占星机器或个人化商业信件,成果可能令人满意。不过复杂的自然语言生成系统必须经过规划以及合并资讯的步骤,从而生成看似自然并且避免重复的文本。自然语言生成典型的步骤,例如戴尔与瑞特所提出的如下:决定内容(英语:Content determination):决定在文本里置入哪些资讯。用上一节花粉预报软件为例,是否要明确提到东南部花粉级数为7。架构文件(英语:Document structuring):所传达资讯的整体组织。例如决定先描述高花粉量地区,再提及低花粉量地区。聚集语句(英语:Aggregation (linguistics)):合并类似的句子,让文本更可读、更自然。例如合并下两个句子“星期五花粉等级已从昨天的中级到今天的高级”和“全国大部分地区的花粉等级在6到7”成为“星期五花粉等级已从昨天的中级到今天的高级,全国大部分地区的数值在6到7。”选择字词(英语:Lexical choice):选用表达概念的文字。例如决定要用“中等”还是“中级”。指涉语生成(英语:Referring expression generation):产生能辨认物体或地区的指涉语(英语:referring expression (RE))。例如用“北方岛屿和苏格兰东北角”指涉苏格兰的某个地区。这个任务也包括决定代名词以及其它的照应语(英语:Anaphora (linguistics))。实现文本(英语:realization (linguistics)):根据语法学、构词学、正写法的规则产生实际的文本。大众媒体向来以报导会说笑话的NLG系统为重点(参见“计算幽默(英语:computational humor)”),不过从商业的角度,最成功的NLG应用是从数据库或资料集产生文字摘要的“资料转文本”系统,这些系统通常除了文字生成外,也进行资料分析,特别是几个已经建成的从气象资料产生气象报告文的系统。此类系统最早是加拿大的FoG,于1990年代开始制作英、法语的气象报告,其成功引领了其它研究和商业系统。近年的一个研究显示,使用者有时候偏好电脑产生的气象报告,因为使用的术语比较一致。另一个研究显示统计的技巧可以用来生成高品质的气象报告。1990年代自然语言生成开始用于财金和商业摘要。例如AC尼尔森研发的SPOTLIGHT系统,分析大量零售资料然后自动产生可读的英文。更近的NLG也用于摘要电子医疗记录,已有商业应用问世,研究人员已显示NLG摘要的医疗资料可以有效辅助医疗专业人员做决定。内容生成系统可以辅助真人作者,让写作过程更有效率。例如利用搜索引擎应用界面,基于网络探勘(英语:web mining)建立的内容生成工具,模拟作者根据各种搜寻结果形成内容,有如剪贴的写作场景。相关度的验证,对于过滤不相关的搜寻结果至为重要,方法基于匹配问题与可能答案的语法树。另一种方法利用真人写的文本建立高层次结构的版型,然后自动写成维基百科新的条目。自然语言生成的研究人员需要测试他们的系统、模组、算法,一如其它的科学领域。这叫做“评量”。评量NLG系统的基本技巧有三种:“任务型评量”虽然较接近NLG系统助人的终极目标,但是费时耗财,而且可能实行困难(尤其涉及医生之类的专家对象),因此(一如自然语言处理的其它领域)“任务型评量”是例外而非主流。
相关
- 巴统巴统 (格鲁吉亚语:ბათუმი,拉丁化:Batumi),为格鲁吉亚西南部的阿扎尔自治共和国首府,位于黑海之滨,为当地著名的旅游胜地。2002年人口121,806。巴统是格鲁吉亚重要的港口和商业
- 西罗马帝国西罗马帝国是罗马帝国于286年被戴克里先分为两部分后把政权一分为二建立四帝共治制从而开始有的东西两部的概念,位处西部的部分即是最后分裂的西罗马帝国;而东部最后则成为东
- 劳动部劳动及职业安全卫生研究所劳动部劳动及职业安全卫生研究所(简称劳安所)为中华民国劳动部的所属机构;是台湾唯一研究劳动政策和职业安全卫生的政府机关。可乘坐 板南线捷运,达终点站南港展览馆站(6号出口)
- 尼波斯科尔奈利乌斯·奈波斯(拉丁语:Cornelius Nepos,约100 BC-约25 BC,或译康涅利乌斯·尼波斯)是古罗马的传记作家。出生于山南高卢的小镇荷斯提利亚(Hostilia,今奥斯蒂利亚)。对其高卢血
- 水蛭素水蛭素(英语:Hirudin)从水蛭唾液中提取得到的一种含有65个氨基酸残基和3对二硫键的多肽,分子质量为7千道尔顿,水蛭素对凝血酶的抑制作用有着高度特异与高效性,可直接抑制凝血酶,阻
- bspan style=color:yellow;②/span/b阿克罗蒂里和泽凯利亚主权基地区(英语:Sovereign Base Areas of Akrotiri and Dhekelia)是两个位于地中海极东部岛屿塞浦路斯上的英国特殊属地,共同组成了主权基地区,其中阿克罗
- Fe(ClOsub4/sub)sub3/sub高氯酸铁是一种无机化合物,化学式为Fe(ClO4)3,为氧化剂。它的水合物存在六水、九水和十水合物,其中,九水合物的结构可表示为(ClO4)3·3H2O。高氯酸铁易溶于水,其溶液在0.01mol·L
- 骷髅之舞《骷髅之舞》(法语:Danse Macabre),作品40,又名《死之舞》,是法国作曲家圣桑的管弦乐作品。此曲本源自1872年的一首艺术歌曲,1874年将原曲改成为管弦乐作品,并于1875年1月24日于巴黎
- 曼尼普尔语曼尼普尔语,又称梅泰语(Meitei-lon/ꯃꯤꯇꯩ ꯂꯣꯟ;又名Meitei-lol/ꯃꯤꯇꯩ ꯂꯣꯟ、pangal-lol或Manipuri/মনিপুরি,又或Meithei/মেইথেই)是印度东北部喜马拉雅山
- 花样游泳花样游泳(artistic swimming),即包含游泳、体操和芭蕾等各种技巧糅合而成的具备舞蹈表演和艺术造型的游泳类项目之一,该运动项目同时需要足够的身体基本素质、力量和舞蹈技巧。