沃森 (人工智能程序)

✍ dations ◷ 2025-08-01 05:54:36 #沃森 (人工智能程序)

沃森(英语:Watson)是能够使用自然语言来回答问题的人工智能系统,由IBM公司的首席研究员大卫·费鲁奇(英语:David Ferrucci)所领导的DeepQA计划小组开发并以该公司创始人托马斯·J·沃森的名字命名。

2011年,沃森参加综艺节目《危险边缘》来测试它的能力,这是该节目有史以来第一次人与机器对决。2月14日至16日广播的3集节目中,沃森在前两轮中与对手打平,而在最后一集里,沃森打败了最高奖金得主布拉德·鲁特尔(英语:Brad Rutter)和连胜纪录保持者肯·詹宁斯。沃森赢得了第一笔奖金100万美元,而肯·詹宁斯和布拉德·鲁特尔分别只有30万和20万。赛后,詹宁斯和鲁特表示将一半奖金用于慈善事业,IBM公司也将沃森的奖金分给了两家慈善机构。

沃森在比赛节目中按下信号灯的速度始终比人类选手要快,但在个别问题上反映困难,尤其是只包含很少提示的问题。对于每一个问题,沃森会在屏幕上显示3个最有可能的答案。沃森4TB磁盘内,包含2亿页结构化和非结构化的信息,包括维基百科的全文。在比赛中沃森没有链接到互联网。

沃森是IBM制造的电脑问答(Q&A)系统。 IBM介绍时说“它是一个集高级自然语言处理、消息检索、知识表示、自动推理、机器学习等开放式问答技术的应用”,并且“基于为假设认知和大规模的证据搜集、分析、评价而开发的DeepQA技术”。

根据IBM的说法:

沃森是一台专为复杂分析而优化设计的系统,集成大规模并行处理器POWER7(英语:POWER7)和IBM DeepQA软件使其能在3秒内回答危险边缘的问题成为可能。沃森是由90台IBM Power 750服务器(还包括10个机柜里额外的输入输出端口、网络和集群控制器节点)组成的集群服务器,共计2880颗POWER7处理器核心以及16TB内存。每台Power 750服务器使用一个3.5GHz、8核心,每核心4线程的POWER7处理器。只有POWER7处理器强大的并行计算能力才能勉强运行沃森安装的IBM DeepQA软件。

John Rennie说,沃森每秒可以处理500GB的数据,相当于1秒阅读100万本书。 IBM研发负责人和高级顾问Tony Pearson估计沃森的硬件花费近300万美元,其80 TeraFLOPs的处理能力在超级电脑世界500强排名第94,在超级电脑世界50强排名第49。 Rennie还说,比赛的数据是存放在沃森的内存中的,因为硬盘的访问速度太慢了。

沃森的软件由数种不同语言写成,包含Java、C++和Prolog等,并且采用Apache Hadoop框架做分布式计算,还有Apache UIMA(Unstructured Information Management Architecture)框架、IBM DeepQA软件和SUSE Linux Enterprise Server 11 操作系统。“……超过100项不同的技术被用在自然语言分析、来源识别、寻找并生成假设、挖掘证据以及合并推翻假设。”

沃森的信息来源包括百科全书、字典、词典、新闻和文学作品。沃森也使用数据库、分类学和本体论。特别是DBpedia, WordNet,和Yago(英语:YAGO (database))。

IBM小组为沃森提供数百万的文档,其中包括字典、百科全书和其他能创建知识库的参考材料。尽管沃森在比赛中没有链接互联网,它4TB的磁盘上仍有2亿页结构化和非结构化的信息供其使用,其中包括了维基百科的全文。

危险边缘游戏中,所有选手(也包括沃森),必须等到主持人将每个线索念完,然后就绪灯亮起,第一个按下抢答器按钮的人可以获得回答问题的机会。沃森像接收电子文本一样得到这些线索的同时这些线索也显示给人类选手。然后它会将这些线索解析为不同的关键字和句子片段,这样做是为了查找统计相关词组。沃森最革新的并不是在于全新的操作算法,而是能够快速同时运行上千的证明语言分析算法来寻找正确的答案。算法找出的相同答案越多,沃森就越肯定答案正确。一旦沃森发现一个潜在的解决方法,并且这个解决方法有效,它就会核对数据库来确定答案。在前20个问题中,人类选手抢答平均需要6~7秒,而沃森视听到线索来决定是否抢答。在这段时间内,沃森还必须评价反应和判断对答案是否自信十足。在危险边缘比赛获取胜利的部分系统是用来接收“就绪”信号和检查沃森是否有足够的信心去按响抢答器的电路系统。由于电子信号传递速度比人类反应速度快许多,沃森的反应明显比人类选手要快,但是人类选手会对就绪信号灯亮起的时刻作出预测。拿到抢答权后,沃森将答案按危险边缘的格式整理并用电子语音读出。沃森的语音是演员杰夫·伍德曼(Jeff Woodman)录制的,他参与了2004年IBM语音合成项目。

沃森的基本工作原则是解析线索中的关键字同时寻找相关术语作为回应。这使得沃森与人类选手既有优势又有劣势:沃森不擅长理解线索之间的关联。所以人类选手通常比沃森更快生成思路,尤其当线索很少的的时候。沃森的程序不允许其使用在未确定答案前就按响抢答器这种大众化战术。一旦生成了答案沃森就会迅速反应,按下抢答器,而不会受到人类选手的心理战术影响。

危险边缘的工作人员使用了不同的手段来显示沃森和人类选手按下抢答器的状态,但是却一直备受争议。人类选手用的是一盏灯,他们需要0.1秒的时间来反应。而沃森使用的是电子信号,能在8毫秒内(0.008秒)激活抢答器。人类选手尝试要求补偿知觉延迟造成的误差,但两者之间的反应时间差依旧是太大了。因为沃森并不需要估算就绪信号何时到达。

相关

  • 弗朗索瓦·库普兰弗朗索瓦·库普兰(法语:François Couperin,1668年11月10日-1733年9月12日),法国著名的音乐家族库普兰家族成员,作曲家路易·库普兰的侄子,巴洛克时期著名作曲家,也是最伟大的羽管键
  • 华沙大学坐标:52°14′25″N 21°1′9″E / 52.24028°N 21.01917°E / 52.24028; 21.01917华沙大学(波兰语:Uniwersytet Warszawski),波兰最大的大学,被《泰晤士高等教育》于2006年评为世
  • A440A440是440赫兹的声音音调,西方音乐上,此音为标准音高。西方乐理中,A440乃是中央C上方的A音符(参照A4)。1939年,一个国际会议提出,把中央C上方的A定为440赫兹。到了1955年,国际标准化
  • 皮尔瓦尼山 (科拉尼区)坐标:13°48′45″S 70°39′47″W / 13.81250°S 70.66306°W / -13.81250; -70.66306皮尔瓦尼山(Pirhuani),是秘鲁的山峰,位于该国东南部普诺大区,由卡拉瓦亚省的科拉尼区负责管
  • 水木茂远野物语水木茂远野物语(水木しげるの遠野物語,みずきしげるのとおのものがたり)是基于柳田国男原著的远野物语,原画水木茂所画的日本的漫画作品。于小学馆的Big Comic2008年14号至2009
  • 澳大利亚影艺学院国际奖最佳剧本澳大利亚影艺学院国际奖最佳剧本(AACTA International Award for Best Screenplay)是澳大利亚影艺学院每年颁发的奖项,表扬每年出色的国际电影原创、或改编剧本(即澳大利亚以外
  • 杜春丰杜春丰(越南语:Đỗ Xuân Phong/.mw-parser-output .han-nom{font-family:"Nom Na Tong","Han-Nom Gothic","Han-Nom Ming","HAN NOM A","HAN NOM B","Ming-Lt-HKSCS-UNI-H","
  • 新报 (俄罗斯)《新报》(俄语:Новая газета,罗马化:),是俄罗斯一份知名全国性报纸,以其对政府的批评而著称。报纸在俄罗斯全境以及部分境外地区发行。目前,该报每周一、周三、周五出版。从2001年到至今,该报共有6位该报记者被杀害。俄罗斯《新报》自1993年成立以来,其报社及所属记者曾遭受多次袭击,并从2000年以来,共有6位该报记者因工作原因被杀害,而他们的黑白肖像至今依被挂在报社的办公室作为悼念。在2006年,该报记者安娜·波利特科夫斯卡娅(Anna Politkovskaya)在她莫斯科公寓大楼的门前被枪
  • 2010年乌克兰总统选举尤申科我们的乌克兰亚努科维奇地区党2010年乌克兰总统选举是乌克兰1991年从前苏联独立后的第五次总统选举。第一轮选举于2010年1月17日举行,反对党领袖季莫申科和总理亚努科维奇是得票数最多的两位候选人,因此进入了于2010年2月7日举行的第二轮选举。在2月14日,亚努科维奇获得了48.95%的选票,从而赢得了2010年的乌克兰总统选举。按照乌克兰宪法第104条规定(英语:s:Constitution of Ukraine#Article 104),当选总统应在乌克兰国会宣布官方正式选举结果后30天内宣
  • 旱魃旱魃(或称魃)是中国神话中的妖怪,更是一种与旱灾有关的传说生物。关于旱魃的来历有数种说法。最早的描述见于《诗经》:“旱魃为虐,如惔如焚”。《山海经》有女魃导致旱灾的记载。在日语中,“旱魃”一词即代表干旱之意。汉代以后,关于旱魃的传说逐渐增加,而形象也各不相同。如《神异经》之记载,旱魃的形象为“长三四尺,袒身,两目顶上,行走如风,名曰魃”;宋人朱彧在《萍州可谈》中,把旱魃说成是妇女生出的妖怪。此外,汉代董仲舒所著之《春秋繁露·求雨》中,提到旱魃乃死者的骨骸而成。到了明清时期,旱魃为僵尸的说法被广泛接受。在袁