网络蜘蛛

✍ dations ◷ 2025-07-11 07:22:21 #网络蜘蛛
网络爬虫(英语:web crawler),也叫网络蜘蛛(spider),是一种用来自动浏览万维网的网络机器人。其目的一般为编纂网络索引(英语:Web indexing)。网络搜索引擎等站点通过爬虫软件更新自身的网站内容(英语:Web content)或其对其他网站的索引。网络爬虫可以将自己所访问的页面保存下来,以便搜索引擎事后生成索引(英语:Index (search engine))供用户搜索。爬虫访问网站的过程会消耗目标系统资源。不少网络系统并不默许爬虫工作。因此在访问大量页面时,爬虫需要考虑到规划、负载,还需要讲“礼貌”。 不愿意被爬虫访问、被爬虫主人知晓的公开站点可以使用robots.txt文件之类的方法避免访问。这个文件可以要求机器人(英语:Software agent)只对网站的一部分进行索引,或完全不作处理。互联网上的页面极多,即使是最大的爬虫系统也无法做出完整的索引。因此在公元2000年之前的万维网出现初期,搜索引擎经常找不到多少相关结果。现在的搜索引擎在这方面已经进步很多,能够即刻给出高质量结果。爬虫还可以验证超链接和HTML代码,用于网络抓取(英语:Web scraping)(参见数据驱动编程(英语:Data-driven programming))。网络爬虫也可称作网络蜘蛛、蚂蚁、自动索引程序(automatic indexer) ,或(在FOAF(英语:FOAF (software))软件中)称为网络疾走(web scutter)。网络爬虫始于一张被称作种子的统一资源地址(URL)列表。当网络爬虫访问这些统一资源定位器时,它们会甄别出页面上所有的超链接,并将它们写入一张“待访列表”,即所谓爬行疆域(英语:crawl frontier)。此疆域上的URL将会被按照一套策略循环来访问。如果爬虫在执行的过程中复制归档和保存网站上的信息,这些文件通常储存,使他们可以较容易的被查看。阅读和浏览他们存储的网站上并即时更新的信息,这些被存储的网页又被称为“快照”。越大容量的网页意味着网络爬虫只能在给予的时间内下载越少部分的网页,所以要优先考虑其下载。高变化率意味着网页可能已经被更新或者被取代。一些服务器端软件生成的URL(统一资源定位符)也使得网络爬虫很难避免检索到重复内容。但是互联网的资源卷帙浩繁,这也意味着网络爬虫只能在一定时间内下载有限数量的网页,因此它需要衡量优先级的下载方式。有时候网页出现、更新和消失的速度很快,也就是说网络爬虫下载的网页在几秒后就已经被修改或甚至删除了。这些都是网络爬虫设计师们所面临的两个问题。再者,服务器端软件所生成的统一资源地址数量庞大,以至网络爬虫难免也会采集到重复的内容。根据超文本传输协议,无尽组合的参数所返回的页面中,只有很少一部分确实传回正确的内容。例如:数张快照陈列室的网站,可能通过几个参数,让用户选择相关快照:其一是通过四种方法对快照排序,其二是关于快照分辨率的的三种选择,其三是两种文件格式,另加一个用户可否提供内容的选择,这样对于同样的结果会有48种(4*3*2)不同的统一资源地址与其关联。这种数学组合替网络爬虫造成了麻烦,因为它们必须越过这些无关脚本变化的组合,寻找不重复的内容。爬虫的实现由以下策略组成:爬虫可能只想搜索HTML页面而避免其他MIME 类型。为了只请求HTML资源,爬虫在抓取整个以GET方式请求的资源之前,通过创建HTTP的HEAD请求来决定网络资源的MIME类型。为了避免发出过多的请求,爬虫会检查URL和只请求那些以某些字符(如.html, .htm, .asp, .aspx, .php, .jsp, .jspx 或 / )作为后缀的URL。这个策略可能会跳过很多HTML网络资源。有些爬虫还能避免请求一些带有“?”的资源(动态生成)。为了避免掉入从网站下载无限量的URL的爬虫陷阱。不过假若网站重写URL以简化URL的目的,这个策略就变得不可靠了。爬虫通常使用某些URL规范化的方式以避免资源的重复爬取。URL规范化,指的是以某种一致的方式修改和标准化URL的过程。这个过程有各种各样的处理规则,包括统一转换为小写、移除“.”和“..”片段,以及在非空路径里插入斜杆。有些爬虫希望从指定的网站中尽可能地爬取资源。而路径上移爬虫就是为了能爬取每个URL里提示出的每个路径。 例如,给定一个Http的种子URL: http://llama.org/hamster/monkey/page.html ,要爬取 /hamster/monkey/ , /hamster/ 和 / 。Cothey发现路径能非常有效地爬取独立的资源,或以某种规律无法在站内链接爬取到的资源。对于爬虫来说,一个页面的重要性也可以说是,给定查询条件一个页面相似性能起到的作用。网络爬虫要下载相似的网页被称为主题爬虫或局部爬虫。这个主题爬虫或局部爬虫的概念第一次被Filippo Menczer 和 Soumen Chakrabarti 等人提出的。网站的属性之一就是经常动态变化,而爬取网站的一小部分往往需要花费几个星期或者几个月。等到网站爬虫完成它的爬取,很多事件也已经发生了,包括增加、更新和删除。 在搜索引擎的角度,因为没有检测这些变化,会导致存储了过期资源的代价。最常用的估价函数是新鲜度和过时性。 新鲜度:这是一个衡量抓取内容是不是准确的二元值。在时间t内,仓库中页面p的新鲜度是这样定义的:过时性:这是一个衡量本地已抓取的内容过时程度的指标。在时间t时,仓库中页面p的时效性的定义如下:爬虫相比于人,可以有更快的检索速度和更深的层次,所以,他们可能使一个站点瘫痪。不需要说一个单独的爬虫一秒钟要执行多条请求,下载大的文件。一个服务器也会很难响应多线程爬虫的请求。 就像Koster所注意的那样,爬虫的使用对很多任务作都是很有用的,但是对一般的社区,也需要付出代价。使用爬虫的代价包括:对这些问题的局部解决方法是漫游器排除协议(Robots exclusion protocol),也被称为robots.txt议定书,这份协议是让管理员指明网络服务器的不应该爬取的约定。这个标准没有包括重新访问一台服务器的间隔的建议,虽然设置访问间隔是避免服务器超载的最有效办法。最近的商业搜索引擎,如Google,Ask Jeeves,MSN和Yahoo可以在robots.txt中使用一个额外的 “Crawl-delay”参数来指明请求之间的延迟。一个并行爬虫是并行运行多个进程的爬虫。它的目标是最大化下载的速度,同时尽量减少并行的开销和下载重复的页面。为了避免下载一个页面两次,爬虫系统需要策略来处理爬虫运行时新发现的URL,因为同一个URL地址,可能被不同的爬虫进程抓到。

相关

  • 杆菌肽杆菌肽(bacitracin)是由枯草杆菌的变种“崔西”之地衣状菌素有机体所产生的相关环肽之混合物,在1945年首次分离出来。这些肽借由干扰"肽聚糖合成"及细胞壁而破坏革兰氏阳性菌及
  • 泰诺福韦替诺福韦二吡呋酯(英语:Tenofovir disoproxil),商品名韦瑞德(英语:Viread)惠立妥或其它,是一种用于治疗慢性乙肝以及预防和治疗HIV感染/艾滋病的药物。这种药物属于逆转录酶抑制剂,可
  • 吉尔波特症候群吉尔波特症候群(Gilbert's syndrome,简称GS)为一种常见的遗传性肝脏疾病,盛行率约3-12%。患者体内的非共轭性胆红素会显著提升,但没有明显并发症,患者可能会在运动后产生轻微黄疸
  • 核糖病毒域核糖病毒域(Riboviria)是指病毒的域,也是至2019年3月唯一被定义的病毒域。 核糖病毒域包含RNA病毒及类病毒等项目,但不包含逆转录病毒项目。 核糖病毒域名字的第一部分(ribo-)指
  • 生物性危害第四级生物性危害(英文:Biological hazard, Biohazard),又称为“生物危害”,指的是会对人类及动物有危害的生物或生物性物质。这些物质包括但不限于动物、植物、微生物、病毒及含有病原
  • 双清区双清区是中国湖南省邵阳市所辖的一个市辖区。总面积139.6平方公里,总人口25.4万人。双清区辖6个街道、2个镇、4个乡:兴隆街道、龙须塘街道、汽车站街道、小江湖街道、东风路街
  • 血液循环共振理论血液循环共振理论是一种关于人体血液循环的理论,由以台湾中央研究院物理所的王唯工教授(Wei-Kung Wang)为首等人所提出,认为此理论补足并解释了一些现代循环生理学(circular p
  • 奥米加三ω−3脂肪酸(Omega-3 fatty acids)又称n−3脂肪酸,是一类不饱和脂肪酸,其中最重要的3种为:ALA(存在于植物中的油),EPA和DHA(这二种发现存在于海洋动植物油中)。从脂肪酸分子中距离羧基
  • 氧化亚氮一氧化二氮或氧化亚氮(英语:Nitrous oxide),无色有甜味气体,又称笑气,是一种氧化剂,化学式N2O,在一定条件下能支持燃烧,但在室温下稳定,有轻微麻醉作用,其麻醉作用于1799年由英国化学家
  • 人类演化历程人类演化历程记录了人及其祖先在发展与演化过程中的重要事件,还包括对可能是人类祖先的物种的简要介绍。但其中并不包含生命起源的内容,只是描述从生命诞生直至演化为人类的可