Robots.txt

✍ dations ◷ 2025-06-28 06:19:27 #Robots.txt
robots.txt(统一小写)是一种存放于网站根目录下的ASCII编码的文本文件,它通常告诉网络搜索引擎的漫游器(又称网络蜘蛛),此网站中的哪些内容是不应被搜索引擎的漫游器获取的,哪些是可以被漫游器获取的。因为一些系统中的URL是大小写敏感的,所以robots.txt的文件名应统一为小写。robots.txt应放置于网站的根目录下。如果想单独定义搜索引擎的漫游器访问子目录时的行为,那么可以将自定的设置合并到根目录下的robots.txt,或者使用robots元数据(Metadata,又称元数据)。robots.txt协议并不是一个规范,而只是约定俗成的,所以并不能保证网站的隐私。注意robots.txt是用字符串比较来确定是否获取URL,所以目录末尾有与没有斜杠“/”表示的是不同的URL。robots.txt允许使用类似"Disallow: *.gif"这样的通配符。其他的影响搜索引擎的行为的方法包括使用robots元数据:这个协议也不是一个规范,而只是约定俗成的,有些搜索引擎会遵守这一规范,有些则不然。通常搜索引擎会识别这个元数据,不索引这个页面,以及这个页面的链出页面。允许所有的机器人:另一写法仅允许特定的机器人:(name_spider用真实名字代替)拦截所有的机器人:禁止所有机器人访问特定目录:仅禁止坏爬虫访问特定目录(BadBot用真实的名字代替):禁止所有机器人访问特定文件类型:Sitemap指令被几大搜索引擎支持(包括Google、Yahoo、Bing和Ask),指定了网站Sitemaps文件的位置。Sitemaps文件包含了网站页面所在的URL的一个列表。Sitemap指令并不受User-agent指令的限制,所以它可以放在robots.txt文件中的任意位置。 唯一要注意的就是要使用网站地图指令,<sitemap_location>,并将URL的"location"值换成网站地图的地址,例如,下面就是一个网站地图指令的例子:如何编写Sitemaps文件,请参考sitemaps.org(英文)上的说明。几大抓取工具支持Crawl-delay参数,设置为多少秒,以等待同服务器之间连续请求:一些大的Crawlers支持一项Allow指令,可以抵消先前Disallow指令。比如Googlebot。虽然robots.txt是最为广泛接受的方法,但也可以与robots META标签一起使用。robots META标签主要是针对一个独立的页面设置,与其他的META标签(如使用的语言、页面的描述、关键词等)一样,robots META标签也是放在页面的HEAD标签中,专门用来告诉搜索引擎robots如何抓取该页的内容。注

相关

  • 果实果实,是被子植物(也称显花植物)花的部分组织衍生成的生殖器官,通常在开花授粉之后,以受精的子房为主体而形成,其中包含有种子。植物借由果实来传播种子。其中有许多可供食用,人类或
  • 半透膜半透膜semi-permeable membrane,并不是选透膜selectively permeable membrane,半透膜根据分子/离子的物理特性,例如大小size,电荷charge决定是否可以通过。而物质通过渗透,被动转运
  • David Crystal大卫·克里斯托OBE FBA FLSW(英语:Fellow of the Learned Society of Wales)(英语:David Crystal,1941年7月6日-)是一位英国的语言学家、作家。他在1995年获得大英帝国勋章,并在2002
  • 队列研究世代研究(英语:cohort study 或 panel study),又译为队列研究、群组研究、定群研究、追踪研究、梯次研究等,是在医学、社会科学、精算学、生态学等领域中使用的一种纵向研究(英语:l
  • 阿拉贡语阿拉贡语(阿拉贡语:aragonés,)是印欧语系罗曼语族的语言之一,主要使用者为西班牙阿拉贡自治区北部地区的居民。阿拉贡语在当地口语中也称 fabla。
  • 观赏植物园艺植物指为了装饰而种植在花园、庭院或室内的可供观赏的植物。园艺植物的种植和培育是园艺学的重要组成部分。大多数的小型园艺植物的种植是出于美学的目的,如花卉、大叶植
  • 变元 (语法)论元(Argument),也称行动元(Actant)、项,不及物动词主语也称变元,在句法学上指句子当中具有指称功能、强制补充谓语语义的名词性成分。这些谓语往往指的是动词(V)及其助动词;名词性成
  • 斯的明类毒扁豆碱(Stigmine),音译为“斯的明”,是一类乙酰胆碱脂酶抑制剂(英语:acetylcholinesterase inhibitor)。其字尾皆为-stigmine,源自最早被发现会制造该类化合物的毒扁豆(Physos
  • 印度河平原印度河平原,面积26.6万平方公里。主要由印度河冲积而成,是印度文明的发源地。习惯上划分上、下印度河平原,以北纬29°线作为分界线。大部分地区现已沙化,形成了广阔的塔尔沙漠,印
  • span title=肌肉及骨骼系统 class=rt-commentedTextM/spanATC代码M(肌肉及骨骼系统)是解剖学治疗学及化学分类系统的一个分类,这是由世界卫生组织药物统计方法整合中心(The WHO Collaborating Centre for Drug Statistics Methodology)所