欢迎光临 姜项项个人博客  愿你一生温暖纯良,不舍爱与自由

梦真是个可怕的东西,总是在你毫无防备的时候,让你记起你你费经心思想要忘记的人。---By:姜项项

网站的robots.txt写法以及使用方法

姜项项个人博客 https://www.jsysxx.com 2020-07-28 17:17 出处:网络 编辑:@姜项项
  我们先来了解一下什么是robots.txt?   搜索引擎使用spider程序自动访问互联网上的网页并获取网页信息。spider在访问一个网站时,会首先会检查该网站的根域下是否有一个叫做robots.txt的纯文本文件。您可以在

  我们先来了解一下什么是robots.txt?


  搜索引擎使用spider程序自动访问互联网上的网页并获取网页信息。spider在访问一个网站时,会首先会检查该网站的根域下是否有一个叫做robots.txt的纯文本文件。您可以在您的网站中创建一个纯文本文件robots.txt,在文件中声明该网站中不想被robot访问的部分或者指定搜索引擎只收录特定的部分。


  请注意,仅当您的网站包含不希望被搜索引擎收录的内容时,才需要使用robots.txt文件。如果您希望搜索引擎收录网站上所有内容,请勿建立robots.txt文件或者创建一个内容为空的robots.txt文件。


  robots.txt 放置位置


  robots.txt文件应该放置在网站根目录下。举例来说,当spider访问一个网站(比如http://www.*****.com)时,首先会检查该网站中是否存在http://www.*****.com/robots.txt这个文件,如果 Spider找到这个文件,它就会根据这个文件的内容,来确定它访问权限的范围。


  robots.txt 格式


  文件包含一条或更多的记录,这些记录通过空行分开(以CR,CR/NL, or NL作为结束符),每一条记录的格式如下所示:”:”。在该文件中可以使用#进行注解。该文件中的记录通常以一行或多行User-agent开始,后面加上若干Disallow和Allow行,详细情况如下。


  User-agent:


  该项的值用于描述搜索引擎robot的名字。在”robots.txt”文件中,如果有多条User-agent记录说明有多个robot会受到”robots.txt”的限制,对该文件来说,至少要有一条User-agent记录。 如果该项的值设为*,则对任何robot均有效,在”robots.txt”文件中,”User-agent:*”这样的记录只能有一条。如果在”robots.txt”文件中,加入”User- agent:SomeBot”和若干Disallow、Allow行,那么名为”SomeBot”只受到”User-agent:SomeBot”后面的 Disallow和Allow行的限制。 Disallow: 该项的值用于描述不希望被访问的一组URL,这个值可以是一条完整的路径,也可以是路径的非空前缀,以Disallow项的值开头的URL不会被robot访问。例 如”Disallow: /help”禁止robot访问/help*.html、/help/index.html, 而”Disallow: /help/”则允许robot访问/help*.html,不能访问/help/index.html。


  "Disallow:"说明允许robot访问该网站的所有url,在”/robots.txt”文件中,至少要有一条Disallow记录。如果”/robots.txt”不存在或者为空文件,则对于所有的搜索引擎robot,该网站都是开放的。


  Allow:


  该项的值用于描述希望被访问的一组URL,与Disallow项相似,这个值可以是一条完整的路径,也可以是路径的前缀,以Allow项的值开头的URL是允许robot访问的。例如”Allow:/hibaidu”允许robot访问/hibaidu.htm、/hibaiducom.html、 /hibaidu/com.html。一个网站的所有URL默认是Allow的,所以Allow通常与Disallow搭配使用,实现允许访问一部分网页同时禁止访问其它所有URL的功能。


  需要特别注意的是Disallow与Allow行的顺序是有意义的,robot会根据第一个匹配成功的 Allow或Disallow行确定是否访问某个URL。


  使用”*”和”$”: Baiduspider 支持使用通配符”*”和”$”来模糊匹配url。 “$” 匹配行结束符。 “*” 匹配0或多个任意字符。


  robots.txt文件用法举例:


  1. 允许所有的robot访问


  User-agent: * Allow: / 或者 User-agent: * Disallow:


  2. 禁止所有搜索引擎访问网站的任何部分


  User-agent: *


  Disallow: /


  3. 仅禁止Baiduspider访问您的网站


  User-agent: Baiduspider


  Disallow: /


  4. 仅允许Baiduspider访问您的网站


  User-agent: Baiduspider


  Disallow:


  5. 禁止spider访问特定目录


  User-agent: *


  Disallow: /cgi-bin/


  Disallow: /tmp/


  Disallow: /~joe/


  6. 允许访问特定目录中的部分url


  User-agent: *


  Allow: /cgi-bin/see


  Allow: /tmp/hi


  Allow: /~joe/look


  Disallow: /cgi-bin/


  Disallow: /tmp/


  Disallow: /~joe/


  7. 使用”*”限制访问url


  禁止访问/cgi-bin/目录下的所有以”.htm”为后缀的URL(包含子目录)。


  User-agent: *


  Disallow: /cgi-bin/*.htm


  8. 使用”$”限制访问url


  仅允许访问以”.htm”为后缀的URL。


  User-agent: *


  Allow: .htm$


  Disallow: /


  例9. 禁止访问网站中所有的动态页面


  User-agent: *


  Disallow: /*?*


  10. 禁止Baiduspider抓取网站上所有图片


  仅允许抓取网页,禁止抓取任何图片。


  User-agent: Baiduspider


  Disallow: .jpg$


  Disallow: .jpeg$


  Disallow: .gif$


  Disallow: .png$


  Disallow: .bmp$


  11. 仅允许Baiduspider抓取网页和.gif格式图片


  允许抓取网页和gif格式图片,不允许抓取其他格式图片


  User-agent: Baiduspider


  Allow: .gif$


  Disallow: .jpg$


  Disallow: .jpeg$


  Disallow: .png$


  Disallow: .bmp$


  12. 仅禁止Baiduspider抓取.jpg格式图片


  User-agent: Baiduspider


  Disallow: .jpg$


0

精彩评论

暂无评论...
验证码 换一张
取 消