Robots协议文件怎么写?robots文件放在哪里?
日期:2024-02-29 作者:攻硬营销
		Robots协议也叫robots.txt(统一小写)是一种存放于网站根目录下的ASCII编码的文本文件,它通常告诉网络搜索引擎的漫游器(又称网络蜘蛛),此网站中的哪些内容是不应被搜索引擎的漫游器获取的,哪些是可以被漫游器获取的。因为一些系统中的URL是大小写敏感的,所以robots.txt的文件名应统一为小写。robots.txt应放置于网站的根目录下。如果想单独定义搜索引擎的漫游器访问子目录时的行为,那么可以将自定的设置合并到根目录下的robots.txt,或者使用robots元数据(Metadata,又称元数据)。
	
		Robots协议中的语法属性解释:
	User-agent: *   定义所有搜索引擎
	Allow:  允许
	Disallow: 禁止
	User-agent:  定义搜索引擎
	*      代表所有*是一个通配符。
	$     结束
	/        代表根目录或一个文件夹
	Disallow: /     禁止抓取网站的所有内容
	Disallow: /admin/     禁止爬寻admin目录下面的目录。
	Disallow: /*?*        禁止访问网站中所有包含问号 (?) 的网址。
	Disallow: /*.jpg$     禁止抓取网页所有的jpg格式的图片。
	Disallow: /plus/          屏敝插件
	Disallow: /Baiduspider    禁止百度蜘蛛
	Disallow: /include        禁止以include开头的文件和这个文件夹的所有内容
	Disallow: /include/       禁止这个文件夹,不能访问include/aaa.html  能访问include.html和includeaaa.html
	Allow: /include/data/     允许抓取这个文件
	Sitemap: /sitemap.html    告诉爬虫这个页面是网站地图。
	Robots协议常见的写法:
	1、禁止所有搜索引擎访问网站所有内容
	User-agent: *
	Disallow: /
	2、禁止百度搜索引擎访问网站所有内容
	User-agent: Baiduspider
	Disallow: /
	3、允许所有搜索引擎访问网站所有内容
	User-agent: *
	Allow: /
	4、允许所有搜索引擎访问抓取动态页面内容
	User-agent: *
	Allow: /*?*
	5、不允许所有搜索引擎访问抓取动态页面内容
	User-agent: *
	Disallow: /*?*
	6、禁止访问后台程序
	User-agent: *
	Disallow: /wp-*
	7、网站地图:Sitemap:
	Robots协议操作步骤:
	1、建立一个robots.txt记事本文档。
	2、写好robots中不允许抓取的内容。
	3、上传到程序的根目录。
	写Robots协议必须遵守的格式:
	第一个字母都是大写的。
	:是英文状态下的帽号,帽号的后面要有一个空格。
	以下是攻硬营销SEO网站上robots.txt的示例:http://www.kelaiseo.com/robots.txt
	User-agent: * 【允许所有搜索引擎访问网站所有内容】
	Disallow: /plus/ad_js.php【禁止访问 /plus/ad_js.php这个文件夹的所有内容】
	Disallow: /plus/advancedsearch.php
	Disallow: /plus/car.php
	Disallow: /plus/carbuyaction.php
	Disallow: /plus/shops_buyaction.php
	Disallow: /plus/erraddsave.php
	Disallow: /plus/posttocar.php
	Disallow: /plus/disdls.php
	Disallow: /plus/feedback_js.php
	Disallow: /plus/mytag_js.php
	Disallow: /plus/rss.php
	Disallow: /plus/search.php
	Disallow: /plus/recommend.php
	Disallow: /plus/stow.php
	Disallow: /plus/count.php
	Disallow: /include
	Disallow: /templets
	Sitemap: 
	Robots协议要注意的事项:
	1、不能直接屏蔽搜索引擎对整个网站站抓取。一屏蔽蜘蛛有可能1-2个月都不来抓取。
	2、首字母用英文状态下的大写 :号要在英文状态下写入, :号后面一定要有一个空格!
	3、不要过度地屏敝太多内容和页面。
	4、生效时间一个星期到两个月之间。
	Robots检测
	登录百度站长Robots检测工具。地址:zhanzhang.baidu.com/robots/index
	哪些网页需求屏蔽?
	让搜索引擎不被访问,其实很复杂,不想被搜索引擎抓取的网页下面就屏蔽,那么哪些网页是我们不想被搜索引擎抓取的呢?
	1、空白页:什么是空白页,比如注册页下面、联络我们、关于我们等页面下面属于空白页,由于这种页面的内容没有意义的。
	2、后台页:后台是不被搜索引擎收录的,所以需要robots屏蔽后台登陆页面。
	新的Robots文件一般在2天内生效。如果您的网站在被百度收录之后才设置Robots文件禁止抓取,那么新的Robots文件通常会在48小时内生效,生效以后的新网页,将不再建入索引。需要注意的是,robots.txt禁止收录以前百度已收录的内容,从搜索结果中去除可能需要数月的时间。因为百度服务器有区域备份,多个服务器之间需一段时间才能完成同步更新。
下一篇:如何让百度不收录网站?