如何查看网站的爬虫协议?robots协议怎么查看

日期：2024-02-29 作者：攻硬营销

Robots协议也叫robots.txt（统一小写）是一种存放于网站根目录下的ASCII编码的文本文件，它通常告诉网络搜索引擎的漫游器（又称网络蜘蛛），此网站中的哪些内容是不应被搜索引擎的漫游器获取的，哪些是可以被漫游器获取的。因为一些系统中的URL是大小写敏感的，所以robots.txt的文件名应统一为小写。

robots协议查看方法：网址+robots.txt

http://www.kelaiseo.com/robots.txt

以下是攻硬营销SEO网站上robots.txt的示例：

User-agent: * 【允许所有搜索引擎访问网站所有内容】

Disallow: /plus/ad_js.php【禁止访问 /plus/ad_js.php这个文件夹的所有内容】

Disallow: /plus/advancedsearch.php

Disallow: /plus/car.php

Disallow: /plus/carbuyaction.php

Disallow: /plus/shops_buyaction.php

Disallow: /plus/erraddsave.php

Disallow: /plus/posttocar.php

Disallow: /plus/disdls.php

Disallow: /plus/feedback_js.php

Disallow: /plus/mytag_js.php

Disallow: /plus/rss.php

Disallow: /plus/search.php

Disallow: /plus/recommend.php

Disallow: /plus/stow.php

Disallow: /plus/count.php

Disallow: /include

Disallow: /templets

Sitemap:

robots协议放在网站根目录里面，robots.txt可以通过FTP工具下载到本地进行查看。一般要是网站没多大问题的，有可能没有robots协议。如果想单独定义搜索引擎的漫游器访问子目录时的行为，那么可以将自定的设置合并到根目录下的robots.txt，或者使用robots元数据（Metadata，又称元数据）。

上一篇：网站收录标题不收录内容

下一篇：Robots协议文件是什么,robots文件的作用是什么?

如何查看网站的爬虫协议?robots协议怎么查看

相关推荐