【SEO基础教程第十三讲】robots文件书写规范

  • A+

robots文件


提到robots文件,做seo的人应该都不陌生。他是一个文本文件:robots.txt。放在网站的根目录。


搜索引擎蜘蛛进入我们的网站第一个检索到的文件不是我们的首页文件,而是robots文件。这个文件是告诉搜索引擎网站里的哪些文件允许抓取,哪些文件不允许抓取。


如果要允许网站抓取站内全部内容,可以不上传robots文件或者上传一个空的robots文件。当我们上传后,可以用域名后面加上robots.txt检测是否上传成功,比如这样:http://www.51seobook.com/robots.txt


我们一般会把网站后台、搜索结果等内容在robots文件中屏蔽。并且网站如果是伪静态的,我们也会屏蔽掉动态链接。


除了屏蔽链接外,还有就是可以在robots文件里设置sitemap地图的访问路径。


比如这样:

Sitemap: http://www.51seobook.com/sitemap.xml


格式如:
User-agent: *
Disallow: /search.html
Disallow: /index.php?
Disallow: /tempweb/

说明:
User-agent: *   这里说明本Robots.txt针对哪一个搜索引擎蜘蛛而言,星号代表针对所有搜索引擎蜘蛛,包括百度、google、yahoo等。
Disallow: /search.html  说明不允许收录 /search.html 这个文件。
Disallow: /index.php?  说明不允许收录以index.php?为前缀的链接如:index.php?122.html、index.php?=12、index.php?/baidu等等
Disallow: /tempweb/  说明不允许收录/tempweb/里的所有文件。但可以收录如:/tempwebtaim.html 的链接。

Disallow: /*-*      屏蔽全站url内带有 - 的链接
Disallow: /*?*      屏蔽全站url内带有 ?  的连接
Disallow: /*html?*      屏蔽全站url内带有 html?  的连接


weinxin
我的微信
关注我了解更多内容

发表评论

目前评论:0