robots.txt 文件告诉搜索引擎它们是否可以访问和不能访问你网站的文件,从而实现网站被搜索引擎收录特定的部分。也就是说,当你的网站有需要不被收录的内容时,就要积极采用robots.txt来阻断对应文件目录或接口数据的爬取。
当搜索引擎的ip所在服务器爬取你的网站文件路径时,首先会寻找站点根目录有没有 robots.txt文件,如果有这个文件就根据文件的内容确定收录范围,如果没有就按默认访问以及收录所有页面。
在SEO的角度来说,网站是否需要robots.txt文件,根网站的规模有关,对于并没有多少页面数量的小型网站而言,robots.txt可以没有,对于大站是必不可少。
那么网站增加了robots文件有哪些益处呢,除了使您可以更好地控制搜索引擎可以和不能在您的网站上访问的位置之外,还有这些益处:
能防止搜索引擎来重复内容的抓取;
可以阻止一些资源的外漏,如管理登录页,数据请求接口;
可以合理的让搜索引擎谷分配抓取预算数量。
可以组织一些本站内上传的图片、视频等可下载资源文件出现在搜索结果中。
既然有这么多好处,当然还是建议给网站加上robots文件。
当然了,加上了robots文件一定能够实现对搜索引擎的拦截吗?当然是不会,只会阻止大部分。而且如果屏蔽的内容被暴漏在其他网站上,依然会有被间接爬取的可能。
robots.txt的位置是在网站的根目录下。比如https://www.shannote.com/robots.txt 。
可以创建一个名称为robots.txt文本文件,将相关内容放进去,然后上传到网站根目录即可。
接下来看看robots文件的具体格式:
Sitemap: https://www.shannote.com/sitemap.xmlUser-agent: *Disallow: /blog/Allow: /blog/post-title/Disallow: /wp-admin/Disallow: /wp-content/Disallow: /wp-includes/Disallow: /comments/file/Disallow: /?s=*
也就是这样的格式:
站点地图:[站点地图的 URL 位置]
用户代理:[机器人标识符]
[指令 1]
[指令 2]
[指令...]
用户代理:[另一个机器人标识符]
[指令 1]
[指令 2]
[指令...]
对于以上各项详细说明:
Sitemap 站点地图的位置,可以省略。
User-agent: 用户代理,主要针对的搜索引擎,一般用*代表向全部搜索引擎开放。
Disallow: 禁止指令。用来标识禁止抓取的文件路径,/xxx 代表xxx路径下的文件禁止被搜索引擎抓取。
Allow:和Disallow相反用来表示允许爬取的网站层级路径,一般省略不写
Crawl-delay: 抓取延迟时间,如5,代表5秒,一般省略不写
扩展几个常用的例子中,比如在WP中:
Disallow: /category//page/和Disallow: /tag//page/
通常代表禁止搜索引擎抓取收录分类和标签的分页。
Disallow: /*/trackback
禁止搜索引擎抓取收录trackback等垃圾信息
Disallow: /attachment/
禁止搜索引擎抓取附件页面,比如上传图片的附件页面。
Disallow: /?s=和Disallow: //?s=*
禁止搜索引擎抓取站内搜索结果
Disallow: /?
禁止搜索抓取动态页面
不清楚的用途的文件需要屏蔽吗?慎重。一些数据的爬取,会影响到搜索引擎对页面数据的获取,比如图片,js,css文件,如果都屏蔽掉,那么一些动态数据也将不会被搜索引擎解析到,这样反而不利于SEO,所以仅仅屏蔽掉上文中提到的部分文件即可。
刷新