掌控Google爬取：解读最新Google Robots.txt指令及写法|远山外贸笔记

robots.txt 是一个位于网站根目录的纯文本文件，用来告诉搜索引擎爬虫哪些页面或资源可以被访问和索引，哪些不可以。它通过定义特定的规则来控制搜索引擎对网站内容的爬取行为，对于网站SEO来说是两个基本的搜索引擎爬取文本贵。

前两天谷歌更新了其robots.txt文件的使用描述，对于不支持的字段将被忽略。

根据最新文档，robots.txt文件中只有四个字段被谷歌官方支持，仅供支持的字段为：

user-agent

allow

disallow

sitemap

上述之外的指令字段将被忽略。因此，如果你的独立站使用了其他指令字段，将被Google抓取时忽略掉。

如上4类的含义和用法简单例举如下：

User-agent:表示允许所有搜索引擎爬虫对象，默认都为* ，标识规则适用于所有爬虫。

Disallow：表示禁止访问网站的内容，爬虫不能爬取Disallow目录下属的任何页面。

Allow：允许所有爬虫访问特定路径，即可访问某些目录下的文件

Sitemap：告知爬虫网站的 sitemap.xml 文件位置，帮助它们更好地发现和爬取页面。

常见的写法：

User-agent: * （表示允许所有搜索引擎爬虫（如 Googlebot、Bingbot）访问该网站）

Disallow: （后面没有任何路径，表示不禁止任何页面的爬取，也就是说整个网站对所有爬虫都是开放的。）

Sitemap: https://www.example.com/sitemap.xml

robots规则只针对所有爬虫。表示任何爬虫可以爬取任何文件。

User-agent: Googlebot

Disallow: /

robots规则只针对谷歌的爬虫。表示禁止 Googlebot 访问整个网站，其他爬虫则不受影响。

User-agent: *

Disallow: /private/

robots规则针对所有爬虫。表示禁止爬取网站的 /private/ 文件夹及其所有内容，其他部分的网站是可以访问的。

User-agent: *

Disallow: /usercenter/

Disallow: /admin/

Sitemap: https://www.wmeasy.com/sitemap.xml

robots规则针对所有爬虫，禁止访问管理员和用户中心的页面，并提供网站地图的 URL，帮助搜索引擎更好地索引网站。

那么回头再说说被弃用或者说本来就没支持的常见指令有哪些呢：

Crawl-delay: 3 ，表示爬取间隔的，秒为单位，对于一些大站，频繁爬取可能搞崩溃服务器的，像博客园就有这样的例子。

Noindex: /admin/ ,该字段告诉爬虫不要将某些页面或文件夹的内容编入索引，防止它们出现在搜索结果中。

实际上谷歌从未正式支持 Noindex 指令，但以前某些爬虫可能会遵守这一规则。现在，使用 meta 标签或a标签中的 noindex 指令才是推荐的做法。

Nofollow: /private/ 表示爬虫不要跟随页面中的链接，主要用于外链或广告链接等，防止传递权重或进一步爬取被禁止的页面。

同样谷歌不支持在 robots.txt 中使用 Nofollow，。而是在页面中通过 HTML 标签属性来实现。

Noarchive: / 表示搜索引擎不要缓存页面的副本，也就是防止页面被存档在搜索引擎的缓存中。

其实对于小站来说，本来也没有多少访问量，即便不写也不会造成太大问题哦。对于内容不少的大站，来看看模范shein的：