2019
08-16

FeedFetcher-Google是什么?FeedFetcher-Google为什么不遵守robots.txt规则?

查看服务器日志的时候发现很多FeedFetcher-Google爬虫,原来不知道这个爬虫到底有什么用,还以为是伪装成爬虫的CC攻击,在网上查找资料才发现是谷歌的feed爬虫。

FeedFetcher-Google是什么?

Feedfetcher是什么?

下面是日志记录,代理字符串为

FeedFetcher-Google; (+http://www.google.com/feedfetcher.html)

72.14.199.89 – – [12/Oct/2005:01:11:13 +0800] “GET /rss.php?v=2 HTTP/1.1” 200 61051 “-” “FeedFetcher-Google; (+http://www.google.com/feedfetcher.html)”

这一看应该就是谷歌的什么蜘蛛了,但是还不知道到底是什么蜘蛛,网上搜索了下,原来是爬取feed订阅的蜘蛛。

这里的Feedfetcher是什么?

那是google的reader和google个性主页订阅器的robot(机器人),或者说Crawler(爬行器)。用户在谷歌阅读器或google主页订阅了你的博客时,google的Feedfetcher就会定时地随着rss地址去找你的站点爬取feed。

Feedfetcher爬取的数据对你站点的google索引更新意义很大。如果你的博客有很多google reader读者,你的权威性会受重视。

在谷歌“Google 抓取工具(用户代理)”中也发下了这个蜘蛛的介绍

FeedFetcher-Google为什么不遵守robots.txt规则?

Feedfetcher

FeedFetcher-Google

不遵循 robots.txt 规则- 查看原因

FeedFetcher-Google; (+http://www.google.com/feedfetcher.html)

发现FeedFetcher-Google并不遵守robots.txt规则,原因如下

为什么 Feedfetcher 会不遵循我的 robots.txt 文件中的指示?

只有在用户已明确启动从 Feed 请求数据的服务或应用后,Feedfetcher 才会检索这些 Feed。Feedfetcher 相当于用户的直接代理,而不是漫游器,因此它会忽略 robots.txt 中的指示。但 Feedfetcher 确实有一项特殊优势,那就是:由于同时充当了多位用户的代理,它对所有这些用户共有的 Feed 只会提出 1 次请求,从而节省了带宽。

您可以将自己的服务器配置为向用户代理 Feedfetcher-Google 发送 404、410 或其他错误状态消息,从而阻止 Feedfetcher 抓取您的网站。

免费支持本站

支付宝打赏支付宝打赏 微信打赏微信打赏

本文》有 0 条评论

留下一个回复 (您的评论需要经过审核才能显示)