2020
01-29

grapeshot爬虫有什么用?www.grapeshot.co.uk/crawler.php是什么蜘蛛?Oracle蜘蛛介绍及用处!

grapeshot爬虫有什么用?www.grapeshot.co.uk/crawler.php是什么蜘蛛?

近期查看网站的访问记录发现了一个非常稀有的蜘蛛,日志如下

148.64.56.118 - - [29/Jan/2020:12:40:32 +0800] "GET /tags-1560.html HTTP/1.1" 301 178 "-" "Mozilla/5.0 (compatible; GrapeshotCrawler/2.0; +http://www.grapeshot.co.uk/crawler.php)"

148.64.56.118 - - [29/Jan/2020:12:40:35 +0800] "GET /tags-1560.html HTTP/1.1" 200 5668 "-" "Mozilla/5.0 (compatible; GrapeshotCrawler/2.0; +http://www.grapeshot.co.uk/crawler.php)"

关键词技术供应商 grapeshot爬虫

Oracle数据云爬网程序

什么是Oracle Data Cloud Crawler?

Oracle Data Cloud Crawler是一个自动机器人,可访问网页以检查和分析内容。从这个意义上讲,它类似于搜索引擎公司使用的机器人。

Oracle Data Cloud Crawler由以下用户代理之一标识:

Mozilla / 5.0(兼容; GrapeshotCrawler / 2.0; + http://www.grapeshot.co.uk/crawler.php)

Mozilla / 5.0(iPhone; CPU iPhone OS 8_3,如Mac OS X)AppleWebKit / 600.1.4(KHTML,如Gecko)版本/8.0 Mobile / 12F70 Safari / 600.1。4(兼容; GrapeshotCrawler / 2.0; + http://www.grapeshot.co.uk/crawler.php)

可以通过来自Oracle拥有的IP地址范围的请求来识别Oracle Data Cloud Crawler。如果您怀疑请求被欺骗,请使用适当的whois工具或查找服务对照适当的RIPE数据库检查请求的IP地址。通常,您应该看到的唯一有效地址在以下地址范围内:148.64.56.0至148.64.56.255(148.64.56.0/24)。在撰写本文时,唯一用于Oracle Data Cloud Crawler的地址是148.64.56.64至148.64.56.80和148.64.56.112至148.64.56.128。

为什么Oracle Data Cloud Crawler爬行我的网站?

Oracle数据云可帮助广告客户在网页上放置上下文广告。为此,有必要检查或爬网页面以确定哪个类别最匹配。

仅按需访问页面。如果Oracle Data Cloud Crawler访问过您的站点,则意味着最近在一个页面上放置了一个广告,该页面上的信息要么不可用,要么需要刷新。因此,您经常会在用户访问页面后不久看到来自Oracle Data Cloud Crawler的请求。履带系统设计为尽可能友好。它们将请求速率限制为任何特定站点,并在站点出现故障或速度缓慢或反复返回非200(OK)响应时自动退回。

大量的系统链可能导致Oracle Data Cloud分析您的站点。Oracle Data Cloud Crawler为许多实时出价(RTB)系统(例如Rubicon,AppNexus等)提供实时上下文信息。这些RTB系统通常被第三方广告服务器系统用作其广告投放策略的一部分。

使用Robots.txt阻止

Oracle Data Cloud不会向任何人提供搜索引擎系统,也绝不会使任何搜索或其他系统都能使用网站的爬网内容。我们仅在放置了引起我们查询页面上下文的广告时才分析您的网站。

您可以使用robots.txt文件来阻止站点中的Oracle Data Cloud Crawler,如以下示例所示:

阻止网站的特定部分

用户代理:grapeshot 
不允许:/ private / 
不允许:/ messages /

封锁整个网站

用户代理:grapeshot 
不允许:/

允许Oracle Data Cloud Crawler爬网站点

用户代理:grapeshot 
不允许:

我们要求停止抓取任何网站,网站的一部分或对我们运营的任何其他反馈,并会迅速,适当地采取行动。最佳做法是,我们每天检查一次机械手文件,因此对站点文件的更改可能需要24小时才能生效。通过odc-crawler_ww@oracle.com与我们联系,我们将排除您的站点,否则将立即进行调查。

如无特殊说明,解压密码均为:aisoa.cn

您可能感兴趣的文章

    支付宝打赏支付宝打赏微信打赏微信打赏