2020
05-31

爱站SEO工具包分析网站日志,YisouSpider[神马搜索]这是在 CC 攻击还是在抓取网站?

今天使用“爱站SEO工具包”分析网站日志时发现,抓取的蜘蛛里面有一个Yisouspider(一搜蜘蛛)进行了大量的抓取,如下图

爱站SEO工具包分析网站日志发现,YisouSpider[神马搜索]这是在 CC 攻击还是在抓取网站?

可以看到一搜蜘蛛、谷歌、搜狗蜘蛛、微软必应分别占了抓取蜘蛛的80%差不多。今天搜索了下一搜蜘蛛到底是什么蜘蛛。

Yisouspider -百度百科

神马搜索根据网站规模、服务能力、页面质量、更新速度等因素决定对网站的访问频率。通常更新快、质量高的网站Yisouspider访问频率相对较高。如果您发现Yisouspider非正常抓取您的网站,请反馈给神马搜索,并请尽量给出Yisouspider的访问日志便于跟踪处理。

竟然是神马的蜘蛛,在搜索“Yisouspider”时发现大家对“Yisouspider”的印象并不好啊。下面是摘自知乎的评论原文:https://www.zhihu.com/question/22160216

史上最没有节操的蜘蛛,没有之一!高频次抓取、不遵守robots协议、每次爬就跟一次小型的DDOS。该蜘蛛为阿里巴巴旗下e淘的蜘蛛,至于现在算不算神马搜索的,不清楚。
2016.10.13

该蜘蛛现在归神马搜索使用

今天阿里报警,检测到您的网站今天遭遇到海量爬虫对业务的访问。此次事件截止目前一共有160310次访问。

直接封杀,太吓人了

下面是各大搜索对应的名称大全

各大搜索引擎蜘蛛名称大全

1、百度蜘蛛:Baiduspider

网上的资料百度蜘蛛名称有BaiduSpider、baiduspider等,都洗洗睡吧,那是旧黄历了。百度蜘蛛最新名称为Baiduspider。日志中还发现了Baiduspider-image这个百度旗下蜘蛛,查了下资料(其实直接看名字就可以了……),是抓取图片的蜘蛛。

常见百度旗下同类型蜘蛛还有下面这些:Baiduspider-mobile(抓取wap)、Baiduspider-image(抓取图片)、Baiduspider-video(抓取视频)、Baiduspider-news(抓取新闻)。

注:以上百度蜘蛛目前常见的是Baiduspider和Baiduspider-image两种。

2、谷歌蜘蛛:Googlebot

这个争议较少,但也有说是GoogleBot的。谷歌蜘蛛最新名称为“compatible; Googlebot/2.1;”。还发现了Googlebot-Mobile,看名字是抓取wap内容的。

3、360蜘蛛:360Spider,它是一个很“勤奋抓爬”的蜘蛛。

4、SOSO蜘蛛:Sosospider,也可为它颁一个“勤奋抓爬”奖的蜘蛛。

5、雅虎蜘蛛:“Yahoo! Slurp China”或者Yahoo! 

名称中带“Slurp”和空格,名称有空格robots里名称可以使用“Slurp”或者“Yahoo”单词描述,不知道有效无效。

6、有道蜘蛛:YoudaoBot,YodaoBot(两个名字都有,中文拼音少了个U字母读音差别很大嘎,这都会少?)

7、搜狗蜘蛛:Sogou News Spider

搜狗蜘蛛还包括如下这些:Sogou web spider、Sogou inst spider、Sogou spider2、Sogou blog、Sogou News Spider、Sogou Orion spider,

(参考一些网站的robots文件,搜狗蜘蛛名称可以用Sogou概括,无法验证不知道有没有效)

看看最权威的百度的robots.txt ,http://www.baidu.com/robots.txt 就为Sogou搜狗蜘蛛费了不少字节,占了一大块领地。

“Sogou web spider;Sogou inst spider;Sogou spider2;Sogou blog;Sogou News Spider;Sogou Orion spider”目前6个,名称都带空格。

线上常见"Sogou web spider/4.0" ;"Sogou News Spider/4.0" ;"Sogou inst spider/4.0" 可以为它颁个“占名为王”奖。

8、MSN蜘蛛:msnbot,msnbot-media(只见到msnbot-media在狂爬……)

9、必应蜘蛛:bingbot 

线上(compatible; bingbot/2.0;)

10、一搜蜘蛛:YisouSpider

11、Alexa蜘蛛:ia_archiver

12、宜sou蜘蛛:EasouSpider

13、即刻蜘蛛:JikeSpider

14、一淘网蜘蛛:EtaoSpider

"Mozilla/5.0 (compatible; EtaoSpider/1.0; http://省略/EtaoSpider)"

根据上述蜘蛛中选择几个常用的允许抓取,其余的都可以通过robots屏蔽抓取。如果你暂时空间流量还足够使用,等流量紧张了就保留几个常用的屏蔽掉其它蜘蛛以节省流量。至于那些蜘蛛抓取对网站能带来有利用的价值,网站的管理者眼睛是雪亮的。

另外还发现了如 YandexBot、AhrefsBot和ezooms.bot这些蜘蛛,据说这些蜘蛛国外噶,对中文网站用处很小。那不如就节省下资源。

如无特殊说明,解压密码均为:aisoa.cn

您可能感兴趣的文章

支付宝打赏支付宝打赏微信打赏微信打赏