上面先容屏障外洋一些网站阐发平台的蜘蛛的方式。
有些网站蜘蛛爬起来比baidu、google还要勤劳,频仍的爬取会增长服务器的必定负荷,对付服务器机能急急的小火伴很是合用。
外洋常见非搜刮引擎蜘蛛列表:
SemrushBot
DotBot
MegaIndex.ru
MauiBot
AhrefsBot
MJ12bot
BLEXBot
1、robots.txt协定修改(以上7个蜘蛛都遵照robots协定)
User-agent: SemrushBot Disallow: / User-agent: DotBot Disallow: / User-agent: MegaIndex.ru Disallow: / User-agent: MauiBot Disallow: / User-agent: AhrefsBot Disallow: / User-agent: MJ12bot Disallow: / User-agent: BLEXBot Disallow: /
2、浮图等防火墙增长UA黑名单
在浮图防火墙中增长如上UA头,或者者批量导入,花式以下:
[“SemrushBot”,”DotBot”,”MegaIndex.ru”,”MauiBot”,”AhrefsBot”,”MJ12bot”,”BLEXBot”]
海内5118以及桔子这种爬虫影响力有限,这里暂不处置。