最近我一直在观察我的网站日志,发现了很多不常见的蜘蛛频繁抓取我的网站,大量垃圾蜘蛛甚至爬虫访问很影响性能,特别是服务器配置不高的情况下,那么我们该怎样屏蔽掉垃圾蜘蛛呢?
一般来说,屏蔽蜘蛛抓取有三种方法
- Robots屏蔽
- UA屏蔽
- IP屏蔽
我们一般都是通过Robots屏蔽这个方法,Robots协议(也称为爬虫协议、机器人协议等)用来告诉搜索引擎、爬虫哪些页面可以抓取,哪些页面不能抓取。
注:Robot.txt协议不是强制协议,部分搜索引擎或者伪装成搜索引擎的爬虫不会遵守该协议,对于不遵守该协议的情况,以下方法无效。
常见垃圾蜘蛛
- AhrefsBot:通过抓取网页建立索引库,并提供反向链接分析和服务。
- dotbot:在线营销分析软件。
- MJ12bot:英国搜索引。
- Deusu:个人的项目一个搜索引擎。
- grapeshot:这家公司好像也是分析网站用的。
屏蔽方式如下
在robots.txt目录下添加下面的代码,添加之后再用百度站长平台检测一下robots是否正确。
- User-agent: AhrefsBot
- Disallow: /
- User-agent: dotbot
- Disallow: /
- User-agent: MJ12bot
- Disallow: /
- User-agent: DeuSu
- Disallow: /
- User-agent: grapeshot
- Disallow: /
主流搜索引擎蜘蛛的名称
每个搜索引擎都有自己的专属蜘蛛,目前主流搜索引擎,国内有百度、360搜索、搜狗、神马、头条,国外的有谷歌、必应等。掘金网根据本站的日志得出它们的蜘蛛名称如下:
- 百度蜘蛛:Baiduspider
- 谷歌蜘蛛:Googlebot
- 必应蜘蛛:bingbot
- 搜狗蜘蛛:Sogou web spider
- 360蜘蛛:360Spider
- 神马:YisouSpider
- 头条:Bytespider
写在最后:
搜索引擎蜘蛛,一般是指网络爬虫(web crawler),别名:网络蜘蛛、蠕虫、网络机器人、网页追逐者,是一种按照一定的规则自动地抓取万维网信息的程序或者脚本。
网络爬虫按照系统结构和实现技术,大致可以分为以下几种类型:通用网络爬虫(General Purpose Web Crawler)、聚焦网络爬虫(Focused Web Crawler)、增量式网络爬虫(Incremental Web Crawler)、深层网络爬虫(Deep Web Crawler)。实际的网络爬虫系统通常是几种爬虫技术相结合实现的。
我们可以将互联网理解成一张巨大的“蜘蛛网”,而搜索引擎蜘蛛是类似实质的“机器人”。蜘蛛的主要任务就是在巨大的蜘蛛网(互联网)中浏览信息,然后把这些信息都抓取到搜索引擎的服务器上,然后建立索引库。就好比机器人浏览我们的网站,然后把内容保存到自己的电脑上。
掘金网建议新手小白们不用太纠结有关技术层面的东西,这些技术自己如果实在无力拿下的话,完全可以付费来给你搞定的,掘金网目前就提供这样的付费技术支持服务《去付费》,花钱不多可以买个保障和安全,有需要的可以联系掘金网。
历史上的今天:
- 2024: 寄快递哪家快递公司更便宜?来这里看看!(0)
- 2023: 今天发生这么多大事,你却只知道买买买!(0)
- 2022: 直播带货的镰刀,正在收割无知民众(0)