屏蔽垃圾蜘蛛减轻服务器压力

2021年11月11日18:00:00 发表评论

最近我一直在观察我的网站日志,发现了很多不常见的蜘蛛频繁抓取我的网站,大量垃圾蜘蛛甚至爬虫访问很影响性能,特别是服务器配置不高的情况下,那么我们该怎样屏蔽掉垃圾蜘蛛呢?

屏蔽垃圾蜘蛛减轻服务器压力

一般来说,屏蔽蜘蛛抓取有三种方法

  1. Robots屏蔽
  2. UA屏蔽
  3. IP屏蔽

我们一般都是通过Robots屏蔽这个方法,Robots协议(也称为爬虫协议、机器人协议等)用来告诉搜索引擎、爬虫哪些页面可以抓取,哪些页面不能抓取。

注:Robot.txt协议不是强制协议,部分搜索引擎或者伪装成搜索引擎的爬虫不会遵守该协议,对于不遵守该协议的情况,以下方法无效。

常见垃圾蜘蛛

  • AhrefsBot:通过抓取网页建立索引库,并提供反向链接分析和服务。
  • dotbot:在线营销分析软件。
  • MJ12bot:英国搜索引。
  • Deusu:个人的项目一个搜索引擎。
  • grapeshot:这家公司好像也是分析网站用的。

屏蔽方式如下

在robots.txt目录下添加下面的代码,添加之后再用百度站长平台检测一下robots是否正确。

  1. User-agent: AhrefsBot
  2. Disallow: /
  3. User-agent: dotbot
  4. Disallow: /
  5. User-agent: MJ12bot
  6. Disallow: /
  7. User-agent: DeuSu
  8. Disallow: /
  9. User-agent: grapeshot
  10. Disallow: /

主流搜索引擎蜘蛛的名称

每个搜索引擎都有自己的专属蜘蛛,目前主流搜索引擎,国内有百度、360搜索、搜狗、神马、头条,国外的有谷歌、必应等。掘金网根据本站的日志得出它们的蜘蛛名称如下:

  • 百度蜘蛛:Baiduspider
  • 谷歌蜘蛛:Googlebot
  • 必应蜘蛛:bingbot
  • 搜狗蜘蛛:Sogou web spider
  • 360蜘蛛:360Spider
  • 神马:YisouSpider
  • 头条:Bytespider

写在最后:

搜索引擎蜘蛛,一般是指网络爬虫(web crawler),别名:网络蜘蛛、蠕虫、网络机器人、网页追逐者,是一种按照一定的规则自动地抓取万维网信息的程序或者脚本。

网络爬虫按照系统结构和实现技术,大致可以分为以下几种类型:通用网络爬虫(General Purpose Web Crawler)、聚焦网络爬虫(Focused Web Crawler)、增量式网络爬虫(Incremental Web Crawler)、深层网络爬虫(Deep Web Crawler)。实际的网络爬虫系统通常是几种爬虫技术相结合实现的。

我们可以将互联网理解成一张巨大的“蜘蛛网”,而搜索引擎蜘蛛是类似实质的“机器人”。蜘蛛的主要任务就是在巨大的蜘蛛网(互联网)中浏览信息,然后把这些信息都抓取到搜索引擎的服务器上,然后建立索引库。就好比机器人浏览我们的网站,然后把内容保存到自己的电脑上。

Tips:

掘金网建议新手小白们不用太纠结有关技术层面的东西,这些技术自己如果实在无力拿下的话,完全可以付费来给你搞定的,掘金网目前就提供这样的付费技术支持服务《去付费》,花钱不多可以买个保障和安全,有需要的可以联系掘金网。

历史上的今天:

掘金网
  • 版权声明:本站原创文章,转载请保留出处和链接!
  • 本文链接:http://jjsoho.com/pbljzz/ 网赚有风险,投资需谨慎!