屏蔽垃圾蜘蛛减轻服务器压力

2021年11月11日18:00:00 发表评论

最近我一直在观察我的网站日志，发现了很多不常见的蜘蛛频繁抓取我的网站，大量垃圾蜘蛛甚至爬虫访问很影响性能，特别是服务器配置不高的情况下，那么我们该怎样屏蔽掉垃圾蜘蛛呢？

屏蔽垃圾蜘蛛减轻服务器压力

一般来说，屏蔽蜘蛛抓取有三种方法

Robots屏蔽
UA屏蔽
IP屏蔽

我们一般都是通过Robots屏蔽这个方法，Robots协议（也称为爬虫协议、机器人协议等）用来告诉搜索引擎、爬虫哪些页面可以抓取，哪些页面不能抓取。

注：Robot.txt协议不是强制协议，部分搜索引擎或者伪装成搜索引擎的爬虫不会遵守该协议，对于不遵守该协议的情况，以下方法无效。

常见垃圾蜘蛛

AhrefsBot：通过抓取网页建立索引库，并提供反向链接分析和服务。
dotbot：在线营销分析软件。
MJ12bot：英国搜索引。
Deusu：个人的项目一个搜索引擎。
grapeshot：这家公司好像也是分析网站用的。

屏蔽方式如下

在robots.txt目录下添加下面的代码，添加之后再用百度站长平台检测一下robots是否正确。

User-agent: AhrefsBot
Disallow: /
User-agent: dotbot
Disallow: /
User-agent: MJ12bot
Disallow: /
User-agent: DeuSu
Disallow: /
User-agent: grapeshot
Disallow: /

主流搜索引擎蜘蛛的名称

每个搜索引擎都有自己的专属蜘蛛，目前主流搜索引擎，国内有百度、360搜索、搜狗、神马、头条，国外的有谷歌、必应等。掘金网根据本站的日志得出它们的蜘蛛名称如下：

百度蜘蛛：Baiduspider
谷歌蜘蛛：Googlebot
必应蜘蛛：bingbot
搜狗蜘蛛：Sogou web spider
360蜘蛛：360Spider
神马：YisouSpider
头条：Bytespider

写在最后：

搜索引擎蜘蛛，一般是指网络爬虫（web crawler)，别名：网络蜘蛛、蠕虫、网络机器人、网页追逐者，是一种按照一定的规则自动地抓取万维网信息的程序或者脚本。

网络爬虫按照系统结构和实现技术，大致可以分为以下几种类型：通用网络爬虫（General Purpose Web Crawler)、聚焦网络爬虫(Focused Web Crawler)、增量式网络爬虫(Incremental Web Crawler)、深层网络爬虫(Deep Web Crawler)。实际的网络爬虫系统通常是几种爬虫技术相结合实现的。

我们可以将互联网理解成一张巨大的“蜘蛛网”，而搜索引擎蜘蛛是类似实质的“机器人”。蜘蛛的主要任务就是在巨大的蜘蛛网（互联网）中浏览信息，然后把这些信息都抓取到搜索引擎的服务器上，然后建立索引库。就好比机器人浏览我们的网站，然后把内容保存到自己的电脑上。

Tips:

建议掘友们都能去搭建一个网站《原因》，普通的建站很简单，我们可以依靠专门的建站软件来实现《教程》。自己如果实在无力拿下的话，完全可以付费来给你搞定的，掘金网目前就提供这样的付费技术支持服务《去付费》，花钱不多可以买个保障和安全，有需要的可以联系掘金网。

一般来说，屏蔽蜘蛛抓取有三种方法

常见垃圾蜘蛛

屏蔽方式如下

主流搜索引擎蜘蛛的名称

写在最后：

历史上的今天:

登录