宝塔面板根据访问协议头屏蔽字节跳动爬虫

 280 2019-10-27 13:31:14 艾奇站长网

TAG:字节跳动爬虫协议头宝塔面板

最近,字节跳动搜索引擎的爬虫疯狂爬取全网资源,导致一些小网站服务器不堪重负,严重的直接使网站宕机。

我们有很多方法可屏蔽掉爬虫,比如 robots.txt ,但是貌似字节跳动旗下的今日头条爬虫比较流氓,他不遵守这个!还有一个通过屏蔽IP的方式,但是一般爬虫的IP地址比较多,这个也挺麻烦。

这里站长图库介绍一种方法,有一定的效果,如下:


nginx在站点的设置,配置文件中 server{ } 中添加

#禁止爬虫工具的抓取
if ($http_user_agent ~* "Bytespider|YisouSpider") {
    return 403;
}

注:Bytespider 为字节跳动爬虫的协议头


Apache:

在伪静态里设置 这里以ThinkPHP为例!

<IfModule mod_rewrite.c>
RewriteEngine on
RewriteCond %{REQUEST_FILENAME} !-d
RewriteCond %{REQUEST_FILENAME} !-f
RewriteRule ^(.*)$ index.php [L,E=PATH_INFO:$1]
 #禁止爬虫工具的抓取
RewriteCond %{HTTP_USER_AGENT} "^.*Bytespider.*|.*YisouSpider.*$" [NC]
RewriteRule ^(.*)$ - [R=404,L]
</IfModule>

以上,就是根据访问协议头屏蔽字节跳动爬虫的方法,希望能对大家有所帮助!


猜你喜欢
HTML用JS导出Excel的五种方法

HTML用JS导出Excel的五种方法

教程资讯 341 2019-09-29

今天遇到一个需要用JS导出Excel的功能,百度了一下,有很多种方法,这里总结了五种,推荐给大家。这五种方法前四种方法只...

TAG:JSExcel

最新织梦漏洞,首页head之间被篡改加入异常代码解决办法

最新织梦漏洞,首页head之间被篡改加入异常代码解决办法

教程资讯 176 2019-09-30

最近不少用户反映首页被篡改,登录服务器查看没有被上传异常文件,但是首页生成后,有一段异常且被加密过的代码。更换内核后,还...

TAG:dedecms织梦

WordPress 指定分类显示指定文本

WordPress 指定分类显示指定文本

教程资讯 270 2019-10-02

获取分类ID 并进行判断和输出获取当前分类ID,进行if 判断当前分类ID 是否为指定分类ID 。根据这篇文章,设计了这...

TAG:WordPress指定文本

织梦dede 5.7版本图片集和软件标题与关键词输入英文逗号“,”没有了的解决方法

织梦dede 5.7版本图片集和软件标题与关键词输入英文逗号“,”没有了的解决方法

教程资讯 157 2019-10-07

织梦dede自从升级到5.7版本后,图片集与软件的文章编辑无法输入英文逗号",",包括关键词也无法用...

TAG:织梦dedecms