导航首页 » 文章首页 » 站长技术 » 宝塔限制部分不知名蜘蛛爬取

宝塔限制部分不知名蜘蛛爬取

2023-12-01 283 站长技术

网站被不知名蜘蛛爬取大量流量

需要在该目录下添加文件 /www/server/nginx/conf/agent_deny.conf

或网站 ---> 配置文件内添加:

#如需禁止Scrapy等工具的抓取,添加
if ($http_user_agent ~* (Scrapy|Curl|HttpClient)) {
     return 403;
}
#禁止指定UA访问。UA为空的可以访问,比如火车头可以正常发布。
      if ($http_user_agent ~ "Bytespider|YandexBot|SemrushBot|PetalBot|AhrefsBot|Barkrowler|MJ12bot|FeedDemon|JikeSpider|Indy Library|AskTbFXTV|CrawlDaddy|CoolpadWebkit|Java|Feedly|UniversalFeedParser|ApacheBench|Microsoft URL Control|Swiftbot|ZmEu|oBot|jaunty|Python-urllib|python-requests|lightDeckReports Bot|YYSpider|DigExt|HttpClient|heritrix|EasouSpider|Ezooms|Amazonbot") {
    return 403;          ​
}
#禁止指定UA及UA为空的访问,火车头一起屏蔽。以上两个搜集的蜘蛛,任选一
      if ($http_user_agent ~* "Bytespider|YandexBot|SemrushBot|PetalBot|AhrefsBot|Barkrowler|MJ12bot|FeedDemon|JikeSpider|Indy Library|AskTbFXTV|CrawlDaddy|CoolpadWebkit|Java|Feedly|UniversalFeedParser|ApacheBench|Microsoft URL Control|Swiftbot|ZmEu|oBot|jaunty|Python-urllib|python-requests|lightDeckReports Bot|YYSpider|DigExt|HttpClient|heritrix|EasouSpider|Ezooms|Amazonbot") {
    return 403;
}
#如需跳转,把return 403 改为return 301 http://www.iermei.com 即可

#如需禁止非GET|HEAD|POST方式的抓取,添加
if ($request_method !~ ^(GET|HEAD|POST)$) {
    return 403;
}

禁止指定UA访问。UA为空的可以访问,比如火车头可以正常发布。

if ($http_user_agent ~

#禁止指定UA及UA为空的访问,火车头一起屏蔽。

if ($http_user_agent ~*

区别于后面的*号。


文件添加以上内容并保存

如使用文件 /www/server/nginx/conf/agent_deny.conf 添加,请附加以下步骤。

网站 ---> 设置 -----> 配置文件

    root /www/wwwroot/niuzheng.net;
    include agent_deny.conf;
    
    #SSL-START SSL相关配置,请勿删除或修改下一行带注释的404规则
    #error_page 404/404.html;

记得重启nginx哟


上一篇
393

主流网络爬虫机器人/蜘蛛详解