百度蜘蛛狂暴了!再次启用本地缓存,附nginx下wp super cache的mod_rewrite规则

昨天突然突然觉得后台很卡,前台由于开了360cdn倒没什么感觉。于是登录vps看了下access.log和netstat,发现BaiduSpider并发100+爬我的博客!搞的好像被攻击了一样,(/ □ \)。。。

百度蜘蛛狂暴了!再次启用本地缓存,附nginx下wp super cache的mod_rewrite规则 百度蜘蛛狂暴了!再次启用本地缓存,附nginx下wp super cache的mod_rewrite规则

 

补充:今天我特意看了下昨天的百度抓取情况,又吓了一跳:

百度蜘蛛狂暴了!再次启用本地缓存,附nginx下wp super cache的mod_rewrite规则

虽然开了360CDN,但是对于搜索引擎的访问,360是直接回源的,所以蜘蛛的狂暴抓取压力就全部到了vps上了,CPU负载直接飙至14+,top里面php-fpm进程好生壮观,吓...

想了下,决定给本地来个静态缓存,让蜘蛛只能爬静态页面,减少php-fpm负载。首先装了一个Hyper Cache插件,发现新版的居然可以生成纯静态页面了,还挺欣喜的!观察了半小时,发现html是生成了,但是php-fpm占用依然很高!奇怪啊...

纳闷了半天,突然想起来,nginx本身不带Mod rewrite,那这Hyper Cache的静态重定向都是靠php实现的咯?我去,那前端访问还是把压力集中在php上了。

想起了一起用过的wp-super-cache是有Mod rewrite模式的,于是又换成WP Super Cache试了下,突然醒悟,Nginx并没有Apache的Rewrite_mod模块。网上看了下前人总结的教程,通过在配置文件里面加入规则实现了和Mod rewrite一样的功能:

只要将以下代码中的2~57行添加到网站对应的nginx location中即可:

(代码出处:http://www.gongzi.org/nginxstartwp-super-cache-mod_rewrite.html)

由于我用的多说,所以其中30~33行是屏蔽的,直接全部展示缓存好了。

然后在回到WP Super Cache设置界面,跟往常一行开启Mod rewrite缓存模式即可,虽然插件会提示Mod rewrite模块丢失,但并不影响缓存页面的访问:

百度蜘蛛狂暴了!再次启用本地缓存,附nginx下wp super cache的mod_rewrite规则

要验证效果,很简单,直接访问文章页面,查看源代码即可:

百度蜘蛛狂暴了!再次启用本地缓存,附nginx下wp super cache的mod_rewrite规则

好了,这下百度蜘蛛再狂暴,也只能吃服务器的“残羹冷炙”了。

发表评论

gravatar

:?::razz::sad::evil::!::smile::oops::grin::eek::shock::???::cool::lol::mad::twisted::roll::wink::idea::arrow::neutral::cry::mrgreen:

刷新评论

目前评论:40   其中:访客  26   博主  13   引用   1

来自外部的引用: 1

  • wordpress纯代码无需插件实现WP Super Cache静态缓存功能(兼容多域名网站) | 逍遥乐IT博客
  1. ijustplay 2 来自天朝的朋友 未知浏览器 Unknow Os 河南省郑州市 电信

    你的站点速度好像有点慢诶,每次加载博客联盟-成员导航的时候都得延时

  2. ijustplay 2 来自天朝的朋友 未知浏览器 Unknow Os 河南省郑州市 电信

    已添加规则成功! 评论” />

    • 张戈 [博主] 来自天朝的朋友 未知浏览器 Unknow Os 广东省深圳市宝安区 电信

      最欣赏的就是你这种执行力~

  3. 热腾网 6 来自天朝的朋友 未知浏览器 Unknow Os 河北省石家庄市 联通

    看来,百度看上你了。

    • 张戈 [博主] 来自天朝的朋友 未知浏览器 Unknow Os 广东省深圳市 电信

      哈哈,但愿如此。

  4. PHP二次开发 6 来自天朝的朋友 未知浏览器 Unknow Os 山东省济南市 联通

    要爆发了。

    • 张戈 [博主] 来自天朝的朋友 未知浏览器 Unknow Os 广东省深圳市 电信

      也可能是K站的前奏~

      • 热腾网 6 来自天朝的朋友 未知浏览器 Unknow Os 河北省石家庄市 联通

        能放出来就行,又没作弊,应该不会。

        • 张戈 [博主] 来自天朝的朋友 未知浏览器 Unknow Os 广东省深圳市 电信

          这个月搬了四五次家。

          • 热腾网 6 来自天朝的朋友 未知浏览器 Unknow Os 河北省石家庄市 联通

            这次玩的够凶的。会不会百度对网站的压力测试?

        • 张戈 [博主] 来自天朝的朋友 未知浏览器 Unknow Os 广东省深圳市 电信

          这个月搬了四五次家。

  5. 球球 4 来自天朝的朋友 未知浏览器 Unknow Os 陕西省宝鸡市 电信

    百度喜欢你是好事呀 评论” />

    • 张戈 [博主] 来自天朝的朋友 未知浏览器 Unknow Os 广东省深圳市宝安区 电信

      不开缓存,真的扛不住,毕竟zgboke那个站也放在这vps上。。

      • 球球 4 来自天朝的朋友 未知浏览器 Unknow Os 陕西省宝鸡市 电信

        我还没看过我的站点百度蜘蛛的访问情况,说实话,我还不晓得IIS里面怎么看。。

  6. 一昕精选 3 来自天朝的朋友 未知浏览器 Unknow Os 山东省临沂市 联通

    百度看上你了 评论” />

    • 张戈 [博主] 来自天朝的朋友 未知浏览器 Unknow Os 广东省深圳市宝安区 电信

      评论” /> 那就好咯~

  7. 一昕精选 3 来自天朝的朋友 未知浏览器 Unknow Os 山东省临沂市 联通

    百度看上你了 评论” />

  8. 微历史 6 来自天朝的朋友 未知浏览器 Unknow Os 北京市 联通

    真是善于分析并改进的人,佩服

    • 张戈 [博主] 来自天朝的朋友 未知浏览器 Unknow Os 广东省深圳市宝安区 电信

      谬赞了

  9. 圆月博客 5 来自天朝的朋友 未知浏览器 Unknow Os 广西南宁市 电信

    什么问题到了张哥这里就不是问题

    • 张戈 [博主] 来自天朝的朋友 未知浏览器 Unknow Os 广东省深圳市宝安区 电信

      一样很折腾人啊。

  10. musk 3 来自天朝的朋友 未知浏览器 Unknow Os 江苏省苏州市 电信

    HotNews Pro 不兼容WP Super Cache吧

  11. Phnomi 4 来自天朝的朋友 未知浏览器 Unknow Os 天津市 联通

    好厉害!佩服

  12. 张盖盖博客 1 来自天朝的朋友 未知浏览器 Unknow Os 上海市 鹏博士长城宽带

    博主好流弊啊。博客感觉非常好。

  13. pptv官方下载 www.ipptvs.com 2 来自天朝的朋友 未知浏览器 Unknow Os 北京市 犀思云(北京)云计算科技有限公司

    蜘蛛喜欢你的博客啊

  14. 完美世界 1 来自天朝的朋友 未知浏览器 Unknow Os 河南省洛阳市 联通

    好吧,蛛蛛现在都不过来了。 伤心

  15. 完美世界 1 来自天朝的朋友 未知浏览器 Unknow Os 河南省洛阳市 联通

    那个啥 cos html cache 才是真正的静态吧。

    • 张戈 [博主] 来自天朝的朋友 未知浏览器 Unknow Os 广东省深圳市 电信

      新版wp-super-cache也能生成纯静态html文件了。

  16. 电子商务文摘 3 来自天朝的朋友 谷歌浏览器 Windows 7 上海市 奇虎360科技电信CDN节点

    源码小白 支持一下

  17. 一品元素 2 来自天朝的朋友 谷歌浏览器 Windows XP 广东省广州市 电信

    不知道博主发现没?启用缓存插件后,网站的链接上带斜杠与不带斜杠不会自动跳转了,就比如你http://zhangge.net/4351.html 与http://zhangge.net/4351.html/ 有时候搜索引擎会同时收录这2种格式的页面

    • 张戈 [博主] 来自天朝的朋友 搜狗浏览器 Windows 7 广东省广州市 电信

      非常感谢你的提醒,确实存在这个情况,虽然不知道有什么负面影响,但应该是有SEO隐患的,所以我在Nginx里面新增了一条规则,如果你在html后面加了斜杠/,那么将自动301跳转到不加斜杠的html,具体你可以在这个页面测试效果。

      nginx伪静态规则如下:
      rewrite ^/(.*).html/$ /$1.html permanent;

      明天我找个时间整理一下分享一下,再次感谢你的提醒。

      • 一品元素 2 来自天朝的朋友 谷歌浏览器 Windows XP 广东省广州市 电信

        其实我也纠结过这个问题,不过我的是apche,不知道apche规则该怎么写??

      • 一品元素 2 来自天朝的朋友 谷歌浏览器 Windows XP 广东省广州市 电信

        并且分类,tag,page页面都有这个问题,你可以试试http://zhangge.net/about/////////////////////// 后面好多个斜杠的地址

        • 张戈 [博主] 来自天朝的朋友 谷歌浏览器 Windows 7 北京市 联通云BGP数据中心

          今天发文章分享下,你到时候再看代码。
          页面的多个斜杠,你就没必要纠结了,你看卢松松的留言板,多加几个斜杠,还不是正常访问,应该每个网站都有这个问题。
          我只是觉得html后面加斜杠,有点不伦不类。

          其实还有种更简单的做法:
          编辑robots,禁止抓取这种形式即可:
          Disallow: /*//
          Disallow: /*.html/

  18. 幻杀博客 5 来自天朝的朋友 谷歌浏览器 Windows 8.1 山东省潍坊市 联通

    这么强!

  19. 生化培养箱 3 来自天朝的朋友 谷歌浏览器 Windows 7 上海市 电信

    让百度蜘蛛来的更加猛烈些吧,哎,蜘蛛啊蜘蛛你怎么不听话呢!

  20. 粉丝 1 来自天朝的朋友 谷歌浏览器 Windows 7 江苏省南京市 电信

    不知道是不是这个规则少了定时发布的规则?定时发布,文章发布了,首页缓存不更新!不知道咋回事,但是手动更新后台文章,首页就会有新缓存出现!

    • 张戈 [博主] 来自天朝的朋友 Safari浏览器  Android 4.4.4 M463C Build/KTU84P 广东省 电信

      定时发布是没有清理动作,自己百度研究研究

  21. 阿木 0 来自天朝的朋友 火狐浏览器 Windows 10 河南省郑州市 联通

    另外还要设置插件高级 下面的 已拒绝的用户代理(User Agent) 去掉spider吧

加载中,请稍候...