SEO分享:彻底禁止搜索引擎抓取/收录动态页面或指定路径的方法

最近张戈博客收录出现异常,原因并不明朗。我个人猜测存在如下几个直接原因:

  • 更换主题,折腾时带来过多错误页面或间歇性访问错误;
  • 直接线上折腾Nginx缓存和缩略图,可能导致间歇性大姨妈;
  • 新发文章瞬间被转载,甚至是整站被采集,可能导致“降权”;
  • 百度居然开始收录动态页面,而且还在持续抓取动态页面。

对于前三个,已发生的已无法改变,要发生的也无法阻止。对于转载和采集,我也只能在Nginx加入UA黑名单和防盗链机制,略微阻碍一下了,但是实际起不到彻底禁止作用,毕竟整个天朝互联网大环境就是这样一个不好的风气,很多人都不愿意花时间、用心写文章,喜欢不劳而获的转载甚至是篡改抄袭。

对于第四点,真是忍无可忍。我很想对百度说,我忍你很久了。明明robots里面加入了禁止抓取这些动态地址和某些路径,但是蜘蛛依然每天抓取,而且还收录了!收录也没事,关键收录了动态地址居然不收录静态地址了??这是要闹咋样啊?

案例①:

SEO分享:彻底禁止搜索引擎抓取/收录动态页面或指定路径的方法

案例②:

SEO分享:彻底禁止搜索引擎抓取/收录动态页面或指定路径的方法

案例③:
SEO分享:彻底禁止搜索引擎抓取/收录动态页面或指定路径的方法

以上案例中的地址,我通过百度站长平台的robots检验结果都是被禁封的,真不知道百度怎么想的:

SEO分享:彻底禁止搜索引擎抓取/收录动态页面或指定路径的方法

所以,我决定用极端手段,彻底禁止这些不听话的蜘蛛抓取那些我不想被收录的页面!robots协议显然还是太温柔了!下面看张戈怎么放大招吧!

一、Nginx 规则

张戈博客用的是 Nginx,所以直接在 server  中新增如下规则即可:

Ps:就是将上述代码中“新增规则【开始】”到“新增规则【结束】”内容添加到我们网站的 Nginx 配置-- server 模块 中的 root 指令之后即可。

二、 Apache规则

Apache 测试了半天总是500错误,暂时先放弃了,有时间再来调整!

我自己测试写的规则如下,感兴趣的朋友可以自行测试看看,也许是我环境的问题。

Ps:大概思路和Nginx一致,既匹配了蜘蛛UA,又匹配了禁止关键词的抓取,直接返回403(如何返回404,有知道的朋友请留言告知下,测试成功的朋友也敬请分享一下代码,我实在没时间折腾了。)

三、PHP代码版

使用很简单,将上述PHP代码添加到主题目录下放 functions.php 当中即可。

四、测试效果

测试效果很简单,直接利用百度站长平台的抓取诊断工具即可:

SEO分享:彻底禁止搜索引擎抓取/收录动态页面或指定路径的方法

 

点开看看可以发现真的是返回404:

SEO分享:彻底禁止搜索引擎抓取/收录动态页面或指定路径的方法

最后,结合张戈博客之前分享的《SEO技巧:Shell脚本自动提交网站404死链到搜索引擎》即可将这些无用的收录全部删除:

SEO分享:彻底禁止搜索引擎抓取/收录动态页面或指定路径的方法

有朋友说我这个是黑帽手法,用户可以访问,而搜索引擎却404,很适合淘宝客网站的商品外链。是什么手法我不清楚,我只知道实用就好!特别是张戈博客那些外链,都是用/go?url=这个路径来跳转的,现在这样处理后,就算搜索引擎不遵循robots硬是要抓取,就只能抓到404了!

好了,本文就分享到这,这种做法和张戈博客之前分享的《SEO分享:彻底禁止搜索引擎收录非首选域名的方法》一样,属于极端优化做法,实施后,我们的索引肯定会大量下降,因为很多垃圾索引或收录都将被删除,但是这是良性的做法,因为优质且重复的内容才是提高排名的王道!

发表评论

gravatar

:?::razz::sad::evil::!::smile::oops::grin::eek::shock::???::cool::lol::mad::twisted::roll::wink::idea::arrow::neutral::cry::mrgreen:

刷新评论

目前评论:46   其中:访客  34   博主  12

  1. 麦购穿衣打扮 1 来自天朝的朋友 谷歌浏览器 Windows 7 广东省佛山市 电信

    沙发,学习了,很不错

  2. 阿里书籍 4 来自天朝的朋友 谷歌浏览器 Windows 7 江苏省南京市 电信

    经常折腾主题很容易被降权 深有体会

  3. 微部落博客 4 来自天朝的朋友 谷歌浏览器 Windows 7 江苏省常州市溧阳市 电信

    很佩服博主,技术型,不知能否有幸换个友链

    • 张戈 [博主] 来自天朝的朋友 谷歌浏览器 Windows 7 广东省深圳市 电信

      你加完告诉我一声。

      • 微部落博客 4 来自天朝的朋友 谷歌浏览器 Windows 7 江苏省常州市 电信

        谢谢博主,我已经添加贵站友链了

        • 张戈 [博主] 来自天朝的朋友 谷歌浏览器 Windows 7 广东省深圳市 电信

          已添加,首页有CDN缓存,刷新需要一些时间。

          • 微部落博客 4 来自天朝的朋友 谷歌浏览器 Windows 7 江苏省常州市 电信

            谢谢,我也是你的中国博客联盟的忠实粉丝,一起加油!

            • 张戈 [博主] 来自天朝的朋友 谷歌浏览器 Windows 7 广东省深圳市 电信

              是大家的博客联盟 :mrgreen:

              • 微部落博客 4 来自天朝的朋友 谷歌浏览器 Windows 7 江苏省常州市 电信

                恩恩,是的,我在联盟找到很多站长朋友呢,很好的平台

                • 张戈 [博主] 来自天朝的朋友 谷歌浏览器 Windows 7 广东省深圳市 电信

                  多交流,多学习,多进步。

              • JACK的机器人 3 来自天朝的朋友 谷歌浏览器 Windows 8 湖北省宜昌市 移动

                哎,你的博客联盟;不,是大家的博客联盟

  4. aladd 2 来自天朝的朋友 QQ浏览器 Mac OS X 10_10_3 山东省威海市 联通

    又是沙发。
    3月开始我站点也开始收动态网址了,当时有个垃圾采集站疯狂来复制,百度搜TITLE我自己的都被压下来了,或者干脆不显示。 因为我实在除了更新就没有进行SEO优化,所以我就不知道收录动态网址为哪般。。 现在慢慢百度也开始放出来静态了,唯一上火的就是发8篇只放出来1篇,以前基本都可以放出来。 不知道是不是因为被采集了一段时间的缘故~~

    • 张戈 [博主] 来自天朝的朋友 Safari浏览器  Android 4.4.2 NX40X Build/KOT49H 广东省广州市 移动

      沙发被早抢了,你看到的是缓存 :mrgreen:
      我也觉得采集和转载对源站是有影响的。

  5. 菊部受审 5 来自天朝的朋友 谷歌浏览器 Windows 7 湖北省武汉市 电信

    不知道百度现在能不能识别noindex

    • 美丽约 1 来自天朝的朋友 火狐浏览器 Windows 7 北京市 神威迅腾科技发展有限公司

      百度貌似不能识别noindex

  6. 威客百科 2 来自天朝的朋友 火狐浏览器 Windows 7 湖北省武汉市 电信

    做的好的网站为啥都有被k,封的风险?

    • 张戈 [博主] 来自天朝的朋友 谷歌浏览器 Windows 7 广东省深圳市 电信

      百度的心思,难以琢磨

    • JACK的机器人 3 来自天朝的朋友 谷歌浏览器 Windows 8 湖北省宜昌市 移动

      百度想坑你,从来不商量

  7. 美丽约 1 来自天朝的朋友 火狐浏览器 Windows 7 北京市 神威迅腾科技发展有限公司

    既然博主将”取消回复“加上了”nofollow“,为什么不把”回复“也加上呢,还有首页的”发表评论“···

    • 张戈 [博主] 来自天朝的朋友 谷歌浏览器 Windows 7 广东省深圳市 电信

      多谢提醒,主题更新频繁,还没来得及。

  8. 陈军吧 1 来自天朝的朋友 谷歌浏览器 Windows 7 北京市 教育信息网

    请勿采集本站,因为采集的站长木有小JJ! :arrow: :cry:

  9. 陈军吧 1 来自天朝的朋友 谷歌浏览器 Windows 7 北京市 教育信息网

    赶快更新文章啊,大哥!我佩服你的技术!

  10. 海南特产大全 1 来自天朝的朋友 谷歌浏览器 Windows 7 四川省成都市 电信

    很多时候百度是在作调整,所以暂时性抽风也正常。采集盛行就是因为网站流量排名与原创关系不大,一个新闻热点,那些门户站都在转载整编是为啥。就如博主一样,把博客弄出品牌口碑,如卢松松,月光博客这类就很成功了,很多时候,无须敏感的在意搜索引擎SEO。纯属个人观点~~

    • 张戈 [博主] 来自天朝的朋友 Safari浏览器  Android 4.4.2 NX40X Build/KOT49H 广东省深圳市 联通

      很中肯,赞一个。只是不爽百度不遵循robots协议。

  11. 小小白 1 来自天朝的朋友 谷歌浏览器 Windows 8 广东省阳江市 电信

    请问你的右边的显示隐藏文章目录怎么实现的

    • 张戈 [博主] 来自天朝的朋友 谷歌浏览器 Windows 7 广东省深圳市 电信

      这也是主题自带功能

  12. 威客百科 2 来自天朝的朋友 火狐浏览器 Windows 7 湖北省武汉市 电信

    楼主好棒

  13. 夏日博客 5 来自天朝的朋友 谷歌浏览器 Windows XP 北京市 北京电信互联网数据中心

    百度很不给力,有些动态链接我在roots里面也禁止了的,但百度不鸟你,该怎么收录就怎么收录,完全没当回事。

  14. 西贝博客 4 来自天朝的朋友 Safari浏览器 Mac OS X 10_10_3 河南省 移动

    这个是不是很危险?

  15. 胡歌网摘 4 来自天朝的朋友 谷歌浏览器 Windows 7 广东省广州市 电信

    对你这样处理,我保持谨慎态度,不推荐。
    有一点你要注意,一个网站/页面里面太多链接(并且是内链)是404,会导致你网站/页面被减分。

    • 张戈 [博主] 来自天朝的朋友 谷歌浏览器 Windows 7 广东省深圳市 电信

      听你这么一说,确实也是这个理。回头考虑取消,然后使用canonical标签来避免重复页问题。

      • 胡歌网摘 4 来自天朝的朋友 谷歌浏览器 Windows 7 浙江省杭州市 电信

        canonical正解,不过对于bd也没什么太大作用,聊胜于无。

  16. 极品飞鸽 5 来自天朝的朋友 谷歌浏览器 Windows 8.1 四川省成都市 联通

    签到成功!签到时间:上午9:13:42[color=fuchsia][color=peru][color=slategray][/color][/color][/color],每日签到,生活更精彩哦~

  17. 极品飞鸽 5 来自天朝的朋友 谷歌浏览器 Windows 8.1 四川省成都市 联通

    学习了

  18. 极品飞鸽 5 来自天朝的朋友 火狐浏览器5.0 Windows 8.1 四川省成都市 联通

    学习了, 好

  19. 小小白 5 来自天朝的朋友 谷歌浏览器 Windows 8.1 四川省成都市 联通

    真好

  20. 爆笑段子 2 来自天朝的朋友 谷歌浏览器 Windows 7 广东省深圳市 天威视讯

    我也发现了,度娘有时候收录动态网址

  21. 寇玉鑫博客 0 来自天朝的朋友 谷歌浏览器 Windows XP 陕西省西安市 电信

    百度一直都不遵守搜索引擎协议,所以把谷歌打出中国了

    • 张戈 [博主] 来自天朝的朋友 谷歌浏览器 Windows 7 广东省深圳市 联通

      就怕垄断。。

  22. 北京秀才 1 来自天朝的朋友 谷歌浏览器 Windows 7 北京市海淀区 首都在线数据中心

    :razz: 前来支持,博主的文章写的都挺不错的,看了几篇很涨知识,会常来的,望回访:www.seolseo.com

  23. 求赢SEO 0 来自天朝的朋友 谷歌浏览器 Windows 7 广东省深圳市 电信

    织梦的functions.php文件存放在什么位置?

  24. 谢三诗 1 来自天朝的朋友 谷歌浏览器 Windows 7 广东省广州市 铁通

    记得在seo密码里面曾经看过,在2013年的时候谷歌已经开始出现了收录动态的页面。这是因为当时谷歌已经能够分析出这些页面了。没想到现在百度也能做相关的分析了。还真是慢啊。

  25. H5页面制作 0 Hong Kong 谷歌浏览器 Windows 7 香港 城市电讯有限公司

    学习 谢谢分享

  26. 美健品联盟网 0 来自天朝的朋友 谷歌浏览器 Windows 7 海南省海口市 电信

    很少看到这么认真的讲解和分享经验的文章了! :smile: 签到成功!签到时间:下午6:47:28,每日签到,生活更精彩哦~

  27. 迅雷电影下载 0 来自天朝的朋友 谷歌浏览器 Windows 7 广东省深圳市 联通

    博主,第三个方法,能和先前的常规伪静态规则一起使用吗?
    还有,你的这个WP使用的是什么主题?好喜欢你这评论区的打字效果……

    • 张戈 [博主] 来自天朝的朋友 QQ浏览器 Mac OS X 10_11_3 广东省深圳市 电信

      可以兼容使用。
      begin主题

加载中,请稍候...