网站建设

SEO分享：彻底禁止搜索引擎收录非首选域名的方法

Jager · 9月24日 · 2014年SEO技巧 1158次已读

众所周知，绝大多数网站都会有一个首选域名，从用户体验考虑，通常站长们还会另外解析一个域名，并设置 301 重定向。例如，用户未输入 www 的时候，仍然可以访问到我们的网站，就像访问 http://baidu.com，会自动跳到 http://www.baidu.com 一样。

理论上，301 重定向是对搜索引擎友好的设置，而且搜索引擎也能识别 301 返回码，从而只收录首选域名。但也有个例！比如，张戈博客刚一上线，我就已经把 www 的域名 301 重定向到了不带 www 域名：

但百度依然收录带 www 的，且 www 的排名更加靠前：

site 了下带 www 的域名，居然收录了 1600 多条：

又比如百度搜索“卢松松”的结果，也是 www 的排在第一：

事实说明，百度对 301 很不敏感，这个问题困扰了我很久，前往百度站长平台多次投诉无果，终于忍无可忍，决定将带 www 的域名做了禁止收录处理，我已做好 www 域名全线被 T 的心里准备。

曾多次搜索过如何禁止搜索引擎收录带 www 或不带 www 的域名的方法，但是都是一些做 301 设置的方法，看来还不够彻底！下面，我就来分享一下彻底禁止搜索引擎收录非首选域名的方法：

提前说明：如果正好和张戈博客相反：你的首选域名是带 www 的，那下面的代码只需要依葫芦画瓢的修改下即可，我就不赘述了。

一、准备工作

在网站根目录新建 wrobots.txt 文件，粘贴如下内容：

User-Agent: *
Disallow: /

二、修改规则

①、Nginx 平台

编辑网站对应的 nginx 配置文件，比如：

vim /usr/local/nginx/conf/vhost/zhang.ge.conf

找到之前 301 跳转的配置，如：

server {
       server_name www.zhang.ge;
       return 301 $scheme://zhang.ge$request_uri;
}

修改为：

server
         {
                server_name www.zhang.ge;
                root  /home/wwwroot/zhang.ge;
                location / {
                        rewrite (.*) https://zhang.ge$1 permanent;
                        }

               location ~ (robots.txt) {
                        rewrite /robots.txt /wrobots.txt last;
                        }
}

执行如下命令，重载 nginx 即可生效：

/usr/local/nginx/sbin/nginx -s reload

②、Apache 平台

编辑 .htaccess 文件，将之前的 301 跳转规则替换成如下代码即可：

RewriteEngine on
RewriteCond %{HTTP_HOST} ^www.zhang.ge [NC]
RewriteRule ^robots.txt wrobots.txt [L]
RewriteCond %{REQUEST_FILENAME} !robots.txt
RewriteRule ^(.*) https://zhang.ge/$1 [R=301,L]

其中第 4 行是关键，表示仅在请求名称非 robots.txt 的时候，才会执行后面的 301 跳转，从而避免第三条规则被覆盖！

③、实例：万网虚拟主机

用朋友的万网虚拟主机实际测试发现，万网的控制面板已经存在 301 设置了，所以 htaccess 也要做相应修改才行。

在已有的.htaccess 文件的最前面加上如下三行代码即可：

RewriteEngine on
RewriteCond %{HTTP_HOST} ^www.zhang.ge [NC]
RewriteRule ^robots.txt wrobots.txt [L]

修改后的完整的 htaccess 的内容如下：

RewriteEngine on
RewriteCond %{HTTP_HOST} ^www.zhang.ge [NC]
RewriteRule ^robots.txt wrobots.txt [L]
#以下为已存在规则：
<IfModule mod_rewrite.c>
RewriteEngine on
RewriteCond %{REQUEST_FILENAME} !-f
RewriteCond %{REQUEST_FILENAME} !-d
RewriteBase /
RewriteRule . /index.php [L]
</IfModule>

其他虚拟主机、建站程序，可以参考这个实例来修改即可，注意避免和主机已有的 301 发生规则冲突即可。

三、效果测试

①、手动测试

分别访问 http://www.zhang.ge/robots.txt 和 https://zhang.ge/robots.txt 可以发现已经是不同的内容了。

②、工具测试

如果还不放心，那么可以使用百度站长平台的 robots 工具来检测，效果如图所示：

测试 http://www.zhang.ge/robots.txt：

测试 https://zhang.ge/robots.txt：

从图中的检测结果可知，带 www 域名的 robots 理论上已禁止所有搜索引擎的抓取！

2014/09/26 补充：一大早就看到来自百度站长的 robots 禁封通知，看来是有效果的，就看啥时候把 www 的收录 K 掉：

四、他山之石

最新补充：今天在逛博客的时候，在李明博客发现了一个更简单的方法，我稍微修改了下：

只要在网站的 head 部分加入如下代码即可：

<?php 
if($_SERVER['HTTP_HOST'] == '禁止收录域名 1')
if($_SERVER['HTTP_HOST'] == '禁止收录域名 2')
{
?>
<meta name="robots" content="noindex,nofollow" />
<?php } ?>

比如，如果我要禁止搜索引擎收录带 www 的张戈博客，那么代码如下：

<?php if($_SERVER['HTTP_HOST'] == 'www.zhang.ge') { ?>
<meta name="robots" content="noindex,nofollow" />
<?php } ?>

当访问被禁止收录的 www.zhang.ge 时，head 里面会输出一段禁止搜索引擎索引和跟踪链接的 meta 标签：

而访问首选域名 zhang.ge 的时候，则不会输出这个 META 标记：

异曲同工的实现了和前文相同的功能！额外补充一下相关 meta robots 的说明，请自行选用：

<META NAME="ROBOTS" CONTENT="INDEX,FOLLOW" />     可以抓取本页，而且可以顺着本页继续索引别的链接
<META NAME="ROBOTS" CONTENT="NOINDEX,FOLLOW" />   不许抓取本页，但是可以顺着本页抓取索引别的链接
<META NAME="ROBOTS" CONTENT="INDEX,NOFOLLOW" />   可以抓取本页，但是不许顺着本页抓取索引别的链接
<META NAME="ROBOTS" CONTENT="NOINDEX,NOFOLLOW" /> 不许抓取本页，也不许顺着本页抓取索引别的链接。

特别说明：用这个方法需要取消 301 重定向功能，否则不会有 meta 申明的输出！

所以，将 robots 和 META 这 2 种方法结合一下，新站架设前可以这样设置：

无须设置 301 重定向，先在 nginx 配置文件中，将监听www.zhang.ge(非首选域名)的配置修改如下：

server
        {
              listen 80;
              server_name www.zhang.ge;
              index index.html index.htm index.php default.html default.htm default.php;
              root  /home/wwwroot/zhang.ge;
              #以下是 robots 的重写规则
              location ~ (robots.txt) {
                         rewrite /robots.txt /wrobots.txt last;
                        }
               #以下其他需要的规则，和首选域名保持一致
               *******
        }

然后，在 header.php 里面新增如下代码：

<?php if($_SERVER['HTTP_HOST'] == 'www.zhang.ge') { ?>
<meta name="robots" content="noindex,nofollow" />
<?php } ?>

如此，就双管齐下的做好了禁止搜索引擎收录新站非首选域名的设置！

五、终极大招

张戈博客亲自测试发现，就算是加了 robots 限制，百度依然还会索引这个非首选域名：

所以，必须出绝招了，参照《浅谈 404 问题》和《服务器反爬虫攻略》，先解封 robots 禁止，然后在 nginx 原有规则里面加入如下第 7 行判断：

server
         {
                server_name www.zhang.ge;
                root  /home/wwwroot/zhang.ge;
                location / {
                 #新增判断，如果是百度蜘蛛就返回 404！
                 if ($http_user_agent ~ "Baiduspider") {return 404;}
                        rewrite (.*) https://zhang.ge$1 permanent;
                        }
                        location ~ (robots.txt) {
                        rewrite /robots.txt /wrobots.txt last;
                        }
}

现在，无论是用抓取诊断还是用站长之家的模拟抓取，都将返回 404 错误：

为了测试，张戈博客已走上极端，所以并不建议老站做以上极端设置！我只是看不惯百度的傻逼收录行为！

以上就是禁止搜索引擎收录非首要域名的全部教程了，希望对和我一样苦恼的站长有所帮助。由于，这种中途设置禁止收录非常罕见，张戈也只是做下测试，还不知道有什么结果，所以不建议老站轻易尝试！个人强烈建议新站在上线之前就做好这些设置，避免带来和我一样的困扰！另外，由于没有 IIS 环境，所以就没有研究测试 IIS 下的设置方法，感兴趣的站长可以参考文章的思路去研究测试下。

31 条回应

香港服务器托管 2014-10-11 · 9:05

重定向这样不是更友好吗
小Z 2014-10-28 · 18:05

感觉好麻烦，就这样吧，不想搞
九秒 2014-11-9 · 18:11

百度是抓取的莫名其妙，看服务器日志。也是醉了
叶德华 2014-11-20 · 22:56

不错，李明的那个方法不错。
松果 2014-11-22 · 8:53

我直接没解析www的.........
- Jager 2014-11-22 · 10:18
  
  我一起也不解析，但是有人会潜意识用www去访问，很多没做过网站的朋友，他们的潜意识，有www的才叫网站呢，解析www是为了用户体验。
  - 松果 2014-11-22 · 17:48
    
    这个到没发现。
松果 2014-11-22 · 9:05

应该加个判断或者做个自适应，不然手机看着会不爽的 :grin:
- Jager 2014-11-22 · 10:16
  
  你用的什么手机浏览器？我的网站已经有移动适配的，不会是在手机里面设置了电脑UA吧？
  - 松果 2014-11-22 · 17:46
    
    这主题不能自适应？
    - Jager 2014-11-22 · 17:59
      
      你用手机浏览器访问一下不就知道了？
阿明 2015-4-17 · 17:20

只绑定zhang.ge一个域名，www.zhang.ge只做url转发不就更简单么？
- Jager 2015-4-17 · 18:03
  
  url转发？那www.zhang.ge搜索引擎还是可以访问到吧？
  愿闻其详。
  - 阿明 2015-4-18 · 8:41
    
    http://www.zhang.ge都没绑定主机，搜索引擎是不会收录www.zhang.ge的页面，这样就可以避免搜索引擎同时收录两个相同页面（带www.和不带www），造成权重分散。
    同时也达到两个域名都能访问网站（一般用户都是通过搜索引擎找网站，很少手输域名的，就算手输入域名，www也会跳转到不带www上）
    - Jager 2015-4-18 · 8:49
      
      据我所知，不绑定主机应该是不能访问吧？你DNS不解析www.zhang.ge，然后nginx或apache也不监听www.zhang.ge，用户如何访问得到呢？
      你说的url转发类似于301跳转吧，应该是虚拟主机面板里面的一个功能，你看起来只是在面板里面设置了url转发，实际上面板是自动绑定了域名的。
      301跳转是传统的避免搜索引擎收录非首选域名的方法，文章开始也说到了这个方法，但是有时候并不凑效，搜索引擎仍然收录跳转前的网址。
      - 阿明 2015-4-18 · 9:07
        
        上实例：你访问dukemoto.com，会跳转到www.dukemoto.com上，这样的话搜索引擎只会收录带www的页面。
        域名解析面板截图http://www.dukemoto.com/1.jpg
        
        Jager 2015-4-18 · 9:09
        
        你这个其实就是301的做法，你可以用站长工具去抓取状态。
        
        服务器IP：103.24.92.252 返回状态码：301 网页返回HEAD信息如下 Date: Sat, 18 Apr 2015 01:11:36 GMT Server: Microsoft-IIS/6.0 X-Powered-By: ASP.NET X-AspNet-Version: 2.0.50727 Location: http://www.dukemoto.com Cache-Control: private,no-store Content-Length: 0
        
        文章开头就说到了这个传统的301做法，我只是觉得不彻底，因为百度偶尔还是会收录跳转前的页面，这个事情很多人都见到过。
        
        阿明 2015-4-18 · 9:17
        
        是，如果新站一上线就只绑定一个域名，其他统统做跳转，搜索引擎是不会收录绑定域名以外的域名（起码我做过的站都是，可能跟操作有关，网站做完之后只维护不做推广），当然老站有很多历史原因，就不一定了
        
        Jager 2015-4-18 · 9:31
        
        嗯，是有这个现象，如果你跳转前的域名存在外链，搜索引擎收录的可能性就比较大了。你这种是懒人做法，道理和我们到nginx下去做301规则其实是一样的
        
        阿明 2015-4-18 · 9:27
        
        我理解的301重定向和url转发是有区别的，url转发本质上没有绑定网站，不知道我的理解对不对，见笑了
        
        Jager 2015-4-18 · 9:30
        
        是这样的，你的url转发是从DNS或主机面板设置的，实际在你设置完成后，DNS或主机商给你做了绑定，只是这个过程你是看不到的，所以你的直觉是没有绑定网站。你这个做法是比较简单，一般人推荐使用。我只是在这个基础上，禁止搜索引擎访问跳转前的页面（判断蜘蛛UA返回禁止或404，搜索引擎就以为页面不存在了），而用户访问就跳转到我们想展示的页面。这样既不妨碍用户访问，搜索引擎也访问不到跳转前的页面。
阿邦 2015-11-10 · 23:20

RewriteEngine on
RewriteCond %{HTTP_HOST} ^www.zhang.ge [NC]
RewriteRule ^robots.txt wrobots.txt [L]
RewriteCond %{REQUEST_FILENAME} !robots.txt
RewriteRule ^(.*) https://zhang.ge/$1 [R=301,L] 用了这个代码后网页打不开了显示此网页包含重定向求解啊博主。
wordpress优化 2016-1-9 · 17:03

目前百度仅支持nofollow和noarchive
- Jager 2016-1-9 · 17:20
  
  支持，但不完全遵守。。。无力吐槽。
66fxw.com 2017-1-10 · 1:05

貌似你已经解决了这个问题，能告知下怎么解决的吗？我的是papstudy的apache环境，合理付费求助！
- Jager 2017-1-10 · 10:33
  
  文章不是已经分享了方法吗
jiansing 2017-5-29 · 21:56

感觉似乎有更简单的方法，用cloudxns给非首选域名添加一条专门用于百度搜索的解析，随便解析到一个无法访问的IP即可
- Jager 2017-5-29 · 22:03
  
  这个是可以的，只是cloudxns的搜索引擎线路并不准确，可以使用百度抓取工具去测试解析结果是否可以从cloudxns定义，我当初也是因为这个原因才切到dnspod。cloudxns 的产品经理也跟我说并不准确，当然现在不知道如何了。。。。
测试 2019-4-30 · 21:35

现在，无论是用抓取诊断还是用站长之家的模拟抓取，都将返回 404 错误 66666666666666666666666666666666666666666666666666666666666666666666666666666
今日樟树 2020-4-10 · 15:09

我网站是discuz在header.php里加上下面代码网站就打不开了？是加错了位置吗
佛系软件 2021-4-14 · 10:48

我用主域名，www域名301跳转主域名，需要禁用www域名的收录，用这个META有用吗