网站建设

百度站内搜索全新改版:WordPress生成通用行业模板数据的php脚本

Jager · 11月16日 · 2014年 · · · 3587次已读

今早进入百度站长平台查看站内搜索时,发现百度站内搜索已全新升级到 2.0 版本!原先的站内搜索已经转移到了独立的二级域名:http://zn.baidu.com百度站内搜索全新改版:WordPress生成通用行业模板数据的php脚本

进一步查看发现站内搜索新增了一个结果页样式设置功能:

百度站内搜索全新改版:WordPress生成通用行业模板数据的php脚本包含如下三种自定义设置:

①、页面顶部设置

百度站内搜索全新改版:WordPress生成通用行业模板数据的php脚本

②、频道设置百度站内搜索全新改版:WordPress生成通用行业模板数据的php脚本

③、结果样式模板

百度站内搜索全新改版:WordPress生成通用行业模板数据的php脚本

其中我比较感兴趣的是频道设置,可以更加接近搜索引擎的风格,比如百度搜索:

百度站内搜索全新改版:WordPress生成通用行业模板数据的php脚本

仔细研究了一下这个频道设置,发现要区分不同的频道,有 2 种途径:

①、不同频道使用不同的二级域名(一般大站常有的做法,比如 news.163.com);

②、提交行业模板数据,每一组 XML 数据使用面包屑标签breadCrumb来区分该内容所在频道

很明显,张戈博客这种简单小站只能选择第二种方案,顺手把以前的 sitemap 脚本修改了下,就成功提交了!

下面分享这个 php 脚本的代码:

<?php
require('./wp-blog-header.php');
header("Content-type: text/xml");
header('HTTP/1.1 200 OK');
$posts_to_show = 5000; 
echo '<?xml version="1.0" encoding="UTF-8"?>';
echo '<urlset xmlns="http://www.sitemaps.org/schemas/sitemap/0.9" xmlns:mobile="http://www.baidu.com/schemas/sitemap-mobile/1/">'
?>
<!-- generated-on=<?php echo get_lastpostdate('blog'); ?> Diy By 张戈博客(https://zhang.ge)-->
<?php
//不带链接的标签函数
function tagtext() {
    global $post;
    $gettags = get_the_tags($post->ID);
    if($gettags) {
    foreach ($gettags as $tag) {
        $posttag[] = $tag->name;
    }
    $tags = implode( ']]></tag><tag><![CDATA[', $posttag );
    echo '<tag><![CDATA[' .$tags. ']]></tag>';
    }
}
function get_page_title($page_id){
	global $wpdb;
	$page_title = $wpdb->get_var("SELECT post_title FROM $wpdb->posts WHERE ID = '".$page_id."' AND post_status = 'publish' AND post_type = 'page'");
	echo $page_title;
}
/* 文章页面 */ 
header("Content-type: text/xml");
$myposts = get_posts( "numberposts=" . $posts_to_show );
foreach( $myposts as $post ) { ?>
  <url>
      <loc><![CDATA[<?php the_permalink(); ?>]]></loc>
      <lastmod><?php the_time('c') ?></lastmod>
      <changefreq>monthly</changefreq>
      <priority>0.6</priority>
       <data>
            <display>
                <title><![CDATA[<?php the_title(); ?>]]></title>
                <content><![CDATA[<?php echo strip_tags(apply_filters('the_content', $post->post_content));?>]]></content>
                <?php tagtext(); ?>
                <pubTime><?php the_time('c') ?></pubTime>
                <breadCrumb title="首页" url="<?php echo get_home_url(); ?>"/>
                <?php 
                    $category = get_the_category();
                    echo '<breadCrumb title="'.$category[0]->cat_name.'" '; 
                    $cat_ID = get_cat_ID($category[0]->cat_name); 
                    echo 'url="'.get_category_link($cat_ID).'"/>';
                ?>
                <thumbnail loc="<?php 
                    if (has_post_thumbnail()){
                         echo get_post_thumbnail_url($post->ID);
                    } else {
                    //若主题自带特色图片函数,请填写到此处,比如 echo catch_first_image();(可留空)
                    }
                ?>"/>
            </display>
        </data>
  </url>
<?php } /* 文章结束 */ ?>
<?php
/* 单页面 */ 
$mypages = get_pages();
if(count($mypages) > 0) {
    foreach($mypages as $page) { ?>
    <url>
      <loc><![CDATA[<?php echo get_page_link($page->ID); ?>]]></loc>
      <lastmod><?php echo str_replace(" ","T",get_page($page->ID)->post_modified); ?>+00:00</lastmod>
      <changefreq>monthly</changefreq>
      <priority>0.6</priority>
      <data>
            <display>
                <title><![CDATA[<?php get_page_title($page->ID); ?>]]></title>
                <content><![CDATA[<?php echo strip_tags(apply_filters('the_content', get_page($page->ID)->post_content));?>]]></content>
                <pubTime><?php echo str_replace(" ","T",get_page($page->ID)->post_modified); ?>+00:00</pubTime>
                <breadCrumb title="首页" url="<?php echo get_home_url(); ?>"/>
            </display>
        </data>
  </url>
<?php }} /* 单页面结束 */ ?>
<?php
/* 博客分类 */ 
$terms = get_terms('category', 'orderby=name&hide_empty=0' );
$count = count($terms);
if($count > 0){
foreach ($terms as $term) { ?>
    <url>
      <loc><![CDATA[<?php echo get_term_link($term, $term->slug); ?>]]></loc>
      <changefreq>weekly</changefreq>
      <priority>0.8</priority>
          <data>
            <display>
                <title><![CDATA[<?php echo $term->name; ?>]]></title>
                <content><![CDATA[<?php echo $term->description; ?>]]></content>
                <breadCrumb title="首页" url="<?php echo get_home_url(); ?>"/>
                <breadCrumb title="<?php echo $term->name; ?>" url="<?php echo get_term_link($term, $term->slug); ?>"/>
            </display>
        </data>
  </url>
<?php }} /* 分类结束 */?>
</urlset>

将以上代码保存为 sitemap_hy.php 上传到 WordPress 网站根目录即可,然后在浏览器访问这个文件查看效果,比如:

https://zhang.ge/sitemap_hy.php

百度站内搜索全新改版:WordPress生成通用行业模板数据的php脚本

只要不报错就成功了!现在就可以前往百度站内搜索提交了:http://zn.baidu.com/cse/schema/sitemap

百度站内搜索全新改版:WordPress生成通用行业模板数据的php脚本

成功提交后,继续打开频道设置,参考下图将你博客的主要分类填入到相应栏位即可:

百度站内搜索全新改版:WordPress生成通用行业模板数据的php脚本

第二列留空则表示输出全部搜索结果,如果有面包屑,则表示从提交的 sitemap 中筛出相同面包屑的内容,全部填写完成后点击保存并查看效果了,比如,张戈博客的站内搜索地址:http://so.zhang.ge

提交结果后,就只能等待百度抓取数据并展现了,所以短时间内将如下显示:

百度站内搜索全新改版:WordPress生成通用行业模板数据的php脚本

隔了一晚上发现张戈博客的站内搜索已经开始展现数据了:

百度站内搜索全新改版:WordPress生成通用行业模板数据的php脚本

 

缩略图和标题都已经有了,但是内容却是一个【略】,再次看了下百度关于这个数据文件的说明。

content:如能提交全文,则不需要 spider 再抓取,既可以降低站点服务器压力,提升收录效率,也可以避免搜索系统解析误差。

好吧,既然如此,我就再折腾一下,让 content 输出文章内容!(上文代码已更新!)

最后,如果你对百度站内搜索比较感兴趣,还可以看看张戈博客的其他相关文章:

PHP 制作百度站内搜索绿色通道的网页列表数据文件

关于新版站内搜索和行业数据模板的分享就到此告一段落,下面我会继续研究下站内搜索的页面顶部设置和结果样式设置,敬请期待!

18 条回应
  1. 我爱集分宝 2014-11-16 · 17:04

    功能越来越丰富了,你的站内搜索呢?有几次想找东西都没有看到搜索框

    • avatar
      Jager 2014-11-16 · 17:30

      你浏览器缩放了吧?

  2. 中国历史 2014-11-17 · 9:34

    你做的百度搜索,搜索结果页的广告都是你的?
    http://so.zhang.ge/cse/search?s=11196058821421648414&q=%E8%BF%90%E7%BB%B4

    • avatar
      Jager 2014-11-17 · 9:36

      当然是我的,我总不可能帮别人放广告吧~

  3. 叶德华 2014-11-17 · 16:47

    我没张哥那么牛叉,就只提交了个链接,全文就没拉!

  4. 夏日博客 2014-11-18 · 13:24

    百度的站内搜索还是比较给力的,打算给门户站做一个。

  5. 海盗湾 2014-11-20 · 18:25

    那个页面上传根目录,访问出错了

    This page contains the following errors:

    error on line 300 at column 76: AttValue: ' expected
    Below is a rendering of the page up to the first error.

    • 七弦琴 2014-11-21 · 20:58

      我也遇到了。。没有发现是怎么回事。。

      • avatar
        Jager 2014-11-21 · 23:30

        这个代码的兼容性确实难搞,各自博客会出各种错误,只能针对性的修复。

        • 七弦琴 2014-11-22 · 14:52

          好吧。。我以为你手误了。。那我排查下原因吧。。

          • 海盗湾 2014-11-22 · 23:35

            大神,你弄出来没

  6. 最新hosts 2014-11-22 · 10:38

    发现一奇怪的事 之前用Jager兄的前篇免插件生成sitemap 生成sitemap并提交百度站内搜索正常抓取一段时间后 百度突然自己把我提交的链接给撤掉了 再加加不上了 要我联系站长平台邮箱 现在还没回复 我去站长平台看了一下 好像普通的sitemap 现在也是必填了

    • avatar
      Jager 2014-11-22 · 18:24

      普通的是需要开通权限呢

      • 最新hosts 2014-11-23 · 11:38

        不是 我是说站内搜索里的正常sitemap 不是那种行业数据的 貌似也要data了

  7. Yephy 2015-7-6 · 23:01

    按照张哥的代码写了php文件,解决检查出错……地址:http://www.yephy.com/sitemap_hy.php
    麻烦张哥看一下,那个错误怎么解决……现在向百度提交就被告知错误的XML格式……
    我也是醉了!
    最好想问下张哥,如何做一个独立的页面 http://so.域名 这样的格式啊?

    • avatar
      Jager 2015-7-7 · 19:45

      这个行业sitemap现在几乎没用了,不用去研究了。
      so.zhang.ge是百度站内搜索cname域名

      • 广州交通保险律师 2015-7-8 · 21:31

        请问张哥,如何安装百度站内搜索,加代码在哪个页面?

  8. 有个问题问 2016-9-12 · 10:07

    请问:让content输出内容那点是怎么弄的?