Shell+Curl网站健康状态检查脚本,抓出中国博客联盟失联站点

一开始搭建中国博客联盟,既有博友提醒我,做网址大全这类网站维护很麻烦,需要大量的精力去Debug一些已夭折的网站,更是拿松哥的博客大全举例。当然,我也是深以为然。前些时间,看到梦轩丽人的boke123网址大全的维护记录,好像是纯手工检查,张戈实在是佩服的五体投地,太有毅力了。

现在博客联盟也收录的博客也已破200了,全部来自自主提交,不管你是草博还是名博,张戈不会强买强卖。由于大部分都是建站不过半年的新站,半路放弃、提前太监的博客估计还是有的,于是我决定还是把站点维护这个工作做起来。

上午用PHP做了一个放到了京东云试了下,发现检测速度一般,要等上半天(我写的php太蹩脚,就不献丑了)。

随后,我在VPS上写了一个多线程的网站状态检测脚本,直接从数据库load站点地址,然后用curl去检测返回码,发现速度非常好,基本1分钟内就能出结果

以下是脚本代码:

Ps:关于shell多线程脚本,后续文章会有一个详细说明,本文篇幅有限,就不多说了。

以下是中国博客联盟第一次成员站点存活检测的结果:

①、 非200返回码的异常站点:

Shell+Curl网站健康状态检查脚本,抓出中国博客联盟失联站点

②、脚本抓取的无法访问站点:

Shell+Curl网站健康状态检查脚本,抓出中国博客联盟失联站点

人工访问筛选结果:

wangyingxue.net(王英学博客):无法访问,经确认处于备案中  √

www.tao0102.com(长江博客):可以访问  √

blog.hack7d.com(Mcdull技术博客):无法访问  ×

www.1992621.com(教师日记):可以访问  √

www.3miaotu.com(三秒兔):无法访问   ×

xiaoxiaomayi.com(小小蚂蚁博客):可以访问 √

www.awrui.com(李文栋博客):可以访问  √

Ps:脚本检测机制为:8s内未连通的判定为异常,并重试3次,最后输出结果,若三次均异常则为000。从图中和人工筛选可以看出,存在一些误杀,这个和8s的设定有一定关系。可以考虑设置为更长时间,得到更准确的结果,当然最终还是要结合人工确认的,所以也没多大关系。

后续,中国博客联盟会制订一个检查周期,最短每星期检查一次,最长一个月检查一次,争取让每个展示的站点都能正常访问。当然,我也会将每次检查的结果公布在中国博客联盟的站长资讯专栏,方便所有成员查看。

由于目前中国博客联盟部署在京东云擎,无法远程操控数据库,所以只好暂时用半自动的模式。等以后有时间搬到了阿里云等VPS上后,将会将脚本改成全自动状态,当有网站联系多次检测为失联状态时,将会暂时将其设置为隐藏状态。

发表评论

gravatar

:?::razz::sad::evil::!::smile::oops::grin::eek::shock::???::cool::lol::mad::twisted::roll::wink::idea::arrow::neutral::cry::mrgreen:

刷新评论

目前评论:12   其中:访客  9   博主  3

  1. 锐星文化 1 来自天朝的朋友 未知浏览器 Unknow Os 广东省中山市 电信

    这个看着不错的样子

  2. Phnomi 4 来自天朝的朋友 未知浏览器 Unknow Os 天津市 联通

    厉害……

  3. 鞋材 0 来自天朝的朋友 未知浏览器 Unknow Os 福建省泉州市晋江市 电信

    不懂的飘过

  4. 动漫资讯 5 来自天朝的朋友 未知浏览器 Unknow Os 广东省中山市 电信

    博主越来越厉害了哈

  5. 梦轩丽人 6 来自天朝的朋友 未知浏览器 Unknow Os 广西百色市 电信

    每次都能看到博主推出新的东西,太厉害了!如果一个网站能打开,但是只显示一个错误页,能不能检测?博主有空也帮我做一个本地操作,人工导入网址也行

  6. 热腾网 6 来自天朝的朋友 未知浏览器 Unknow Os 河北省石家庄市 联通

    丽人也可以采用下,要不站点多了维护是个问题。

  7. 博客导航网 1 来自天朝的朋友 未知浏览器 Unknow Os 江西省南昌市 电信

    您这么流弊,我在想如果您愿意帮我就好啦,我自认为有一大堆好的创意,可惜技术不行实现不了!

    • 张戈 [博主] 来自天朝的朋友 未知浏览器 Unknow Os 广东省深圳市 电信

      可以入群交流。

  8. SEO顾问 4 来自天朝的朋友 谷歌浏览器 Windows 7 河北省廊坊市 联通

    curl $line www.baidu.com -m 5 –connect-timeout 5 -o /dev/null -s -w “$line “%{http_code}”\n”;done,跟我这篇文章中提到的办法有点像http://seofangfa.com/shell/shell-extract-404-pages.html

    • 张戈 [博主] 来自天朝的朋友 谷歌浏览器 Windows 7 广东省深圳市 电信

      原理一样,你可以试试多线程。

  9. SEO顾问 4 来自天朝的朋友 谷歌浏览器 Windows 7 河北省廊坊市 联通

    群号多少?

    • 张戈 [博主] 来自天朝的朋友 谷歌浏览器 Windows 7 广东省深圳市 电信

      群号:272279261

加载中,请稍候...