搜索引擎抓取搜索引擎

搜索“site:googlefans.net”
在百度中有50页,也就是500页;
在狗狗中则有100页,约1090页;
这两个数字令偶很满意…

搜索“site:mp3.tom.com”
在百度中只有一个页面
在狗狗中约194页;
这个问题偶在《百度的防御》里写过…

搜索“site:mp3.sina.com.cn”
百度中只有一篇
狗狗中则有64100篇

从百度和狗狗的对偶blog的收录来看,两个搜索引擎对静态、动态网页的支持都不差,虽然数字上有着近一半的差异,但是百度的数字更接近偶站点真实的页面数目。
通过对mp3.tom.com和mp3.sina.com.cn两个域名的页面收录数量对比,又可以清楚得知,百度并非不能收录,而是不愿收录。
这是百度对待竞争对手的手段。

而百度本身却生成了大量静态页面,以期望除己之外的搜索引擎收录,以达到搜索引擎优化的目的。
site:mp3.baidu.com
百度网页收录70200页;

狗狗收录71600,甚至超过百度自身收录的数量;

而一搜对百度的收录很搞笑,在一搜中搜索”site:mp3.baidu.com”,出来的1815个结果,竟然大部分是直接指向MP3下载的链接,可以当做MP3搜索使用了。(而抓取到链接还是百度先前做的那套把戏,真实的URL隐藏在mp3.baidu.com后面,而日前百度为了尽可能避免版权风险,链接已经恢复原状,显示原链接,不做任何伪装了。)

偶猜测一搜对百度是有成见的,因为偶在一搜中搜索“hao123,hao123.com,hao123.net,site:hao123.com,site:hao123.net”,统统会跳转到新闻搜索去。不过一搜似乎忽略了www.hao222.com,www.hao222.net…这俩同样是hao123的镜像。

罗嗦了半天,偶要说到重点了。
在狗狗中搜索眼下流行的歌曲,如“披着羊皮的狼”“你到底爱谁”酸酸甜甜就是我“”别说我的眼泪你无所谓“”我的心里只有你没有他“…等等N多歌曲,百度生成的静态页面都能排在前几位,多数在第一位…这说明百度的优化做的好,狗狗也十分钟情从百度页面上的链接。

而在这些歌曲的搜索结果的前几页,还能经常发现国内另外一个搜索引擎的身影,它就是新浪的MP3搜索。与百度不同的是,新浪被收录和排名位置较高的页面是动态页面。

偶同时搜索”site:search.tom.com“,狗狗收录了72900页,和新浪MP3差不多,和爱问的345000差距较大。
但让偶更吃惊的是居然收录百度1,180,000个页面,QQ.com也不过1400000而已。

通过以上一系列的列举数字。
偶得出的结论是:
一、由于搜索引擎对于动态页面的支持越来越好,动态页面的优化也存在较大的潜力可挖;
新浪的动态页面在狗狗中排名就比较高;
二、百度是个值得学习的竞争对手

TOM搜索和新浪搜索被狗狗抓取的页面,标题和摘要中都出现了乱码,即使是被用户搜索到了,点击过去,也是错误或无效的链接。而百度的动态页就没有这个问题。

“搜索引擎抓取搜索引擎”的一个回复

评论已关闭。