当搜索引擎的爬虫邂逅新浪的采集蜘蛛时,不知道会撞出什么用的火花?一直以来,鄙人很不情愿的相信,新浪能一天靠人力更新那么多篇文章,鄙人所在的公司在新闻领域算是佼佼者了,但是公司的门户网站每天的收录数却仅仅是新浪收录数的零头。新浪的原创新闻相当少,但是百度,Google都似乎相信这些新闻就是新浪写的。新浪“转载”其他网站新闻的速度之快,内容之多,不得不让广大做网络工作的人佩服。要做到这样几乎不留痕迹的“转载”,在技术上时很难的。其中这些“转载”技术欠火候的门户就包括腾讯。
好了,用图片说话。以下是鄙人今天收集的几个门户采集的证据。确实有点少,也不能怪我,是在没啥时间专门去整理。
点这里浏览网页:http://news.sina.com.cn/c/2009-09-08/161316262014s.shtml
我们不难发现,这条新闻的标题给写错了,这错误有点可笑,恐怕没有编辑敢在发新闻的时候不检查标题。为了印证这条新闻是采集来的,我们可以在页面中点击 新民晚报 。见图:
点击浏览 http://xmwb.news365.com.cn/zg/200909/t20090908_2457845.htm
很不幸,标题一致。日期一致,要是新民晚报能显示发布的具体时间,我们就能更加肯定新浪在采集。
这里还发现了腾讯财经的证据:
点击浏览:http://finance.qq.com/a/20090923/003600.htm
文章里的js被过滤到了,但是文本没有被过滤掉。当然也可以理解为编辑失误。这个证据有点弱。
要让搜索引擎误认为新闻是你发的,我认为要至少要做到以下两点:
1.转载速度,这一点新浪的技术是很牛的,不用想太多,新浪和广大的搜索引擎一样,都在各种新闻门户站投放了常驻蜘蛛,那边一发表,新浪这边就已经入库,发表了。
2.整站的权重,这一点是相当重要的,蜘蛛在取回数据之后,按的权重来分出优先级,新浪的权重毋庸置疑的要高出绝大部分新闻门户站,当然,新华网,人民网,估计和他差不错。所以这两个网站的新闻的排名还不错。
就现在看来,当搜索引擎的爬虫邂逅新浪的采集蜘蛛时,新浪的蜘蛛更加狡猾些。希望搜索引擎要注意,在中国能写出好新闻的不止新华网,人民网,还有很多。新浪便宜占太多啦。
今天就写到这,估计大家比我发现的还多,那么别藏着掖着,拿出来。



顶一下,学了一个新词:常驻蜘蛛!
@GWang, 客气。。客气。。