新浪采集系统露出的马脚(图)

新浪的文章是采集而来的么?这个问题估计好多好多同志都会问。事实上,我一直都是认为新浪的新闻都是采集而来的。这段时间我留意了下新浪文章里的一些细节,前段时间我写过一篇《当搜索引擎的爬虫邂逅新浪的采集蜘蛛》,文中已经用实例证明了新浪的内容采集。

几天我在浏览新闻的时候,无意中又看到了一篇有意思的文章,见图:

新浪采集

新浪采集

很有意思吧,估计目标网站新加了个评分系统,采集程序里没有加入过滤算法。新浪的采集程序的技术含量很高这是必然的,很强,也很暴力。那些靠编辑手工人力发表文章的有新闻资质的网站要回去研究研究了。采集是个好东西。

顺便提一句,网易的内链聚合页很暴力。下一篇文章我会提到的。

本文链接:http://www.findself.cn/sina-caiji.html

作者:老莫

出自:自觉博客

Post Author

This post was written by 老莫 who has written 100 posts on 自觉博客.

2 Responses to “新浪采集系统露出的马脚(图)”

  1. 老莫 2009年11月27日 at 11:44 下午 #

    是好久都没更新博客了,都忙着做别的站呢。对了,刚才回访了你的博客,速度很快呀。用的是哪的主机?

  2. 星网 2009年11月24日 at 5:03 下午 #

    怎么还没有下一篇文章哦?

Leave a Reply