新浪的文章是采集而来的么?这个问题估计好多好多同志都会问。事实上,我一直都是认为新浪的新闻都是采集而来的。这段时间我留意了下新浪文章里的一些细节,前段时间我写过一篇《当搜索引擎的爬虫邂逅新浪的采集蜘蛛》,文中已经用实例证明了新浪的内容采集。
几天我在浏览新闻的时候,无意中又看到了一篇有意思的文章,见图:
很有意思吧,估计目标网站新加了个评分系统,采集程序里没有加入过滤算法。新浪的采集程序的技术含量很高这是必然的,很强,也很暴力。那些靠编辑手工人力发表文章的有新闻资质的网站要回去研究研究了。采集是个好东西。
顺便提一句,网易的内链聚合页很暴力。下一篇文章我会提到的。
本文链接:http://www.findself.cn/sina-caiji.html
作者:老莫
出自:自觉博客

是好久都没更新博客了,都忙着做别的站呢。对了,刚才回访了你的博客,速度很快呀。用的是哪的主机?
怎么还没有下一篇文章哦?