<?xml version="1.0" encoding="UTF-8"?>
<rss version="2.0"
	xmlns:content="http://purl.org/rss/1.0/modules/content/"
	xmlns:wfw="http://wellformedweb.org/CommentAPI/"
	xmlns:dc="http://purl.org/dc/elements/1.1/"
	xmlns:atom="http://www.w3.org/2005/Atom"
	xmlns:sy="http://purl.org/rss/1.0/modules/syndication/"
	xmlns:slash="http://purl.org/rss/1.0/modules/slash/"
	>

<channel>
	<title>自觉博客 &#187; 采集</title>
	<atom:link href="http://www.findself.cn/tag/%e9%87%87%e9%9b%86/feed" rel="self" type="application/rss+xml" />
	<link>http://www.findself.cn</link>
	<description>分享，交流，共勉！</description>
	<lastBuildDate>Tue, 15 Feb 2011 12:47:07 +0000</lastBuildDate>
	<language>en</language>
	<sy:updatePeriod>hourly</sy:updatePeriod>
	<sy:updateFrequency>1</sy:updateFrequency>
	<generator>http://wordpress.org/?v=3.0.4</generator>
		<item>
		<title>当搜索引擎的爬虫邂逅新浪的采集蜘蛛</title>
		<link>http://www.findself.cn/search-engine-vs-sina.html</link>
		<comments>http://www.findself.cn/search-engine-vs-sina.html#comments</comments>
		<pubDate>Mon, 28 Sep 2009 07:08:34 +0000</pubDate>
		<dc:creator>老莫</dc:creator>
				<category><![CDATA[再见！]]></category>
		<category><![CDATA[新浪]]></category>
		<category><![CDATA[采集]]></category>

		<guid isPermaLink="false">http://www.findself.cn/?p=188</guid>
		<description><![CDATA[当搜索引擎的爬虫邂逅新浪的采集蜘蛛时，不知道会撞出什么用的火花？一直以来，鄙人很不情愿的相信，新浪能一天靠人力更新那么多篇文章，鄙人所在的公司在新闻领域算是佼佼者了，但是公司的门户网站每天的收录数却仅仅是新浪收录数的零头。]]></description>
			<content:encoded><![CDATA[<p>当搜索引擎的爬虫邂逅新浪的采集蜘蛛时，不知道会撞出什么用的火花？一直以来，鄙人很不情愿的相信，新浪能一天靠人力更新那么多篇文章，鄙人所在的公司在新闻领域算是佼佼者了，但是公司的门户网站每天的收录数却仅仅是新浪收录数的零头。新浪的原创新闻相当少，但是百度，Google都似乎相信这些新闻就是新浪写的。新浪“转载”其他网站新闻的速度之快，内容之多，不得不让广大做网络工作的人佩服。要做到这样几乎不留痕迹的“转载”，在技术上时很难的。其中这些“转载”技术欠火候的门户就包括腾讯。</p>
<p>好了，用图片说话。以下是鄙人今天收集的几个门户采集的证据。确实有点少，也不能怪我，是在没啥时间专门去整理。</p>
<div id="attachment_191" class="wp-caption aligncenter" style="width: 649px"><a href="http://www.findself.cn/wp-content/uploads/2009/09/sina11.jpg"><img class="size-full wp-image-191" title="新浪采集证据一" src="http://www.findself.cn/wp-content/uploads/2009/09/sina11.jpg" alt="新浪采集证据一" width="639" height="184" /></a><p class="wp-caption-text">新浪采集证据一</p></div>
<p style="text-align: center;">点这里浏览网页：<a href="http://news.sina.com.cn/c/2009-09-08/161316262014s.shtml">http://news.sina.com.cn/c/2009-09-08/161316262014s.shtml</a></p>
<p>我们不难发现，这条新闻的标题给写错了，这错误有点可笑，恐怕没有编辑敢在发新闻的时候不检查标题。为了印证这条新闻是采集来的，我们可以在页面中点击 <a href="http://xmwb.news365.com.cn/zg/200909/t20090908_2457845.htm">新民晚报</a> 。见图：</p>
<div id="attachment_192" class="wp-caption aligncenter" style="width: 707px"><a href="http://www.findself.cn/wp-content/uploads/2009/09/xinmin.jpg"><img class="size-full wp-image-192" title="新民晚报" src="http://www.findself.cn/wp-content/uploads/2009/09/xinmin.jpg" alt="新民晚报" width="697" height="119" /></a><p class="wp-caption-text">新民晚报</p></div>
<p style="text-align: center;">点击浏览 <a href="http://xmwb.news365.com.cn/zg/200909/t20090908_2457845.htm">http://xmwb.news365.com.cn/zg/200909/t20090908_2457845.htm</a></p>
<p>很不幸，标题一致。日期一致，要是新民晚报能显示发布的具体时间，我们就能更加肯定新浪在采集。</p>
<p>这里还发现了腾讯财经的证据：</p>
<div id="attachment_193" class="wp-caption aligncenter" style="width: 598px"><a href="http://www.findself.cn/wp-content/uploads/2009/09/tengxun.jpg"><img class="size-full wp-image-193" title="腾讯采集的证据" src="http://www.findself.cn/wp-content/uploads/2009/09/tengxun.jpg" alt="腾讯采集的证据" width="588" height="131" /></a><p class="wp-caption-text">腾讯采集的证据</p></div>
<p style="text-align: center;">点击浏览：<a href="http://finance.qq.com/a/20090923/003600.htm">http://finance.qq.com/a/20090923/003600.htm</a></p>
<p>文章里的js被过滤到了，但是文本没有被过滤掉。当然也可以理解为编辑失误。这个证据有点弱。</p>
<p>要让搜索引擎误认为新闻是你发的，我认为要至少要做到以下两点：</p>
<p style="padding-left: 30px;">1.转载速度，这一点新浪的技术是很牛的，不用想太多，新浪和广大的搜索引擎一样，都在各种新闻门户站投放了常驻蜘蛛，那边一发表，新浪这边就已经入库，发表了。</p>
<p style="padding-left: 30px;">2.整站的权重，这一点是相当重要的，蜘蛛在取回数据之后，按的权重来分出优先级，新浪的权重毋庸置疑的要高出绝大部分新闻门户站，当然，新华网，人民网，估计和他差不错。所以这两个网站的新闻的排名还不错。</p>
<p>就现在看来，当搜索引擎的爬虫邂逅新浪的采集蜘蛛时，新浪的蜘蛛更加狡猾些。希望搜索引擎要注意，在中国能写出好新闻的不止新华网，人民网，还有很多。新浪便宜占太多啦。</p>
<p>今天就写到这，估计大家比我发现的还多，那么别藏着掖着，拿出来。</p>
]]></content:encoded>
			<wfw:commentRss>http://www.findself.cn/search-engine-vs-sina.html/feed</wfw:commentRss>
		<slash:comments>2</slash:comments>
		</item>
	</channel>
</rss>

