物理学在说话之百度的三连击《论如何学习seo》(第四集)
本文其实我去年七月就发表过,但是现在经常能看到大家还在讨论这个问题,所以,本文是从前的修订版。
本文是旨在讨论百度对网站自动描述(description)抓取的基本原理。
在此先解释一个英文“HIT”,喜欢看棒球或者拳击比赛的朋友对这个词一定不会陌生。翻译成中文就是:打,击中。本人高中时代曾经在体校学习过一段时间散打,教练曾跟我说,你要学会打出组合拳狠击对手,不要多,就击打三次,用你最快,最准,最擅长的方式。而打出第一拳到出第二拳中间耗费的时间就是你所消耗的物理空间距离。现在在百度的搜索技术中一样存在这个概念。
言归正传,se(搜索引擎的缩写)中hit是什么呢?就是你的关键词在文档中,词与词之间的距离。
例如:耿小平是点石论坛的新手区的版主,小平家住北京,小平也是北京的搜索优化专家。
以(A)title为小平,和以(B)title为北京个举两个例子。我们现在来算一下他们的物理距离。即:第一个出现小平位置到第二个小平出现的位置,再由第二个小平出现的位置到第三个小平出现的位置之间相隔的字数。
第一词(A)hit距离是(12,4)
第二词(B)hit距离是(4)
如果,你现在能正确数的出来,我们来进入下一步实战,百度实际网页中描述的自动抓取。
现在,我们去随机找几个关键词来验证。
第一个词:中国
以排名第2的百度百科为例,因为这个网页head区没有描述(description)。现在我们来网页中抓取3段hit距离最短的文字。
重点:因为百度里描述一般在100至120个汉字,所以百度抓取的时候,一般平分为1至3段文字,如果(正文规则)一段就达到120字就不再继续抓取。而且这一段文字要出现“中国”这个关键词最多,频率最高,也是hit的物理距离最小的位置。
现在我们发现有两个位置出现的最密集。
如
图1,
图2。
ok,我现在看一下百度是不是这么抓取的。
第二个词:邓小平
我们选择排名第一的中国经济网的一个网页。这个网页head区同样没有描述(description)。
现在我们发现有两个位置出现的最密集。
如
图1,
图2,
(问题:为什么选择第2个分段,因为第2个分段离第3个分段关键词出现的物理距离比较近。这样也符合人类阅读的方式,可以看一段精彩的故事内容,但不能看一个故事开口,然后就看故事结尾。)
现在我们在看一下百度自动抓取的描述内容。
实验到此结束。
我想通过上面的讲述,你应该可以自己判断出百度抓取的技巧。
编后:前一段时候被误会了,我真的不是研究黑帽作弊的。研究黑帽作弊需要相当的计算机知识。说实话,能做到黑帽的人不简单,我是相当佩服。我这点多亏于07年跟seo大地老哥学了一些皮毛,因为我们都姓耿,也算是一家子,所以比较投缘就学了一点点。其实,我可以明确的告诉新手,现在搜索引擎也就是幼儿阶段,只要你目光足够敏锐,他不过是一个玩具而已。(益智玩具,这个我很差,不能得罪人呀~)其实一直想写一篇叫《蜘蛛的眼睛》的文章,这个已经构思的很成熟了。不过,想到估计八月底估计要在北京找SEO的工作,还是留给应聘时的考官大人吧。
本集就到此吧,点石的新人们,我们要牵着百度的鼻子走。
下集预告 hello father