记住,“蜘蛛”是个抓取“程序”,不是“人工智能”。他不会用人类的判断逻辑来判断相关性,而是一些“逻辑程序”,毕竟蜘蛛程序并不复杂(相对而言)。
明白了上述情况,我来说说我自己对“相关性”的看法和建设心得,不对之处,还请大家指正。
你的网页和你网页中的内容相关性,在蜘蛛程序中的判断:
假设你的网页是新的网页,刚做了不到2天,刚提交,蜘蛛根据"抓取索引",过来抓取(或通过其他形式的链接)。
首先,蜘蛛通过各种连接来到了你的网页,对于他来说,新的网页特征就是从网页代码中的head部分中的title标签里的元素来判断的。
假设蜘蛛来到的你这个网页,抓取了网页中的title文字:我的动漫论坛 -新动漫 - 动漫新主张!蜘蛛首先会以抓取title中的文字做为“关键词”为参考,然后去从网页代码中去寻找相关的“关键词”。
你可以放心,蜘蛛可以判断一些JS代码和页面中的标签,他会比较重视正文和div块中的标题部分的“关键词”,也就是h1-h4一系列的。这也可以验证大家说的,为什么h1-h4中的内容,会比其他body中的文本内容权重高的原因。然后蜘蛛会把tilte中在正文body部分重复次数最多的词,定为 “参考关键词”(当然了,有个重复限度,搜索引擎会设定并嵌入蜘蛛程序里)。
然后蜘蛛自己也会根据“参考关键词”判断“关键词扩展”(根据搜索引擎的相关类的常用数据关键词和title中关键词分析对比),综合以上,确定大体的“关键词”,做为下一步页面抓取的参考。
下一步,蜘蛛会计算(这个简单的数据计算功能还是有的)所有关键词在网页代码中出现的数量,作为基数。然后计算body标签中“关键词”的数量,作为分子(汗,想不出什么词了,通俗第一)。然后一除,就得出了你这个页面的关键词密度。
密度出来了以后,搜索引擎自己会有个标准判断(人为设计的参数),有个等级,?-?是最合理的,?—?是一般的,?—?是最差的,这个标准时刻在变,总之是根据一段时期的数据进行调整的(就是让你隔段时间闹一回心)。
好了,密度的判断出来后,进行本页的关键词差别对比。
以tilte中的关键词为基础,综合了“扩展关键词”的参考,对比在body部分中抓取的“关键词”,对比他们每个文字上的差别。(比如搜索引擎定下的关键词为“动漫”,而body文本中有:动漫论坛,新动漫-等等),差别也分个等级,差别不大的,成为了长尾关键词,差别大的,就被舍弃做为这个页面的搜索关键词,这个和“关键词密度”判断方法相同。这样,页面长尾词和搜索关键词就确定了下来。
当密度和页面关键词差别这2项得到了2个结果后,会有个权数加的计算公式(引擎自己定的,也定期根据数据调整),得出一个对“相关性”的得分(类似baidu指数的算法),从而判断页面的关键词,确定页面内容和关键词的相关性联系程度。
页面的关键词和页面内容的相关性就这么得出来的。
那么,外部链接的相关性怎么判断?好,下面谈谈,进入第2部分
外部连接和网页相关性的判断:
单向链接:
他网页链接到你的网页的链接,在他的网页上,你网站的链接锚文字描述必须是和他链接到你的这个页面的关键词相关,或相近,蜘蛛的判断方法和第一部分一样,只不过起始的“关键词”参考,变成了在他网页上,你的网页的链接锚文字。
本文作者:关雷