今天一天都在整理我的Google搜索ppt,居然误打误撞地碰到了一个重量级算法:HillTop算法。

来源:http:http://www.indexseo.cn/news/380.html,文章时间是09年9月,真正的算法诞生并投入沙场远在这个时间之前。

HillTop算法是一种查询相关性链接分析算法,克服了的PageRank的查询无关性的缺点。集PageRank,HITs、相关性算法大成于一身,由康柏系统研究中心的Krishna Bharat和多伦多大学的George A.Mihaila在2001年提出并申请了专利,后授权于Google,2003年12月Google算法更新,其成为Google核心排名算法之一。

简单的说HillTop算法是针对热门查询关键词来对搜索结果重新排序的一种算法。之所以针对热门关键词,这是因为HillTop算法运行效率较低的原因。

两个过程:

专家页面的寻找和评分

成为专家页的2个必要因素:

必须拥有足够多而且不存在隶属关系的出链

至少存在一个短语包含该热门关键词的所有术语。

确定专家页以后,在该页面上找出所有全部包含热门关键词中术语、或者差1到2两个术语的短语,将这些短语分为三个等级,分别为全部包含,差1个和差2个术语,分别对这个三等级计算等级分,等级是分对各个等级中所有短语得分的和,而短语得分取决于这个短语在页面中位置,分数从高到低依次标题、头部和锚文本等等,然后的综合计算这个三个等级得分就得到专家分。

这三个等级权重相差非常大,在原算法的等级1到等级3的权重分别是2^32,2^16和1,因为HillTop更喜欢完全匹配。

对目标页评分

一个专家页对目标页的评分等于专家本身分值×专家页可区分的短语数量。

取前N个指向目标页的专家页,对于多个同一隶属的专家页指向该目标页,取分值最高的专家页,然后这些专家页对目标网页的评分的和就得到,这个页面对应这个热门关键词的得分,有人称之为行业得分。

评价:HillTop算法存在一种博弈的思想,在链接方面同行业的网站既需要竞争更需要合作,只有被同行“认可”的网站对热门关键关键词的查询才会被排在前面。

通过不同等级的评分确保了评价结果对关键词的相关性;

通过不同位置的评分确保了主题(行业)的相关性;

通过可区分短语数防止了关键词的堆砌。

基于“专家”文档的HillTop算法最大的难点是第一次“专家文档”的筛选,从目前的观察来看:Google显然首先给了教育(.edu),政府(.gov)和非盈利组织(.org)站点很高的优先级。

ps.

Google会根据主题的热门程度动态调整相应网站的索引的强度。即含有那些突增的搜索关键字的网站会得到较快的更新频率。如关于:”SARS”,每天的搜索次数数以百万计:Google就会优先对与这个主题有关的网站进行更新。

再一次ps.

此算法年代久远,很可能又变了细节,待考证。