什么是HillTop算法?
by Pickle Cai
今天一天都在整理我的Google搜索ppt,居然误打误撞地碰到了一个重量级算法:HillTop算法。
来源:http:http://www.indexseo.cn/news/380.html,文章时间是09年9月,真正的算法诞生并投入沙场远在这个时间之前。
HillTop算法是一种查询相关性链接分析算法,克服了的PageRank的查询无关性的缺点。集PageRank,HITs、相关性算法大成于一身,由康柏系统研究中心的Krishna Bharat和多伦多大学的George A.Mihaila在2001年提出并申请了专利,后授权于Google,2003年12月Google算法更新,其成为Google核心排名算法之一。
简单的说HillTop算法是针对热门查询关键词来对搜索结果重新排序的一种算法。之所以针对热门关键词,这是因为HillTop算法运行效率较低的原因。
两个过程:
专家页面的寻找和评分
成为专家页的2个必要因素:
必须拥有足够多而且不存在隶属关系的出链
至少存在一个短语包含该热门关键词的所有术语。
确定专家页以后,在该页面上找出所有全部包含热门关键词中术语、或者差1到2两个术语的短语,将这些短语分为三个等级,分别为全部包含,差1个和差2个术语,分别对这个三等级计算等级分,等级是分对各个等级中所有短语得分的和,而短语得分取决于这个短语在页面中位置,分数从高到低依次标题、头部和锚文本等等,然后的综合计算这个三个等级得分就得到专家分。
这三个等级权重相差非常大,在原算法的等级1到等级3的权重分别是2^32,2^16和1,因为HillTop更喜欢完全匹配。
对目标页评分
一个专家页对目标页的评分等于专家本身分值×专家页可区分的短语数量。
取前N个指向目标页的专家页,对于多个同一隶属的专家页指向该目标页,取分值最高的专家页,然后这些专家页对目标网页的评分的和就得到,这个页面对应这个热门关键词的得分,有人称之为行业得分。
评价:HillTop算法存在一种博弈的思想,在链接方面同行业的网站既需要竞争更需要合作,只有被同行“认可”的网站对热门关键关键词的查询才会被排在前面。
通过不同等级的评分确保了评价结果对关键词的相关性;
通过不同位置的评分确保了主题(行业)的相关性;
通过可区分短语数防止了关键词的堆砌。
基于“专家”文档的HillTop算法最大的难点是第一次“专家文档”的筛选,从目前的观察来看:Google显然首先给了教育(.edu),政府(.gov)和非盈利组织(.org)站点很高的优先级。
ps.
Google会根据主题的热门程度动态调整相应网站的索引的强度。即含有那些突增的搜索关键字的网站会得到较快的更新频率。如关于:”SARS”,每天的搜索次数数以百万计:Google就会优先对与这个主题有关的网站进行更新。
再一次ps.
此算法年代久远,很可能又变了细节,待考证。
Subscribe via RSS