什么是LSI（隐性语义索引）？

感谢Lisa D Myers，她的评论让我又知道了一个“古老”的概念：LSI (Latent Symantic Indexing)，Google一番后，发现还有一个相对应的词LSA(Latent Symantic Analysis)。英文看了半天不耐烦，于是中文查了一下：

（中文文章是2006年的）

传统的搜索引擎算法基于关键词（包括网页中的关键词和锚文本）：搜索引擎通过统计特定网页中关键词的位置、密度以及链接Anchor Text中的关键词甚至URL中的关键词，从而按照匹配程度给出与用户搜索项相关的结果，这是之前计算机发展水平下搜索引擎对“向用户提供所需内容”的最接近模拟。但不能解决一词多义和一义多词的问题，LSI算法正是试图解决这个问题而诞生的。

LSI（Latent semantic indexing ，隐性语义索引）算法通过绕开自然语言理解，以大样本数量的统计分析找出不同的词(词组、短语)间的相关性，其实现机制是在正常的网页收录与索引过程中增添了一个步骤：不仅仅简单地统计、分析网页及链接中的关键词，还将该网页与索引数据库中其他包含相同关键词或部分相同关键词的网页进行比对，以确定不同网页间的语义相关性以及网页与特定关键词间的相关性，同时，将具有高语义相关性的网页进行比对分析，从中找出特定网页中存在关键词的相关项，即找出特定网页中虽然并不存在但与其内容相关的关键词。

多数人注意的是可能是其中的Semantic (语义有关的)，但Latent Semantic Indexing方面的技术文档则往往更强调Latent (潜在的、隐含的)，而非简单意义的语义相关。比如说对“水”一词而言，与其语义相关的可能是“热水”、“凉水”之类，但潜在相关的则可以是“蒸汽”、“冰”等。这里有很大区别。一般认为，它最先被用于AdWords/AdSense广告系统，用于分析特定网页与广告之间的相关性，从而将最具有文本相关性的广告投放到特定网页上。随后才将其引入到排名算法中。起初权重很小，在去年开始的Jagger与BigDaddy更新中逐步提升其权重。