Hilltop算法[15]是由KrishnaBaharat在2000年左右所研究的,用于发现与具体关键词主题性相关的文档。HillTop算法的指导思想和PageRank一致,都通过网页被链接的数量和质量来确定搜索结果的排序权重。但HillTop认为,来自具有相同主题的相关文档(专家文档)链接对于搜索者的价值会更大,即主题相关网页之间的链接对于权重计算的贡献比主题不相关的链接价值要更高。
Hilltop算法主要包含两个步骤:
(1)专家页面搜索。所谓专家页面就是关于某个主题的包含着很多非从属页面链接的网页。非从属页面是指两个页面分别属于两个来自非从属组织的作者,在预处理阶段,由搜索引擎的Crawler搜集来的网页的一个子集被辨识为专家页面集。
辨识专家页面的关键主要有:①剔除从属页面;②选择专家页面(Out.Link大于阈值k);③对专家页面进行索引。当收到一个查询时,从专家页面集中挑选出与查询主题相关的专家页面子集。
(2)目标页面排序。Hilltop算法认为“一个目标页面在某个查询主题是权威的当且仅当有一些与该查询主题相关的最好的专家页面指向该目标页面。
作为对原始PageRank算法的补充,Hilltop算法具有以下优点:是主题灵敏的,通过来自权威性文挡的链接来确定网页的可信度;成功地解决购买离题链接等人为操作。
然而,Hiltop在应用中还存在如下问题:专家页面的质量和公平性在一定程度上难以保证;Hilltop中根据查询主题从专家页面集合中选取与主题相关的子集也是在运行的,会影响查询响应时间;随着专家页面集合的增大,算法的可伸缩性也存在着不足。
Hilltop算法提示SEO,建设外部链接时更应该关注主题相关的网站。最简单的方法是搜索某个关键词,目前排在前面的页面就是最好的链接来源,甚至可能一个来自竞争对手网站的链接效果是最好的。当然,获得这样的链接难度最大。
HITS算法
HITS(HyperlinkInducedTopicSearch)算法是Kleinberg在1998年提出的,是基于超链接分析排序算法中另一个最著名的算法之一。该算法与查询主题相关。
用HITS算法评估网页质量,可得到内容权威度(Authority)和链接权威度(Hub)。用内容权威度评估网页内容的价值;用链接权威度评估网页提供的超链接的价值。网页被引用得越多,其内容权威度越高;引用内容质量高的网页越多,
网页的链接权威度越高。
对整个Web集合而言,Authority和Hub是相互依赖、相互加强、相互优化的关系,这是HITS算法的基础。在HITS算法中,首先检索搜索查询的结果集合,计算只针对这个结果集合而不是对所有页面。Authority和hub的值通过相互递归定义,即authority的值是指向该页面的hub值之和,而hub的值则是该页面指向的页面的authority值之和,在实施中还要考虑被链接页面的相关性。
HITS的排名准确性要比PageRank高[17],HITS算法的设计符合网络用户评价网络资源质量的普遍标准,因此能够为用户更好的利用网络信息检索工具访问互联网资源带来便利。
但却存在以下缺陷:首先,HITS算法只计算主特征向量,处理不好主题漂移问题;其次,进行窄主题查询时,可能产生主题泛化问题;第三,HITS算法可以说一种实验性质的尝试。它必须在网络信息检索系统进行面向内容的检索操作之后,基于内容检索的结果页面及其直接相连的页面之间的链接关系进行计算。尽管有人尝试通过算法改进和专门设立链接结构计算服务器(ConnectivityServer)等操作,可以实现一定程度的在线实时计算,但其计算代价仍然是不可接受的。
针对HITS算法的SEO方法就是成为权威页面,不过难度比较大,那么唯一的方法就是获得高质量链接。所以导出链接也是当前搜索引擎排名因素之一。