全网营销专家  为企业发展而生
   177 1407 7728

HITS算法的工作原理,HITS算法的实际应用


日期:2024-02-29    作者:攻硬营销


HITS是英 Hyperlink-Induced文- Topic Search的缩写,意译为“超链诱导主题搜索”HITS 算法是由康奈尔大学( Cornell University ) 的Jon Kleinberg 博士于1997 年首先提出的,为IBM 公司阿尔马登研究中心( IBM Almaden Research Center) 的名为“CLEVER”的研究项目中的一部分。

HITS算法原理图
 
按照HITS算法,用户输入关键词后,算法对返回的匹配页面计算两种值,一种是枢纽值(Hub Scores),另一种是权威值(Authority Scores),这两种值是互相依存、互相影响的。所谓枢纽值,指的是页面上所有导出链接指向页面的权威值之和。权威值是指所有导入链接所在的页面中枢纽之和。
 
一个网页重要性的分析的算法。通常HITS算法是作用在一定范围的,比如一个以程序开发为主题网页,指向另一个以程序开发为主题的网页,则另一个网页的重要性就可能比较高,但是指向另一个购物类的网页则不一定。
 
在限定范围之后根据网页的出度和入度建立一个矩阵,通过矩阵的迭代运算和定义收敛的阈值不断对两个向量Authority和Hub值进行更新直至收敛。
 
HITS 算法的具体步骤:
 
1、接受一个用户查询的请求。HITS 算法与用户输入的查询请求密切相关,它的查询结果是动态生成的,而 PageRank 算法则与用户的查询无关。
2、将查询提交给某个现有的搜索引擎(或者是自己构造的检索系统),并在返回的搜索结果中,提取排名靠前的网页,得到一组与用户查询高度相关的初始网页集合,这个集合被称作为 root set
3、建立 base set,凡是与根集内网页有直接链接指向关系的网页都被扩充进来,形成如下集合
4、计算:auth[i] = sum(hub[j] * e[j][i], j = 1..n),hub[i] = sum(auth[j] * e[i][j], j = 1..n),注意此处先计算 auth 和 hub 的新值,然后覆盖原值
5、归一化:auth[i] /= sqrt(sum(auth[i]^2)),hub[i] /= sqrt(sum(hub[i]^2)) ,即将 auth 向量和 hub 向量的长度置为1
6、迭代:如果值趋于稳定,结束,否则返回1。可以证明,HITS 算法是收敛的。
 
HIST算法是子集传播算法的代表算法。在HIST算法中,分为Hub页面和Authority页面,Authority页面是指与某个领域或者某个话题相关的高质量页面,Hub页面则是包含很多指向高质量Authority页面链接的网页,比如,hao123首页就是一个典型的高质量Hub页。
 
Hub页和Authority页之间是相互增强的关系,HITS算法基于的是下面的两个基本假设:
基本假设1:一个好的Authority页面会被很多Hub页面指向。
基本假设2 : 一个好的Hub页面会指向很多好的Authority页面。
 

相互增强关系图
 
HITS算法的实际应用
 
我们可以简单地理解为HITS算法会提炼出两种比较重要的页面,也就是枢纽页面和权威页面。枢纽页面本身可能没有多少导入链接,但是有很多导出链接指向权威页面。权威页面本身可能导出链接不多,但是有很多来自枢纽页面的导入链接。
 
典型的枢纽页面就是如雅虎目录、开放目录或好123样的网站目录。这种高质量的网站目录作用就在于指向其他权威网站,所以称为枢纽。而权威页面有很多导入链接其中包含很多来自枢纽页面的链接。权威页面通常是提供真正相关内容的页面HITS算法是针对特定查询词的,所以称为主题搜索。
 
HITS算法的最大缺点是,它在查询阶段进行计算,而不是在抓取或预处理阶段所以HITS算法是以牺牲查询排名响应时间为代价的。也正因为如此,原始HITS算法在搜索引擎中并不常用。不过HITS算法的思想很可能融入到搜索引擎的索引阶段,也就是根据链接关系找出具有枢纽特征或权威特征的页面。
 
成为权威页面是第一优先,不过难度比较大,唯一的方法就是获得高质量链接,当你的网站不能成为权威页面时,就让它成为枢纽页面,所以导出链接也是当前搜索引擎排名因素之一,绝不链接到其他网站的做法,并不是好的SEO方法。
 
SEO培训服务