RELATEED CONSULTING
相关咨询
选择下列产品马上在线沟通
服务时间:8:30-18:00
关闭右侧工具栏

新闻中心

这里有您想知道的资讯与动态
百度搜索结果排序专利的思考

搜索引擎一般是通过搜索词和文章的相关度来排序,然后把排序后的结果展现给用户。这样的结果虽然速度快,但是它有一个缺点,就是排在前面的不一定是用户需要的搜索结果。所以就研发了该专利的方法来对结果进行修正。


修正的条件包括但不限于以下几个方面:


1、搜索结果所引用资源的有效性

2、搜索结果所在站点的权威性

3、搜索结果的页面级别

4、搜索结果的页面类型

5、搜索结果的页面质量

6、搜索结果的页面编码类型

7、搜索结果的页面丰富程度

  8、在相同的检索词得到的搜索结果中是否被点击过


  这个修正方法怎么工作的呢?


通过对某类词设置相应的修正条件和每个修正条件所占的权重,然后通过 每个修正值×权重 再相加,得到最后的 最终排序值,由高到低排序。具体的算法大家可以参阅专利文献。


思考来了,我列一些我的想法,大家补充


1、不同的类型的网站的排序标准是不一样的

根据专利所述,新闻站,医疗站更重视权威性,资源站(影视,下载)更重视资源的有效性(是否可以在线观看,可以下载)。所以我们在针对不同类型的网站优化需要有所区别。


2、页面编码确实是有影响的

参加或者观看过光年培训视频的同学应该记得,国平讲过要注意网站的charset要设置正确,不要中文网站设置成英文,英文设置成中文,这个用国外模板或系统的同学得注意。


3、是否被点击过

 这个点击过是指之前这个结果在同样的检索词下,展现的时候是否有被用户点击过。有则标记为1,无则0。

从技术的角度来讲,这个可以将展示次数和点击不成比例的搜索结果排除掉,因为有些不相关的搜索结果肯定是点击率低的。

之前点击器横行跟这个应该有关,这个修正方案可能不像专利列举的只有0,1,可以还包括点击次数等。


4、资源有效性的评分方式

评分是通过 -N ,0,+N 来进行的, 资源全部可用为正分,资源部份可用为0 ,资源全部不可用为负分

得到负分的结果基本从结果中被排除了。 因为 算法是 分值×权重 然后再加上别的修正项得分的,负分严重影响最终结果,最终得分难以有排名。


5、页面级别

专利列举了:首页,专题页和其它底层页面。越重要的页面其得到的分值越大,我认为不只这几种页面,比如: 列表页、搜索结果页  


6、排序的效率

为了更快的对结果进行排序,大部份值是被事先进行计算,然后保存起来,比如站点权威值,页面级别这些修正值,但是一个搜索词相关的结果可能很多,这时为了节约资源和得升效率,会提取相关度最高的N条结果来参与后续的修正排序,所以如果你相关度不够挤入前N名里面,基本,你就是没戏。这个在专利里是有说明的。