网络搜索引擎简介

一、传统信息检索回顾

传统信息检索文档集的搜索有三种基本的计算机辅助技术:布尔模型、向量空间模型和概率模型。这些模型发展与20世纪60年代,直到2000年6月,便存在3500种不同的搜索引擎技术,并且大多数搜索引擎仍然依赖于以上三种基本模型的一种或数种。下图摘自《搜索引擎-原理技术与系统》,显示了搜索的主干流程。
这里写图片描述

##1.1 布尔搜索引擎
信息检索中最早而且最简单的检索方法之一。布尔逻辑检索也称作布尔逻辑搜索,严格意义上的布尔检索法是指利用布尔逻辑运算符连接各个检索词,然后由计算机进行相应逻辑运算,以找出所需信息的方法。它使用面最广、使用频率最高。布尔逻辑运算符的作用是把检索词连接起来,构成一个逻辑检索式。

##1.2向量空间模型搜索引擎
向量空间模型将文本数据变换为数值向量和矩阵,然后使用矩阵分析方法来发现文档集中的关键特征和联系。某些高级向量空间模型,如LSI(Latent Semantic Indexing,隐性语义索引)等能访问文档集中隐含的语义结构,如搜索car,能返回automobile相关文档。
该模型还有另外两个优点是相关性评分和相关性反馈。缺点是计算开销大,查询时必须计算每个文档和查询之间的距离度量,因而也伴随着另一个缺点——向量空间模型无法很好地扩展。

1.3概率模型搜索引擎

用户给定一个查询请求,概率检索模型根据文档与用户请求的相关性排序文档,给出结果,举个简单的例子,对于信息检索的文档,最可能跟在information后面的词是retrieval,但独立性假设却认为任何词都会以等概率出现在information后面。重点在于相关性的定义与衡量。概率模型的构建和编程有可能十分困难,它们的复杂度上升得很快。

##1.4元搜索引擎
传统搜索引擎其实还有第四种模型,即元搜素引擎。它将以上三种经典模型合为一体。

##1.5搜索引擎的比较
两种最为常用的评价不同搜索方法的评价指标是查准率和查全率。查准率是指检索所得相关文献的数量占总的检索所得文献数量的比例;查全率是指检索所得相关文献数量占总的相关文献数量的比例。查准率和查全率越高,搜索引擎就越好。

#二、网络搜索引擎

  • 爬虫模块:蜘蛛
  • 页面仓库:蜘蛛满载页面而回,它们暂时以完整页面的形式存放在页面仓库中,而在被送到索引建立模块之前,新的页面将一直留在仓库中。
  • 索引建立模块:取出每个新的未压缩页面,并从中仅抽取出最为重要的描述,以生成该页面在不同索引中的一个压缩描述。
  • 索引:分为内容索引和特殊用途索引(如图像索引和PDF索引)
  • 查询模块:将用户的自然语言查询转化为搜索系统可以理解的语言,然后查询不同的索引以便回答查询。
  • 排名模块:接收相关页面集,并根据某个判断依据对其进行排名。区分能力的排名是结合两个分数得到的,它们分别是内容评分和欢迎度评分,共同确定了相关页面的总评分,并按照总评分的顺序将页面集呈现给用户。

#三、网络爬行、索引建立和查询处理

##3.1 网络爬行
特点:
1.爬行是一个永不停歇的过程
2.蜘蛛访问网页时,需做到有礼貌的访问,即对网站的影响降到最小,不然可能会被“惩处”
3.多个蜘蛛协调合作,制定最佳爬行策略,节省时间和精力,尽可能提高效率

##3.2 内容索引
程序将分析页面内容并抽取有价值的信息,从而仅将页面中最为关键的核心部分传给适当的索引。有价值的信息存在于标题、描述和锚文本中,此外还有粗体显示的项、大字体显示的项和超链接等。建立索引后形成倒排文件,形如:
什么是倒排文件?如下例子(其中001~004对应为文档编号):
001 xxx142 张三 男 18 元培
002 xxx205 李四 女 17 哲学
003 xxx187 王五 男 19 生物
004 xxx325 赵六 女 18 元培
而我们利用倒排文件来实现上述非关键码的查询,就能大大提高速度。对于前面的情况设计倒排表如下:
男 001,003
女 002,004


16
17 002
18 001,004
19 003
20


元培 001,004
生物 003
哲学 002

##3.3查询处理
查询处理的结果,将以文档的相关评分返回,举个例子。
在文档集中查询项a和项b的组合词ab,返回的结果有:
项a : 3[1,1,27],94[1,0,7],673[0,0,3]
项b : 3[1,1,10,94[0,0,5] ,673[1,1,14]
如94[1,0,7]中,1表示的是项a在页面94的标题中出现了,0表示项a在页面的描述标签未出现,7表示项a在页面94中出现了7次。
因此,内容得分可以这样来计算:
内容得分(页面3)= (1+1+27)x (1+1+10)=348
内容得分(页面94)=(1+0+7)x (0+0+5)=40
内容得分(页面673)=(0+0+3)x (1+1+14)=48

有多种方案可以利用许多其它的因子来构成内容评分,这里只是随便举了一种。

内容评分和欢迎度评分决定了一个网页的最终评分,由于本书的重点在与欢迎度评分,因为在之后的介绍中将不多涉及内容评分。

Comments