布尔文献检索模型简介

在没有网络的时候,手头能访问的信息量太少是个问题。现在有了网络,怎么在海量的数据中找到自己需要的信息是另一个头疼的问题。现在全世界有超过 5 亿个网站,存在大量的文献数据库,即使一个比较生僻的关键字,可能都会返回成千上万的搜索结果。为了可以得到更准确、更相关的搜索结果,适合的信息检索数学模型是必不可少的。

 

布尔逻辑将是建立最早的模型,也是目前应用最广泛的检索技术。它是通过布尔逻辑运算符:逻辑与(AND),逻辑或(OR),逻辑非(NOT)的组合来表达用户的检索需求。布尔逻辑是乔治·布尔在19 世纪中期定义的代数系统。1957 年,巴·希列尔最先探讨了将布尔逻辑应用到计算机检索的可能性。上世界 6,70 年代,布尔检索模型被正式用于各类文献系统并且逐步成为商业标准。于此同时,也有其他的文献检索模型被创建,比如向量空间模型、概率检索模型、模糊集合模型、扩展布尔检索模型等 。

 

布尔模型有简单,容易上手的特点。由于采用的是准确匹配的策略,在关键字表达式正确的情况下,可以很容易返回精确的结果。但是在文献调研阶段,要构造这样一个准确的表达式很困难,需要经过多次的迭代或者需要专业人员的帮忙。同时,如果忽略了一些关键字,很可能就会错过重要的相关文献 [1]。

 

除了精确构造表达式比较困难外,布尔模型的另外缺点是无法区分关键字之间的重要程度,所以对返回结果也就无法进行排序,只能靠自己对结果进行筛选。在进行筛选的时候,可以用 CARS 标准来衡量结果:

 

C (credible):资源是否可信?任何人都可以宣称自己的资源是可信的,但是仍然需要用自己的专业知识来做出判断。

A(accurate):信息是否准确?“信任但要验证”的原则在现在这个信息泛滥的时代处处适用。

R(reasonable):研究假设是否合理?

S(supported):其他的文献是否支持这篇文章?文章结果是否已经得到重复验证?

 

[1] 网络信息采集与应用,南京航空航天大学图书馆。

发表评论

Your email address will not be published.