搜索引擎进行信息检索的优化策略方法( 如何在法律检索之中用好综合搜索引擎?(组图))
优采云 发布时间: 2022-03-29 16:11搜索引擎进行信息检索的优化策略方法(
如何在法律检索之中用好综合搜索引擎?(组图))
我们常说“不要轻易问别人搜索引擎能回答的问题”,这是必要的搜索意识。但是这样一个最开放和最流行的工具,而且似乎每个人都可以使用它,要使用它并很好地使用它并不容易。
互联网时代的搜索引擎是我们了解世界的第三只眼睛。检索能力的高低决定了获得信息的深度和广度。那么如何在法律搜索中用好综合搜索引擎呢?今天的天通诉讼圈(tiantongsusong)文章力求帮助大家避免一些误会,掌握一些基本方法。
文/天通*敏*感*词*事务所李倩
一、放弃搜索引擎的无所不能
要正确使用一个搜索引擎,你必须知道它能做什么,不能做什么,即充分了解搜索引擎的局限性,并用科学的方法避免因搜索引擎设计的局限性而导致的搜索结果不准确。
在这里,我们需要澄清的第一个问题是:使用搜索引擎搜索不等于搜索整个互联网。即使是最大的搜索引擎,网络爬虫采集和索引的数据总量也只能占互联网总网页的30%,不同搜索引擎之间的网页数据重叠率一般在70%以下. 因此,在使用搜索引擎时,搜索的不是网络,而是已经建立的数据库。例如,使用“无因管理”作为关键词搜索,百度有超过280万条反馈结果,搜狗超过3万条结果,Bing超过674万条结果,360条反馈结果。一共177万,可见各个数据库的数据库差异收录
其次,搜索引擎不能解决所有的检索问题。部分商业数据库、封闭论坛、专业网站内容无法被搜索引擎的网络爬虫采集。如果他们根本不是收录,那么他们再熟练也找不到。尤其是法律、会计等专业门槛较高的行业,专业数据库的数据不向搜索引擎发布,大部分情况下需要付费搜索。这也是搜狗搜索引擎收录的数据量无法与其他同类搜索产品抗衡的原因,只是凭借对“微信”和“知乎”两个平台的独占权限,可以搜索引擎市场之所以拥有不可动摇的地位。
第三,搜索引擎的能力和偏好不同,爬取的网页不同,排名算法不同。如果你尝试在不同的搜索引擎中输入“北京武汉”,你会发现每个搜索引擎的优先反馈内容都是优采云的列车号、航班时刻表和对应的价格,结果差别不大。这是因为搜索引擎一直试图通过智能关联来理解用户输入的意图。对于一些符合大部分用户思维习惯的日常生活事项,各个搜索引擎的数据和算法没有明显差异。任何一种工具都可以。但是,对于法律搜索来说,搜索的项目大多是非日常事务,具有一定的专业性。此时,了解如何使用不同的搜索引擎进行交叉搜索和验证是避免数据库本身设计缺陷导致搜索结果不准确的重要环节。.
二、学习搜索引擎逻辑运算符
目前大多数数据库和搜索引擎支持的逻辑运算符是布尔逻辑,它由三个重要的逻辑符号组成:1.和→and;2. or →or ,3.Not → not, and not, - (减法)。
在百度、搜狗、必应、360搜索中,如果关键词用空格隔开,则默认逻辑运算符为and。因此,输入(合作教育和协议和有效性)和输入(合作教育协议有效性)的搜索结果应该是一致的。
但是,如果使用多个不同的逻辑符号连接搜索词,正如加减乘除的优先级运算不同,布尔逻辑符号的优先级运算也不同,优先级顺序为:不→和→或。在这种情况下,为了保证能够根据用户需求准确检索数据库,就需要使用布尔逻辑来构造检索表达式。
例如,要通过综合搜索引擎查找除销售合同以外的其他合同效力问题,可以结合(合同及有效期)-销售合同,或(合同及有效期)非销售合同尝试查询。
三、了解基本的搜索命令表达式
搜索引擎在采集相关信息时,会捕捉到很多维度的信息:来源、标题、图片、相关信息等。这意味着我们可以利用它采集到的信息的不同维度来搜索不同的需求,比如专门的搜索标题,搜索更新日期等。学习基本检索命令,可以有效解决综合搜索引擎反馈结果相关性低的痛点。由于文章篇幅有限,本文只介绍一些最常用的检索命令:
1.双引号 "" - 完全匹配搜索
现在大多数数据库都具有智能关联的功能。为了避免错误的智能关联和解构导致检索结果中出现“未回答的问题”,精确检索命令需要启用双引号“”。将搜索关键词放在双引号中,进行完全匹配搜索,相当于告诉搜索引擎,结果返回的页面必须与双引号中的内容完全一致。这样做有三个好处:
一是避免不必要的自动关联。比如你输入lifugui,数据库可能会认为用户在找“李富贵”这个名字,然后智能反馈搜索结果以李富贵为关键词。
二是避免随意改变字母顺序,产生新的排列组合。比如要搜索世界知识产权组织,如果不加引号,默认是and关系,可以交换字母顺序,反馈世界知识产权组织作为搜索结果。
三是避免被随意添加关键词。例如,如果您输入不带引号的 Emma Watsons,搜索引擎可能会返回收录 Emma 在 Watsons 中购买的纸巾的句子。
需要提醒的是,在搜索地名、人名、机构名等专有名词时,尽量使用双引号准确搜索,避免二次、复杂的结果筛选。
2.intitle:-在标题中搜索
“intitle:(注意这是英文半角冒号,如果没有特别提醒,后面出现的冒号应该是)”表示返回结果是一个收录指定关键词的网页在标题中。
比如你要搜索“expected default”相关的文章,如果直接搜索“expected default”为关键词,很有可能会找到一篇上万字的论文无关的话题。其中,只有一个“预期违约”发生。如果使用“intitle:expected default”作为关键词进行搜索,结果会是标题中带有“预期默认”四个字的网页,相关性和准确性会大大提高。
3.filetype:-文件格式检索
现在很多纸质版资料都是电子版的,如何找到特定类型的电子版资料是一项重要的检索技巧。"filetype:" 是有限的文件格式搜索。
例如,“合同法文件类型:ppt”表示检索文件类型为ppt,其中收录关键词合同法相关内容。
很多人会问,直接用“关键词.ppt”搜索和用“filetype:”命令搜索有什么区别?如果你有这个问题,不妨分别搜索“Where is the township.pdf”和“Where is the township filetype:pdf”。原搜索引擎返回的内容包括但不限于pdf格式的文件、epub格式的txt格式。其中,后者搜索引擎返回的结果仅为pdf格式。
4.site:-特定网页,在 网站 内搜索
我个人认为,仅靠“site:”这一招,搜索效率就可以翻倍。
site 作为最常用也是最好的检索命令,可以用来检索一个域名下的所有文件。例如,在百度搜索“证券法修改站点:”,即搜索所有出现在百度收录的中国政府官方网站上与证券法修改相关的内容. 再举一个例子,搜索“The Good Wife site:”blog”,它会检索出现在博客中的所有 The Good Wife 内容。
但网站的用处远不止于此。它还有两个独特的秘密:
首先,将特定网站的站点搜索替换为综合搜索引擎的特定域名搜索。相信每个人都有想在网站上搜索却做不到的经历。有的网站根本不提供站内搜索功能,或者有的网站站内有搜索框,但是输入的内容没有反应,还有,会直接链接到其他综合搜索引擎。为了避免这种尴尬的情况,可以使用site命令完成对站点的搜索。比如“环境法网站:”就是搜索全国人大环境法相关的所有内容网站。
二、搜索有点封闭的注册网站的内容。网站的部分内容需要注册后才能查看,但用户往往没有注册资格或认为注册程序过于繁琐。在这种情况下,site 命令可以帮助用户在不注册的情况下检索 网站 内容。比如新浪微博不登陆就不能使用自带的搜索功能。如果不想注册又想搜索,可以使用命令“天通*敏*感*词*事务所网址:”检索天通*敏*感*词*事务所的相关内容新浪微博。
5.inurl:-特定类型的网页检索
url(统一资源定位器)统一词源定位器是一个重要的网页类型识别标志。任何 网站 的 url 都不是任意设置的。url 与网页的内容密切相关,因此您可以使用这种相关性来缩小范围并找到您需要的确切信息。
例如,“inurl:news”表示搜索所有新闻报道页面,例如“inurl:中华人民共和国最高人民*敏*感*词*”表示搜索最高人民*敏*感*词*官网。
上面的高级搜索命令远非全部,而只是一些常用的。如果读者有兴趣,不妨进行深入的研究和研究。
四、建立搜索引擎使用的层次结构
根据搜索引擎使用能力和使用需求的高低,结合以上基本方法,所有引擎的日常使用场景大致可以分为以下几个阶段:
阶段 1:将使用 关键词
第二阶段:将使用 关键词 分组
第 3 阶段:将使用 关键词+ 逻辑连接器
第四阶段:关键词 + 逻辑连接器 + 检索命令将被使用
诚然,一、二阶段的初级使用方法,普通用户都能掌握。我们需要练习和提高的是第三、第四阶段的使用技巧。
比如可以结合("international sale contract" and "validity")-invalid filetype:doc等关键词进行搜索,构建的层数越多,逻辑越合理,可能性越大你会得到准确的结果大。学习混搭搜索命令、逻辑符号和搜索关键词,搜索真的像一场冒险,充满无限可能。
看到这里,很多读者可能会觉得学习这些很麻烦,直接使用单个输入框是多么的简单。这种想法是错误的。相反,您理解的指令越复杂,您使用综合搜索引擎进行搜索的自由度就越大。因此,以上技巧值得反复推敲和练习。如果你将使用相同工具的效率提高一倍,你会从找回这份看似无聊的工作中获得意想不到的成就感。
(提醒:很多搜索引擎都提供了高级检索功能,使用高级检索功能限制检索,得到的结果的准确性和相关性远高于使用单个检索框。)
最初发表于 2016-04-17