搜索引擎进行信息检索的优化策略方法(常用的信息检索材料,你都知道吗?(一))
优采云 发布时间: 2022-01-12 06:14搜索引擎进行信息检索的优化策略方法(常用的信息检索材料,你都知道吗?(一))
互联网和搜索引擎的出现,让现代人获取信息变得极其容易。但每个人的信息检索能力明显不同,甚至有人提出“搜索业务”一词来评价一个人搜索信息的能力。
在一些文章中,我们经常可以看到作者引用和使用了大量的案例、统计、文献等。一方面,这些作者的阅读量巨大,另一方面,这些作者更擅长使用互联网获取数据。
因此,互联网信息检索是一项非常重要的能力。在这里,我整理了一些常用的信息检索资料,希望对写作和需要在互联网上获取数据的人有所帮助。
搜索引擎
搜索引擎是每个人都在使用的,但是有一些小技巧可以帮助我们让搜索引擎更准确、更高效地工作。
精确搜索。使用双引号实现精准搜索,将完全匹配引号中的关键词,搜索引擎不会进行分词处理。例如搜索“操作系统”,如果不使用双引号,则会智能拆分单词,返回操作、系统、操作系统等内容。
网站搜索。使用“站点:域名+关键词”在某个网站内进行搜索。此功能非常有用,例如,如果您需要在 Wikipedia 中搜索有关 java 的条目,只需使用“site: java”语法即可仅从 Wikipedia 获取内容。
文件类型匹配。使用 "关键词 filetype:filetype" 搜索所需类型的文件。但需要注意的是,有些搜索引擎支持的文件类型并不多,常用的有pdf、doc、ppt等。
通配符搜索。使用通配符“*”可以让搜索引擎更好地获取需要匹配的内容。比如,如果你需要搜索,柏拉图的《乌托邦》,你只记得前面的“理想”这个词,你几乎无法搜索到你需要的内容,可以使用通配符来减少干扰。
逻辑表达。使用逻辑表达式“AND”、“OR”、“-”,可以表示并集、或、非三个逻辑语句。比如需要搜索电视台,但不需要央视的内容,可以使用“TV-CCTV”。但是,不同的搜索引擎支持不同的情况。
书名。使用标题编号过滤书籍、电影和其他类型。使用标题编号可以消除很多干扰,例如输入“乌托邦”以获取仅与出版物相关的内容。
使用搜索引擎的先进方法,不仅可以帮助我们快速找到我们需要的东西,而且可以达到意想不到的效果。比如在使用精准搜索的时候,由于关键词,搜索引擎的广告宣传会大打折扣。
文件检索
除了做科学研究的人对文献的高度依赖之外,软件开发有时还需要查阅一些文献,以避免盲目的试错。在写一些文章和资料的时候,你需要有力的证据。您还可以查看一些论文、期刊和其他材料来支持您的观点。
对于*敏*感*词*文献检索方式的不同,也存在一些需要注意的注意事项。
文献检索方法
文献检索可以通过不同的方式进行。如果标题已知,则可以按标题检索。您也可以通过 关键词 搜索文献中的摘要。如果您知道 DOI,则可以直接通过 DOI 进行搜索。DOI 相当于文档的 ID 号。
DOI的全称是DigitalObject Unique Identifier,是指数字对象的唯一标识。目前大部分文献都有DOI。DOI的格式分为前缀和后缀两部分,用“/”隔开。前缀与网络域名相关,由国际数字对象识别号基金会颁发,后缀可由颁发者确定。
中文文档还可以使用“中图分类码”在特定类别下查找自己想要的资源,使用“文档识别码”区分文档的性质。
例如,在《计算机科学与技术》的期刊论文《Analysis and Design of Software Systems Based on Object-Oriented Ideas》中。CLC编号为TB 111.521,表示它在中文图书馆分类中的“工业技术”子类下。文献编号为A,表示为理论与应用研究的学术论文。doi:10.3969/j.issn.1672-5468.2020.06.0,文章可以在相关数据库中精确定位.
文献检索渠道
文献检索渠道一般包括搜索引擎的学术渠道,如谷歌学术、百度学术,以及文献数据库知识网和VIP数据库。一般来说,搜索引擎的检索能力更强,但也必须跳转到专业的数据库才能访问内容。一般专业数据需要收费,免费账户只能看到汇总信息。
以下是几个主流和常用的文献检索和下载渠道。
谷歌学术。谷歌学术可以搜索中英文文献资料,如果直接从公开的电子期刊检索谷歌学术,也可以直接下载。同时还可以获得相关的文章和源码版本,检索能力和准确率都比较高。唯一的缺点是大部分无法检索的内容无法直接下载。
知网/. 知网是国内专业文献数据库,被誉为中国知识基础设施工程。知网的文献收入非常全面,不仅有期刊文章,还有专利和标准。因为是专业的文献数据库,成本也比较高。如果想获得免费下载渠道,可以利用大学校园网和图书馆电子期刊获取一些付费资源。
科学中心。如果获取文献的DOI,可以通过sci-hub免费下载90%左右的国外文献。sci-hub的作者Alexandra Elbakyan通过特定的技术聚合了这所大学和图书馆的渠道资源,实现了免费下载。sci-hub 还提供了 Chrome 插件的下载模式,让下载更方便。
统计数据
统计数据对科学研究的意义不言而喻,也是决策系统的一种技术。通过引用一些统计数据,可以增加文章和报告的说服力。
统计数据通常来自两个来源。一方面是国家单位或机构每年、每季度发布的统计信息,另一方面来自于对某个行业的一些学术研究,可以在研究报告中获得。
国家统计局/。国家统计局公布全国各种社会经济统计数据,以及趋势分析。可用作统计数据的主要、可靠来源。国家数据还可以按季度、按月检索数据。
github - 很棒的公共数据集。awesome-public-datasets 是一个开源的开源数据聚合仓库,可以作为一个非常全面的数据获取渠道,包括各个子领域的数据库资源,涵盖自然科学和社会科学。
图书数据库/。各行业的研究报告可从图书数据库中获取。一般的白皮书是政府工作报告,蓝皮书是行业研究机构的研究报告。论文中一般不仅有统计数据,还有行业趋势和分析。
指数平台。指数也是一种特殊的统计数据,但它是通过特定的数据处理方式进行处理的,往往与特定的行业相关。例如,百度指数提供搜索关键词的热度排名;国家统计局提供的居民消费价格指数;中证指数用于股票市场的指数基金投资。
还有一些比较专业的行业数据机构,比如前瞻数据库、中宏数据库。这些数据提供商通常会收取费用并提供额外的决策指南。