搜索引擎进行信息检索的优化策略方法( 如何去搜索和积累数据源?(一)(图))

优采云 发布时间: 2022-01-14 01:00

  搜索引擎进行信息检索的优化策略方法(

如何去搜索和积累数据源?(一)(图))

  

  

  图片来源:图片网可作为商业图片

  过去我们分享过很多类型的数据源,但是很多小伙伴会问,这些数据源是从哪些渠道采集的,如何搜索和积累数据源?尤其是一些担心写论文的毕业生不知道在哪里可以找到论文数据。接下来,小富美拿出了她在生活中学到的东西(夸大其词了,小富美还有很多干货,以后再分享给大家)。

  

  有些小伙伴在寻找某类数据源时,只会在搜索引擎的搜索框中输入某一个关键词甚至是长句,但是这样的搜索结果还是很有限的. 是的,那么,我们的情报分析人员如何在我们通常的调查中快速准确地找到我们想要的数据源?看看小富美教你几招:

  

  我在哪里可以找到数据源?

  首先,数据源主要分为两类:官方数据源和非官方数据源(我们在调查中一般倾向于使用官方数据源)。官方数据来源主要来自各国政府部门的官方网站,如国内诉讼、司法数据等。仅从裁判文书网,我们就分享了很多国内的数据源。今天我们主要讲一下数据源的采集方法。非官方数据源主要来自一些第三方机构,也有来自非营利组织的数据,或者是一些记者或新闻机构建立的“民间数据库”。

  其次,数据源也可以根据其应用范围进行分类,比如经济数据、环境数据、企业相关数据等。我们需要在搜索引擎中设置关键词进行搜索。此外,还有一些学术期刊,网站可以在某些领域找到大量数据。后续小富美会陆续为大家发布各类数据库资源,请务必持续关注我们的公众号!

  

  

  如何准确搜索?

  我们在用搜索引擎搜索的时候,都知道关键词加引号是为了准确搜索,但是这种搜索方式看起来更准确,但实际上搜索结果的范围会变窄。我们可以通过在要调查的两个 关键词 对象之间添加“AROUND”来扩大搜索范围,然后添加模糊词的数量以避免遗漏。

  开源调查专家 Henk van Ess 曾提出“视觉思维”的搜索技术,即灵活使用谷歌内置的部分搜索词,结合反图像搜索和视觉思维,加快调查进度并提高工作效率。. 他认为,虽然大多数人都精通概念思维,但当我们试图将搜索分解为最基本的元素时,视觉思维往往会获得更好的结果。

  事实上,Van Ess 提出的分解的基本要素与我们情报分析师工作流程中的任务分解相吻合。当我们面临一个庞大的调查主题时,我们可以尝试将其分解为几个较小的对象,这样会更容易开始调查。

  除了选择正确的关键词来找到你想要的,Van Es说视觉思维的方法包括识别你想要的,排除你已经知道的,用最合理的方法找到你需要的数据。

  事实上,凡埃斯所说的“视觉思维”在我们的调查中的应用,就是大胆猜测,仔细验证,即在调查开始前,根据已有的数据,对可能的证据进行大胆的猜测,然后进行仔细验证。最终得到一个合理的结果;如果猜错了,也就是不断循环的调查过程,不断的循环,考验分析师的耐心和细心。

  他还就如何可视化搜索给出了以下建议:

  1 搜索“对象 + 动作”为 关键词

  一般来说,如果我们直接在搜索引擎中输入关键词“采访”,可能会有很多采访相关的内容,但是太多的信息会掩盖我们真正想要的内容。比如我们要找一个叫Anna Kog的被采访者,想象一下采访中可能出现的词,肯定有一个人的名字和“说话”的动作。此时,我们通过“person object + action”搜索为关键词,在采访中我们可以搜索“Kog says”为关键词。

  2 “详细”关键词 缩小搜索范围

  例如,在搜索特定地图之前,我们需要考虑一般地图上常用的常用术语。你会发现“地图”这个词太笼统了,但是如果我们搜索一些与地图相关的元素,比如“比例”,再加上一些其他细节关键词来进一步缩小搜索范围,我们可以快速和准确到达我们想要的搜索结果。

  3使用“关键词*”“-排除内容”搜索

  范埃斯在一次交流会上向在场的人提出了一个问题,要求他们在现场使用网络搜索,找出另外四名声称新冠病毒是生物武器的科学家的名字,除了井——美国著名学者弗朗西斯·博伊尔。

  大约一半的与会者用 关键词 进行了谷歌搜索,类似“声称新冠病毒是生物武器的科学家”,但没有人能够根据这样的搜索词成功找到其他 4 位科学家。

  Van Es 解释说,提出这一主张的科学家不太可能在他们原来的帖子中使用“科学家”或“主张”这两个词。相反,他建议使用 Dr. ** 搜索科学家——其中星号 * 是通配符,允许 Google 显示该位置的任何名称的结果——并使用减号过滤掉 Francis Boyle 的结果:-boyle。

  4 使用搜索运算符查找两者之间的联系

  运算符是指某些特殊字符和指令,可用于精确和优化的在线文本搜索。我们可以尝试使用大写的 AROUND 运算符,然后在其后添加一个括号,并在文本中填写您尝试连接的两个对象之间的大致字符数。

  我们可以调整其他语言的平均句子和标题长度,但请确保 AROUND 和括号之间没有空格。Van Es 使用以下搜索命令找到了其他四位科学家:“Dr. * *” AROUND(7) "coronavirus is a bioweapon" -boyle.

  5 使用“图片+站点国家标识符”查找目标人群

  选择您要调查的人的*敏*感*词*照片,单击 Google 搜索框中的相机图标,然后将其上传到 Google 图片。用 JPEG 图像旁边的搜索框中的国家标识符替换此人的姓名。

  例如,在伊朗的情况下,使用 site:ir 的指令代码。Van Es 说,你甚至不需要知道如何用外语(例如波斯语)拼写他们的名字,就能在网上找到有关他的伊朗媒体。

  但是您用于搜索的照片需要非常简单——选择该人最常用的*敏*感*词*照片,例如他们的社交媒体帐户(如 Twitter)的*敏*感*词*照片,或 Google 图片搜索中出现的第一张照片。

  

  即使记者不知道一个人的名字在外语中是如何拼写的,Van Ess 说你可以在谷歌图片中搜索那个人的照片,结合他们国家的标识符,你就能找到那个人外语。该人的姓名在已发表的手稿中的拼写方式。

  6利用谁发布了什么?

  对于那些使用传统反向图像搜索难以找到的图像,您可以在 Instagram 中输入地名以获取地理位置链接并将其粘贴到谁发布了什么?连同目标日期。您还可以使用它来识别发布照片的人,通过 Google 搜索找到他们的 Twitter 帐户,与他们联系,并进一步询问有关图像的信息。

  

  当使用反向图像搜索很难找到您要查找的图像时,请尝试在谁发布了什么中输入指向地理编码的链接以及特定日期?这种方法不仅可以帮助您找到您要查找的照片,还可以提供图像来源的线索。

  7 使用“-site:platform”作为关键词查找其他平台上的视频发布

  如果您只知道 YouTube 上发布的一个被广泛转发的视频,请尝试将链接粘贴到 Google 中,并使用减号从搜索结果中排除该平台,例如:-site:。您也可以尝试使用相同的排除方法查找已删除的 Instagram 帐户图片:将已删除的 Instagram 链接粘贴到 Google,但添加命令:-site:您可能会发现该链接已被第三方获取 网站复制并存档。

  8 考虑其他可视化线索

  商标是视觉思维的一个很好的例子。如果您的调查目标是一家官方网站提供的信息很少但收录该公司商标的公司,您可以使用它在网络上搜索可能出现徽标的其他地方。

  例如,在企业 网站 上永久列出客户商标,以便可以找到与其有业务往来的其他公司。您可以在 Google 图片中使用目标公司的 logo 进行正常的反向图片搜索,并在搜索框中使用 -site: 指令过滤掉公司的 网站,然后是公司官方网站 URL。

  9 当以上高级工具都不起作用时,尝试简单的文本搜索

  当我们试图找到在机场拍摄的疑似恐怖分子的图像时,T​​inEye 和 Yandex 都找不到强大的反向图像工具。但现场文字报道提到了一个不同寻常的视觉线索——嫌疑人身后有一只大*敏*感*词*泰迪熊。

  所以,其实我们只需要在谷歌图片中输入“机场黄熊”就可以找到这张图片。Van Es提醒大家,如果你想用图片的主体颜色为关键词来搜索谷歌图片,只有用英文拼出这些颜色词,如“green”或“blue”才有效。 ', 等等。”

  本文文章为傅云原创内容,未经授权禁止转载

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线