搜索引擎优化高级编程:php版( 2021年08月11日198次阅读搜索搜索引擎文档本文)
优采云 发布时间: 2021-10-28 22:03搜索引擎优化高级编程:php版(
2021年08月11日198次阅读搜索搜索引擎文档本文)
排名前 10 位的开源和免费文档搜索引擎
2021年8月11日阅读搜索引擎文档198次
当您使用搜索引擎查找最近的咖啡店时,您可能不会考虑其背后的技术。但后来,您可能想知道搜索引擎是如何做到的?
它如何如此快速地在 Internet 上进行排序并选择您在页面上看到的结果?
每个搜索引擎都使用自己的软件程序,但它们的工作方式都相似。
它们都执行三项基本任务。首先,他们检查他们知道的内容并获得查看权限。这称为爬行。其次,他们对每个内容进行分类,称为索引。第三,他们决定哪些内容对搜索者最有用。这称为排名。
文档搜索引擎对于大型数据集非常有用。由于很难从如此多的数据集中获得任何有用的信息,因此有必要提出一个既能帮助业务需求,又能在短期内帮助业务需求的解决方案。
文档搜索引擎搜索的主要特点:关键词搜索、主题搜索、语义搜索关键词提取等。文本摘要。突出显示查询结果。文件分类。反馈学习/查询重新排序。十大开源文档搜索引擎1. Ambar
安巴尔
一个开源文档搜索引擎,以及一种在您的工作流中实现全文文档搜索的方法。Ambar 带有自动抓取、OCR、标签和即时全文搜索。基于类似于 JavaScript、Python 和 CSS 的开放技术。
此文档搜索引擎兼容所有常见文件类型,例如 ZIP 档案、邮件档案 (PST)、MS Office 文档(Word、Excel、PowerPoint、Visio、Publisher)、图像 OCR、带附件的电子邮件、Adobe PDF(带有OCR) 和其他一些文件。它在麻省理工学院的许可下使用。
特征:
GitHub:
2. 苹果酒
Cider 文档搜索引擎是我们列表中有价值的补充之一。
该程序是用Java编写的。该内容集成框架可以将解析后的实体存储在 Jena() RDF 词汇表中,并提供基于知识的增强内容语义分析。它是文档提取和检索。此外,它是在 LGPL-3.0 许可下发布的。
GitHub:
3.开放语义搜索
另一个Dockerfile,一个基于javascript的开源文档搜索引擎;开放语义搜索支持不同的文件格式和多种数据源。开放语义搜索的最大优点是它是您自己的搜索引擎的免费软件。它是集成开源企业搜索和链接数据、语义网和链接开放数据的开放标准。
特征:
GitHub:
4. 艾瑞咨询
作为性能文档的搜索引擎库,IResearch 是一个完全用 C++ 编写的跨平台库。它涉及不同排序/相似模型的可插拔性。
该软件是在 Apache 2.0 软件许可下提供的。
特征:
GitHub:
5. hOOt
hOOt 是一个免费的、最小的全文搜索引擎。本软件采用倒置WAH位图咆哮位图索引,高度紧凑的存储,以数据库和文档模式运行。
特征:
GitHub:
6. 柏林
Perlin 是一个基于 Perlin 核心的免费文档搜索引擎。该软件是用 Rust 编写的。它是在麻省理工学院的许可下发布的。
GitHub:
7. 元查找器
MetaFinder 是一个开源文档搜索引擎,可以轻松下载和免费使用。可以在多个平台上使用,您不必担心您正在使用的平台。目标是提取元数据。
MetaFinder 是用 Python 编写的,并在 GPL-3.0 许可下获得许可。
GitHub:
8. 搜索引擎
search-engine 是另一个您可以选择的高度创新的文档搜索引擎。
搜索引擎是用 Ruby、Python、JavaScript 编写的。使用 PostgreSQL,config.json。
GitHub:
9. 让我们抄送
让我们抄送
Let's CC 有两个版本,专业版和社区版。这是您可以使用的另一种免费搜索引擎服务。社区版是在 CCL(知识共享许可协议)下发布的,可以完全免费下载。它是用 PHP 编写的。
GitHub:
10. Intelligent_Document_Finder
您可以使用文档搜索引擎工具。该软件使用 Python 编程并在 Flask 框架上运行。它在 MIIT 许可下使用。
GitHub:
综上所述
由于开源解决方案的存在,这样的服务不需要花很多钱。我们回顾了十种常见的开源文档搜索引擎,所有这些引擎都可供您选择。
如果您想在此列表中看到其他软件,那么我们很乐意在评论中听到它们。