搜索引擎主题模型优化( 如何在Linux上安装YaCy索引器和搜索引擎的做法?)
优采云 发布时间: 2022-03-19 14:25搜索引擎主题模型优化(
如何在Linux上安装YaCy索引器和搜索引擎的做法?)
开始使用开源对等网络索引器 YaCy。——塞思·肯隆(作者)
很久以前,互联网是如此之小,以至于采集所有 网站 名称和链接并按主题在页面或印刷书籍中列出它们的少数人可以对其进行索引。随着万维网网络的发展,形成了“网站环”形式,其中具有相似内容、主题或敏感性的站点捆绑在一起,形成了通往每个成员的循环路径。环中任何站点的访问者都可以单击按钮转到环中的下一个或上一个站点,以发现与他们的兴趣相关的新站点。
一段时间后,互联网似乎变得臃肿。每个人都在网上,有太多多余的信息和垃圾邮件,你什么都找不到。雅虎和美国在线、CompuServe 以及类似的服务都对这个问题采取了不同的方法,但直到谷歌出现,现代搜索模型才占了上风。正如谷歌所做的那样,互联网应该被搜索引擎索引、排名和排名。
为什么选择开源替代方案?
像 Google 和 DuckDuckGo 这样的搜索引擎显然是高效的。您可能是通过搜索引擎来到这个网站的。虽然仍然存在关于因主机不选择遵循优化搜索引擎的最佳实践而陷入内容的争论,但用于管理丰富的文化、知识和轻率信息(即互联网)的现代解决方案是冰冷的索引。
但可能出于隐私原因,或者您想为使互联网更加独立做出贡献,您可能不愿意使用 Google 或 DuckDuckGo。如果您有兴趣,可以考虑加入 YaCy,这是一个点对点互联网索引器和搜索引擎。
安装 YaCy
要安装和试用 YaCy,首先确保您已安装 Java。如果您使用的是 Linux,则可以按照我的如何在 Linux 上安装 Java 中的说明进行操作。如果您使用的是 Windows 或 MacOS,请从 .
安装 Java 后,下载适用于您平台的安装程序。
如果您使用的是 Linux,请解压缩 tarball 并将其移至 /opt 目录:
$ sudo tar --extract --file yacy_*z --directory /opt
根据下载的安装程序的说明启动 YaCy。
在 Linux 上,启动在后台运行的 YaCy:
$ /opt/startYACY.sh &
在 Web 浏览器中,导航到 localhost:8090 并搜索。
YaCy 起始页
将 YaCy 添加到您的地址栏
如果您使用的是 Firefox 网络浏览器,只需单击几下,即可在 Awesome Bar(URL 栏的 Mozilla 名称)中将 YaCy 设置为默认搜索引擎。
首先,如果 Firefox 工具栏中尚未显示专用搜索栏(您不必一直保持搜索栏可见;只需将其激活足够长的时间以添加自定义搜索引擎)。搜索栏位于 Firefox 右上角汉堡菜单的自定义菜单中。一旦 Firefox 工具栏上的搜索栏可见,导航到 localhost:8090 并单击刚刚添加的 Firefox 搜索栏中的放大镜图标。单击选项将 YaCy 添加到您的 Firefox 搜索引擎。
将 YaCy 添加到 Firefox
完成此操作后,您可以在 Firefox 首选项中将其标记为默认设置,或者仅在 Firefox 搜索栏中执行的搜索中选择性地使用它。如果将其设置为默认搜索引擎,您可能不需要专门的搜索栏,因为 Awesome Bar 也使用默认引擎,因此可以将其从工具栏中删除。
点对点搜索引擎如何工作
YaCy 是一个开源的分布式搜索引擎。它是用 Java 编写的,因此可以在任何平台上运行,并且可以执行网络爬取、索引和搜索。这是一个点对点 (P2P) 网络,因此每个运行 YaCy 的用户都将努力跟踪互联网是如何不断变化的。当然,没有一个用户可以拥有整个 Internet 的完整索引,因为这需要一个数据中心来容纳它,但是该索引分布在所有 YaCy 用户之间,并且是多余的。它与 BitTorrent 非常相似(因为它使用分布式哈希表 DHT 来引用索引条目),不同之处在于您共享的数据是单词和 URL 关联的矩阵。通过混合哈希表返回的结果,没有人可以知道谁搜索了哪些单词,因此所有搜索在功能上都是匿名的。这是一个不偏不倚的有效系统,
搜索引擎和算法
索引 Internet 的行为意味着将网页分解为单个单词,然后将页面的 URL 与每个单词相关联。在搜索引擎中搜索一个或多个单词将获取与该查询相关的所有 URL。YaCy 客户端在运行时也是如此。
客户端做的另一件事是为您的浏览器提供搜索界面。当您想要搜索时,无需导航到 Google,您可以将 Web 浏览器指向 localhost:8090 以搜索 YaCy。您甚至可以将其添加到浏览器的搜索栏中(取决于浏览器的可扩展性),以便您可以从 URL 栏中进行搜索。
YaCy 的防火墙设置
当你第一次开始使用 YaCy 时,它可能在“初学者”模式下运行。这意味着您的客户端抓取的站点仅对您可用,因为其他 YaCy 客户端无法访问您的索引条目。要加入对等环境,必须在路由器的防火墙(或您正在运行的软件防火墙)中打开端口 8090,这称为“高级”模式。
如果您使用的是 Linux,您可以在通过防火墙使您的 Linux 更强大中找到有关计算机防火墙的更多信息。在其他平台上,请参阅您的操作系统文档。
防火墙几乎总是在 Internet 服务提供商 (ISP) 提供的路由器上启用,而且防火墙的种类太多而无法准确描述。大多数路由器都提供在防火墙中“打孔”的选项,因为许多流行的网络游戏需要双向流量。
如果您知道如何登录路由器(通常是 192.168.0.1 或 10.1.0.1,但提供程序),登录并查找配置面板以控制防火墙或端口转发或应用程序。
找到路由器的防火墙首选项后,将端口 8090 添加到白名单。例如:
将 YaCy 添加到 ISP 路由器
如果路由器是端口转发,则必须使用同一端口将传入流量转发到计算机的 IP 地址。例如:
将 YaCy 添加到 ISP 路由器
如果由于某种原因您无法调整防火墙设置,那也没关系。YaCy 将继续以基本模式运行,并作为对等搜索网络的客户端。
你的互联网
您不仅可以使用 YaCy 搜索引擎进行被动搜索。您可以强制抓取不显眼的 网站,请求对 网站 进行网络抓取,可选择使用 YaCy 进行本地搜索等等。您可以更好地控制互联网呈现的一切。越高级的用户,被索引的 网站 就越多。网站 索引越多,所有用户的体验就越好。立即加入!
通过:
作者:Seth Kenlon 题目:lujun9972 译者:wxy 校对:wxy
本文由LCTT原创编译,Linux中国荣幸推出