互联网应该通过搜索引擎进行索引、排序和排名?
优采云 发布时间: 2021-05-01 21:20互联网应该通过搜索引擎进行索引、排序和排名?
开始使用开源对等Web索引器YaCy。
很久以前,互联网非常小,以至于只有少数人可以将它们编入索引。这些人采集了网站的所有名称和链接,并按主题将它们列出在页面或印刷书籍中。随着万维网的发展,已经形成了“ 网站环”形式,其中具有相似内容,主题或敏感性的站点被捆绑在一起以形成通向每个成员的环形路径。环中任何站点的访问者都可以单击按钮以转到环中的下一个或上一个站点,以发现与其兴趣相关的新站点。
又过了一段时间,互联网似乎变得肿了。每个人都在Internet上,那里有很多多余的信息和垃圾邮件,以至于您找不到任何东西。 Yahoo和AOL,CompuServe以及类似的服务各自采用不同的方法来解决此问题,但是直到Google问世后,现代搜索模型才开始流行。按照Google的方法,应该通过搜索引擎对Internet进行索引,排序和排名。
为什么选择开源替代品?
像Google和DuckDuckGo这样的搜索引擎显然是有效的。您可以通过搜索引擎访问此站点。尽管由于主机未选择遵循最佳实践来优化搜索引擎而使内容陷入麻烦的争议仍然存在,但用于管理丰富文化,知识和*敏*感*词*信息(即Internet)的现代解决方案却越来越冷。的索引。
但是也许出于隐私考虑,或者您想为使互联网更加独立做出贡献,所以您可能不想使用Google或DuckDuckGo。如果您有兴趣,可以考虑参加YaCy,这是一个对等Internet索引器和搜索引擎。
安装YaCy
要安装并尝试YaCy,请首先确保已安装Java。如果您使用的是Linux,则可以按照“如何在Linux上安装Java”中的说明进行操作。如果您使用的是Windows或MacOS,请从以下位置获取安装程序。
安装Java后,请根据您的平台下载安装程序。
如果您使用的是Linux,请解压缩tarball并将其移至/ opt目录:
$ sudo tar --extract --file yacy_*z --directory /opt
根据下载的安装程序的说明启动YaCy。
在Linux上,启动YaCy在后台运行:
$ /opt/startYACY.sh &
在网络浏览器中,导航到localhost:8090并进行搜索。
将YaCy添加到您的地址栏
如果您使用的是Firefox Web浏览器,只需单击几下,即可将YaCy设置为Awesome Bar(Mozilla为URL栏指定的名称)中的默认搜索引擎。
首先,如果尚未显示,请在Firefox工具栏中显示专用的搜索栏(您不必始终保持搜索栏可见;只需激活足够长的时间即可添加自定义搜索引擎) 。搜索栏位于Firefox右上角“汉堡”菜单中的“自定义”菜单中。在Firefox工具栏上的搜索栏可见后,导航至localhost:8090并单击刚添加的Firefox搜索栏中的放大镜图标。单击选项以将YaCy添加到您的Firefox搜索引擎。
完成此操作后,您可以在Firefox首选项中将其标记为默认值,或者仅在Firefox搜索栏中执行的搜索中选择性地使用它。如果将其设置为默认搜索引擎,则可能不需要专用的搜索栏,因为Awesome Bar也使用默认引擎,因此可以将其从工具栏中删除。
对等搜索引擎如何工作
YaCy是一个开源的分布式搜索引擎。它是用Java编写的,因此可以在任何平台上运行,并且可以执行Web爬网,索引和搜索。这是一个对等(P2P)网络,因此每个运行YaCy的用户都将努力工作,以跟踪Internet中的更改。当然,没有一个用户可以拥有整个Internet的完整索引,因为这将需要一个数据中心来容纳它,但是该索引分布在所有YaCy用户中,并且是多余的。它与BitTorrent非常相似(因为它使用分布式哈希表DHT来引用索引条目),不同之处在于您共享的数据是单词和URL的矩阵。通过混合哈希表返回的结果,没人能告诉谁搜索了哪些单词,因此所有搜索在功能上都是匿名的。这是用于无偏,无广告,无跟踪和匿名搜索的有效系统,您只需使用它即可将其加入。
搜索引擎和算法
索引Internet的行为是指将网页划分为单个单词,然后将页面的URL与每个单词相关联。在搜索引擎中搜索一个或多个单词将获得与查询关联的所有URL。 YaCy客户端在运行时也是如此。
客户端要做的另一件事是为您的浏览器提供搜索界面。您可以将Web浏览器指向localhost:8090来搜索YaCy,而不是在要搜索时导航到Google。您甚至可以将其添加到浏览器的搜索栏中(取决于浏览器的可扩展性),以便可以从URL栏中进行搜索。
YaCy防火墙设置
首次使用YaCy时,它可能正在“初学者”模式下运行。这意味着仅由您的客户端爬网的站点可供您使用,因为其他YaCy客户端无法访问您的索引条目。要加入对等环境,必须在路由器的防火墙(或正在运行的软件防火墙)中打开端口8090。这称为“高级”模式。
如果使用的是Linux,则可以在“使用防火墙使Linux更加强大”中找到有关计算机防火墙的更多信息。在其他平台上,请参阅操作系统的文档。
Internet服务提供商(ISP)提供的路由器几乎总是启用了防火墙,并且有太多类型的防火墙无法准确描述。大多数路由器都提供了在防火墙上“打孔”的选项,因为许多流行的在线游戏都需要双向流量。
如果您知道如何登录路由器(通常为19 2. 16 8. 0. 1或1 0. 1. 0. 1,但可能会因制造商的设置而有所不同),然后登录并找到配置面板以控制“防火墙”或“端口转发”或“应用程序”。
找到路由器防火墙首选项后,将端口8090添加到白名单。例如:
如果路由器正在执行端口转发,则它必须使用同一端口将传入流量转发到计算机的IP地址。例如:
如果由于某种原因您无法调整防火墙设置,那很好。 YaCy将继续以初步模式运行,并作为对等搜索网络的客户端。
您的互联网
使用YaCy搜索引擎可以做的不仅仅是被动搜索。您可以强制不太明显的网站爬网,可以请求网站的网络爬网,可以选择使用YaCy进行本地搜索,依此类推。您可以更好地控制Internet上显示的所有内容。用户越高级,索引网站越多。被索引的网站越多,所有用户的体验就越好。立即加入!
通过:
作者:Seth Kenlon主题:lujun9972译者:wxy校对:wxy
本文由LCTT 原创编写,Linux China自豪地发布