搜索引擎如何抓取网页(如何在Ubuntu12.04VPSVPS实例上开始使用YaCy)
优采云 发布时间: 2021-10-22 02:14搜索引擎如何抓取网页(如何在Ubuntu12.04VPSVPS实例上开始使用YaCy)
介绍
许多人有理由担心他们的个人信息和隐私是大公司的自由。尽管有许多不同的项目的目标是让用户收回其数据的所有权,但仍然存在一些普通的计算领域,用户很难摆脱商业控制的产品。
搜索引擎是许多注重隐私的人抱怨的领域。YaCy 是一个解决数据使用问题的项目,你不打算做搜索引擎提供商。YaCy 是一个点对点搜索引擎,这意味着没有集中的机构或服务器来存储您的信息。它通过连接到也运行 YaCy 实例和爬行的人的网络来创建 网站 的分布式索引。
在本指南中,我们将讨论如何在 Ubuntu 12.04 VPS 实例上开始使用 YaCy。然后,您可以使用它来为全球搜索同行网络做出贡献,或为您自己的页面和项目创建搜索索引。
下载组件
YaCy 在包之外几乎没有依赖项。现代 Linux 发行版上唯一需要的应该是开放的 Java Development Kit 版本 6。
我们可以通过键入以下命令从默认的 Ubuntu 存储库中获取它:
sudo apt-get update
sudo apt-get install openjdk-6-jdk
下载所有必要的组件需要一段时间。
完成后,您可以从最新版本的 YaCy 项目中下载 网站。在右侧,右键单击或按住 Control 单击 GNU/Linux 链接,然后选择复制链接位置:
回到你的 VPS,切换到你用户的家目录,使用 wget 下载程序:
cd ~
wget http://yacy.net/release/yacy_v1.68_20140209_9000.tar.gz
下载完成后,您可以将文件解压到您自己的目录中:
tar xzvf yacy*
我们现在拥有运行我们自己的搜索引擎所需的所有组件。
启动 YaCy 搜索引擎
我们几乎准备好开始使用 YaCy 搜索引擎了。在开始之前,我们需要调整一个参数。
切换到 YaCy 目录。从这里,我们将能够进行必要的更改,然后启动服务:
cd ~/yacy
我们需要在文件中添加管理员用户名和密码组合,以便我们可以浏览整个界面。使用文本编辑器打开 YaCy 默认初始化文件:
nano defaults/yacy.init
这是一个很长的配置文件,好评。我们正在寻找的参数称为 adminAccount。
搜索 adminAccount 参数。您将看到它当前未设置:
adminAccount=
adminAccountBase64MD5=
adminAccountUserName=admin
您需要按以下格式设置管理员帐户和密码:
adminAccount=admin:your_password
adminAccountBase64MD5=
adminAccountUserName=admin
这将允许您在启动服务后登录 Web 界面的管理部分。
保存并关闭文件。
准备好后,键入以下内容以启动服务:
./startYACY.sh
这将启动 YaCy 搜索引擎。
访问 YaCy 网页界面
我们现在可以使用您的网络浏览器访问我们的搜索引擎:
http://server_ip:8090
您应该会看到 YaCy 的主要搜索页面:
如您所见,这是一个相当常规的搜索引擎页面。如果需要,您可以使用提供的搜索栏进行搜索,无需任何其他配置。
我们将探索管理界面,因为这为我们提供了更大的灵活性。点击页面左上角的“管理”链接:
您将进入基本配置页面:
这将讨论您可能想要立即设置的一些常见选项。
首先,它询问语言偏好。如果列出的其他语言更适合您的目的,请更改此选项。
第二个问题决定了如何使用这个 YaCy 实例。默认配置是使用您的计算机加入全球搜索网络,用于搜索和索引 Web。这就是点对点搜索可以取代传统搜索引擎的方式。
这将通过提供出色的搜索资源帮助您加入同行,并允许您利用其他人已经开始的工作。
如果您不想将 YaCy 用作传统搜索引擎,您可以选择第二个选项为单个站点创建搜索门户,或者通过选择第三个选项使用它来索引您的本地网络。
现在,我们将选择第一个选项。
第三个设置是为此计算机创建唯一的对等名称。如果您有多个运行 YaCy 的服务器,如果您想专门与它们对等,这变得越来越重要。无论哪种方式,请在此处选择一个唯一的名称。
对于第四部分,取消选择“为 YaCy 配置路由器”,因为我们的搜索引擎安装在不在传统路由器后面的 VPS 上。
完成后,单击“设置配置”。
抢网站 为全球索引做贡献
您现在可以使用 YaCy 节点上维护的索引进行搜索。搜索结果会越来越准确,更多的人会参与到系统中。
我们可以通过在我们的 YaCy 实例上爬取 网站 来做出贡献,以便其他同事可以找到我们爬取的页面。
要开始此过程,请单击左侧“索引生成”部分下的“爬虫/收割者”链接。
如果您尝试搜索某些内容,但没有得到您想要的结果,请考虑开始使用您的实例来索引 网站 上的页面。这将使您对自己和同行的搜索更加准确。
在“起始网址”部分输入要编入索引的网址:
这应该填充 YaCy 在相关 URL 上找到的链接列表。您可以选择您输入的原创 URL,也可以选择使用您输入的网页中的链接列表。
此外,您可以选择是要为域中的任何链接编制索引,还是仅对作为给定 URL 子路径的索引编制索引。
不同的是,如果在输入中,第一选择是索引,第二选择只有位于输入路径下方的索引页()。
您可以限制将由爬网编制索引的文档数量。完成后,单击“开始新的爬网”以开始爬网所选的 网站。
单击左侧的“创建监视器”链接可查看索引的进度。您应该会看到如下内容:
您的服务器将以每秒 2 个请求的速率抓取指定的 URL,直到链接超出链接或达到您设置的限制。
如果您稍后搜索与抓取相关的页面,您的索引结果将对结果有所帮助。
使用 YaCy 作为你的 网站
YaCy 可以使用的一件事是为您的 网站 提供搜索功能。您可以将 网站 索引配置为仅限于您的域的搜索引擎。
首先,选择左侧“Peer Control”部分下的“Admin Console”。在管理控制台中,返回“基本配置”页面。
这一次,对于第二个问题,选择“Search Portal for Your Own Web”:
点击底部的“设置配置”。
接下来,您需要抓取您的域以生成将通过搜索工具提供的内容。再次单击左侧“Index Production”部分下的“Crawler/Reaper”链接。
在“起始 URL”字段中输入您的 URL。选择选项后,单击“开始新的爬网”:
接下来,单击左侧“搜索设计”部分下的“搜索集成到外部 网站”链接。
有两种不同的方式来配置 YaCy 搜索。我们将使用第二个,称为“通过选定的 YaCy Peer 进行远程访问”。
你会看到 YaCy 自动生成你需要嵌入到你的 网站 网页中的代码:
在您的 网站 上,您需要创建一个收录此代码的网页。您可能需要调整 IP 地址和端口以匹配安装 YaCy 的服务器的配置。
对于我的 网站,我在服务器的文档根页面中创建了一个 search.html。我制作了一个简单的 html 页面并收录了 YaCy 生成的代码:
Test
Search page
<p>Here we go...
$(document).ready(function() {
yconf = {
url : 'http://111.111.111.111:8090',
title : 'YaCy Search Widget',
logo : '/yacy/ui/img/yacy-logo.png',
link : 'http://www.yacy.net',
global : false,
width : 500,
height : 600,
position : ['top',30],
theme : 'start'
};
$.getScript(yconf.url+'/portalsearch/yacy-portalsearch.js', function(){});
});
Live Search
</p>
然后,您可以通过以下方式保存文件并从 Web 浏览器访问它:
http://your_web_domain/search.html
我的页面是这样的:
当您输入一个词时,您应该会在您的域中看到与查询相关的页面:
综上所述
您可以通过多种方式使用 YaCy。如果您想为全球索引做出贡献,以创建一个可行的替代公司维护的搜索引擎,您可以轻松抓取 网站 并让您的服务器成为其他用户的同行。
如果你的 网站 需要一个很棒的搜索引擎,YaCy 也提供了这个选项。YaCy 非常灵活,是隐私问题的有趣解决方案。