搜索引擎如何抓取网页(如何在Ubuntu12.04VPSVPS实例上开始使用YaCy)

优采云 发布时间: 2021-10-22 02:14

  搜索引擎如何抓取网页(如何在Ubuntu12.04VPSVPS实例上开始使用YaCy)

  介绍

  许多人有理由担心他们的个人信息和隐私是大公司的自由。尽管有许多不同的项目的目标是让用户收回其数据的所有权,但仍然存在一些普通的计算领域,用户很难摆脱商业控制的产品。

  搜索引擎是许多注重隐私的人抱怨的领域。YaCy 是一个解决数据使用问题的项目,你不打算做搜索引擎提供商。YaCy 是一个点对点搜索引擎,这意味着没有集中的机构或服务器来存储您的信息。它通过连接到也运行 YaCy 实例和爬行的人的网络来创建 网站 的分布式索引。

  在本指南中,我们将讨论如何在 Ubuntu 12.04 VPS 实例上开始使用 YaCy。然后,您可以使用它来为全球搜索同行网络做出贡献,或为您自己的页面和项目创建搜索索引。

  下载组件

  YaCy 在包之外几乎没有依赖项。现代 Linux 发行版上唯一需要的应该是开放的 Java Development Kit 版本 6。

  我们可以通过键入以下命令从默认的 Ubuntu 存储库中获取它:

  sudo apt-get update

sudo apt-get install openjdk-6-jdk

  下载所有必要的组件需要一段时间。

  完成后,您可以从最新版本的 YaCy 项目中下载 网站。在右侧,右键单击或按住 Control 单击 GNU/Linux 链接,然后选择复制链接位置:

  

  回到你的 VPS,切换到你用户的家目录,使用 wget 下载程序:

  cd ~

wget http://yacy.net/release/yacy_v1.68_20140209_9000.tar.gz

  下载完成后,您可以将文件解压到您自己的目录中:

  tar xzvf yacy*

  我们现在拥有运行我们自己的搜索引擎所需的所有组件。

  启动 YaCy 搜索引擎

  我们几乎准备好开始使用 YaCy 搜索引擎了。在开始之前,我们需要调整一个参数。

  切换到 YaCy 目录。从这里,我们将能够进行必要的更改,然后启动服务:

  cd ~/yacy

  我们需要在文件中添加管理员用户名和密码组合,以便我们可以浏览整个界面。使用文本编辑器打开 YaCy 默认初始化文件:

  nano defaults/yacy.init

  这是一个很长的配置文件,好评。我们正在寻找的参数称为 adminAccount。

  搜索 adminAccount 参数。您将看到它当前未设置:

  adminAccount=

adminAccountBase64MD5=

adminAccountUserName=admin

  您需要按以下格式设置管理员帐户和密码:

  

adminAccount=admin:your_password

adminAccountBase64MD5=

adminAccountUserName=admin

  这将允许您在启动服务后登录 Web 界面的管理部分。

  保存并关闭文件。

  准备好后,键入以下内容以启动服务:

  ./startYACY.sh

  这将启动 YaCy 搜索引擎。

  访问 YaCy 网页界面

  我们现在可以使用您的网络浏览器访问我们的搜索引擎:

  

http://server_ip:8090

  您应该会看到 YaCy 的主要搜索页面:

  

  如您所见,这是一个相当常规的搜索引擎页面。如果需要,您可以使用提供的搜索栏进行搜索,无需任何其他配置。

  我们将探索管理界面,因为这为我们提供了更大的灵活性。点击页面左上角的“管理”链接:

  

  您将进入基本配置页面:

  

  这将讨论您可能想要立即设置的一些常见选项。

  首先,它询问语言偏好。如果列出的其他语言更适合您的目的,请更改此选项。

  第二个问题决定了如何使用这个 YaCy 实例。默认配置是使用您的计算机加入全球搜索网络,用于搜索和索引 Web。这就是点对点搜索可以取代传统搜索引擎的方式。

  这将通过提供出色的搜索资源帮助您加入同行,并允许您利用其他人已经开始的工作。

  如果您不想将 YaCy 用作传统搜索引擎,您可以选择第二个选项为单个站点创建搜索门户,或者通过选择第三个选项使用它来索引您的本地网络。

  现在,我们将选择第一个选项。

  第三个设置是为此计算机创建唯一的对等名称。如果您有多个运行 YaCy 的服务器,如果您想专门与它们对等,这变得越来越重要。无论哪种方式,请在此处选择一个唯一的名称。

  对于第四部分,取消选择“为 YaCy 配置路由器”,因为我们的搜索引擎安装在不在传统路由器后面的 VPS 上。

  完成后,单击“设置配置”。

  抢网站 为全球索引做贡献

  您现在可以使用 YaCy 节点上维护的索引进行搜索。搜索结果会越来越准确,更多的人会参与到系统中。

  我们可以通过在我们的 YaCy 实例上爬取 网站 来做出贡献,以便其他同事可以找到我们爬取的页面。

  要开始此过程,请单击左侧“索引生成”部分下的“爬虫/收割者”链接。

  

  如果您尝试搜索某些内容,但没有得到您想要的结果,请考虑开始使用您的实例来索引 网站 上的页面。这将使您对自己和同行的搜索更加准确。

  在“起始网址”部分输入要编入索引的网址:

  

  这应该填充 YaCy 在相关 URL 上找到的链接列表。您可以选择您输入的原创 URL,也可以选择使用您输入的网页中的链接列表。

  此外,您可以选择是要为域中的任何链接编制索引,还是仅对作为给定 URL 子路径的索引编制索引。

  不同的是,如果在输入中,第一选择是索引,第二选择只有位于输入路径下方的索引页()。

  您可以限制将由爬网编制索引的文档数量。完成后,单击“开始新的爬网”以开始爬网所选的 网站。

  单击左侧的“创建监视器”链接可查看索引的进度。您应该会看到如下内容:

  

  您的服务器将以每秒 2 个请求的速率抓取指定的 URL,直到链接超出链接或达到您设置的限制。

  如果您稍后搜索与抓取相关的页面,您的索引结果将对结果有所帮助。

  使用 YaCy 作为你的 网站

  YaCy 可以使用的一件事是为您的 网站 提供搜索功能。您可以将 网站 索引配置为仅限于您的域的搜索引擎。

  首先,选择左侧“Peer Control”部分下的“Admin Console”。在管理控制台中,返回“基本配置”页面。

  这一次,对于第二个问题,选择“Search Portal for Your Own Web”:

  

  点击底部的“设置配置”。

  接下来,您需要抓取您的域以生成将通过搜索工具提供的内容。再次单击左侧“Index Production”部分下的“Crawler/Reaper”链接。

  在“起始 URL”字段中输入您的 URL。选择选项后,单击“开始新的爬网”:

  

  接下来,单击左侧“搜索设计”部分下的“搜索集成到外部 网站”链接。

  有两种不同的方式来配置 YaCy 搜索。我们将使用第二个,称为“通过选定的 YaCy Peer 进行远程访问”。

  你会看到 YaCy 自动生成你需要嵌入到你的 网站 网页中的代码:

  

  在您的 网站 上,您需要创建一个收录此代码的网页。您可能需要调整 IP 地址和端口以匹配安装 YaCy 的服务器的配置。

  对于我的 网站,我在服务器的文档根页面中创建了一个 search.html。我制作了一个简单的 html 页面并收录了 YaCy 生成的代码:

  

Test

Search page

<p>Here we go...

$(document).ready(function() {

yconf = {

url : 'http://111.111.111.111:8090',

title : 'YaCy Search Widget',

logo : '/yacy/ui/img/yacy-logo.png',

link : 'http://www.yacy.net',

global : false,

width : 500,

height : 600,

position : ['top',30],

theme : 'start'

};

$.getScript(yconf.url+'/portalsearch/yacy-portalsearch.js', function(){});

});

Live Search

</p>

  然后,您可以通过以下方式保存文件并从 Web 浏览器访问它:

  

http://your_web_domain/search.html

  我的页面是这样的:

  

  当您输入一个词时,您应该会在您的域中看到与查询相关的页面:

  

  综上所述

  您可以通过多种方式使用 YaCy。如果您想为全球索引做出贡献,以创建一个可行的替代公司维护的搜索引擎,您可以轻松抓取 网站 并让您的服务器成为其他用户的同行。

  如果你的 网站 需要一个很棒的搜索引擎,YaCy 也提供了这个选项。YaCy 非常灵活,是隐私问题的有趣解决方案。

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线