内容采集软件(Discuz!X1.5菜鸟建站系列教程-第四章-HI)
优采云 发布时间: 2021-09-22 15:12内容采集软件(Discuz!X1.5菜鸟建站系列教程-第四章-HI)
Discuz!X1.5新手网站建设系列教程-第4章-使用优采云采集软件DZ1.5填写论坛内容
嗨。。。我真的很抱歉。几天前我很忙。。。服务器有一个小问题。。。三天。。。擦去
另外,我说前几天,很多朋友加我一句话也没说就骂了我。。。比如说我写的教程,所有内容都引用了别人的东西,然后改成我自己的。。。我在这里很无助。。。我什么都不想说。。。真的,假的,真的。。。也许我的教程和其他的一样,但是图片和文字都是我自己写的,没有“拍摄原则”
而且。。。许多朋友询问如何安装DZ,以及如何在添加DZ后立即填充数据库。。。我在这里也很无助。。。我很同情你,因为我也是因为什么都不知道而来的,所以我一一回答。。。但是你应该明白每个人的时间都是有限的。。包括我。。因此,在这些问题上,我恳请您仔细考虑如何填写数据库。想想看。。。您的网站注册数据和post数据保存在哪里?当然是数据库。。什么是数据库帐户和密码?你知道这些。。我怎么知道。。。所以当然,如果你不能自己解决它。。。那你也可以问我。。。只要我有时间,我会一一回答
好的……在本课中,我们将使用优采云采集软件来填写新网站论坛的内容。。。和K6采集软件的采集规则的@write
注意:本教程中使用的模块和接口都是免费版本的earthbound,它不支持附件仓库和远程附件。如果您需要附件仓库,请参阅下一个教程优采云采集器软件的采集教程
这一课对新手来说有点难。。。但是,只要你努力工作,多问百度,多骗她,就不会有解决不了的问题,也不会有泡妞!哈哈
提示采集是基于采集dz1.5建筑网站。。一切都一样。。。最后,这里有一些采集规则。。让我们自己来解决吧
好的!首先我们要下载优采云软件
下载地址:我们下载免费版本
注:如果你想找一位女士,你必须花钱。。。否则他们不会让你走。。。所以…要使用优采云,必须安装。Net framework2.0框架或更高版本
.net framework2.0下载地址:
好的,一切都准备好了,只有*敏*感*词*。。不,因为东风。。。索瑞
然后,优采云我们也在本地下载了,。Net框架,我们还安装了
那么,让我们解压缩新下载的优采云采集软件
看到一些乱七八糟的东西和文件。。。所以
在上图中,以红线圈出的.exe是主程序。我们双击打开
PS:在上图中,有许多任务是我自己做的。。。新项目,不是很多
我们将看到优采云接口。它看起来很复杂,不是吗?呵呵,其实没那么复杂。对于新手来说,有很多东西是不能用的。。。下面将逐一解释
让我们来看看优采云采集软件是如何工作的
因为我们浏览的网页最终是通过HTML输出的,这意味着我们可以查看HTML的源代码,所以优采云为什么我们采集会找到内容
让我们看看网站的基本结构@
此和之间的内容是网站.. 如下图所示(2))@
----------这是网站的结尾@
如果要查看网页的HTML源文件,需要单击浏览器上的“查看”以查看源文件
(1))@
(2)@
如果我们知道网页的基本结构,我们就能理解优采云采集的基本原理@
优采云采集软件是如何工作的
我们配置优采云采集rules。什么是采集rules?也就是说,我们查看网页的源文件,查看整个网页的源代码,内容部分的开始标记和结束标记,以便优采云可以知道我们需要采集页面的哪一部分,如下面所示
内容
如果我们想要采集content,我们需要告诉优采云采集器content开始标记是,结束标记是
看到了吗?呃…估计我的表达能力不够好…所以…让我们看看下面的例子,把它们整合好
好的,让我们一步一步地教你设置采集规则
首先…我们的目标站…Discuz!x1.k14的@5架构@
我们需要采集将本节的内容和回复添加到我们的网站
首先,打开优采云并创建一个新站点…单击优采云左上角的new按钮并选择new site…如下所示
我们只需要填写站点名称,其余的将保持默认值,然后单击保存按钮
然后…在此站点下创建新任务…选择我们的新站点,右键单击并选择第一个站点以从此站点创建新任务…如下图所示
其中,1是任务名称,必须填写…2是整个采集任务的步骤向导,3是文章列表的设置区域(解释如下),4类似于3…5是登录的地方。有些网站必须先登录才能看到内容。就是这样
好的,就这些。那么,让我们一步一步来
首先,让我们为任务添加一个标题
接下来,让我们开始设置列表的采集规则
(因为优采云不知道该页面上的文章列表是什么,我们将告诉优采云)
有两种方法,新手,我不知道哪一种适合……让我们使用默认的方法,第一种
我们单击向导添加
然后出现下图
有四个标签
如果我们只有采集目标站点的文章列表,那么我们选择一个URL并直接将目标列表写入网站,如下所示
然后单击添加并单击完成以完成
所以,如果我们想要采集多个列表,让我们回到
看下面的图片
其中1是目标网站的地址@
其中2是优采云的通配符(即,由某物识别的某物)
其中,3表示区间数已填入零(下面逐一说明)
其中,4,数字变化…解释如下
其中5个字母变化
那么…看看下面的图片
在图中,地址栏用(*).HTML填充
那么,这意味着什么?让我们打开这个地址,然后单击“下一步”
发现地址变成了