内容 采集 软件(Discuz!X1.5菜鸟建站系列教程-第四章-利用优采云采集软件)
优采云 发布时间: 2022-03-21 16:55内容 采集 软件(Discuz!X1.5菜鸟建站系列教程-第四章-利用优采云采集软件)
Discuz!X 1.5菜鸟建站教程系列-第四章-使用优采云采集软件给DZ1.5论坛填内容
嗨...我真的很抱歉,前几天我很忙。. . 服务器出了点小问题。. . 折腾了3天。. . 擦拭。. . .
另外,我说,前几天,很多朋友加了我,一言不发就开始骂我。. . 说是我写的教程,内容都是引用别人的,然后改成自己的。. . 我在这里很无助。. . 我不想说什么。. . 真不能假,假不能真。. . 可能我的教程和别人差不多,但是图文都是我自己写的,没有贯彻“使用主义”。. .
和。. . 很多朋友一加,就问dz怎么安装,数据库怎么填。. . 我在这里也很无奈。. . 我很同情你,因为我什么都不懂,所以我会一一解答。. . 但你必须明白,每个人的时间都是有限的。. 包括我。. 所以,在这些问题上,恳请大家好好想想怎么填数据库,好好想想。. . 您的 网站 注册数据和发布数据存储在哪里?当然是数据库。. 什么是数据库帐户和密码?这些事情你自己都知道。. 我怎么会知道。. . 所以。. . . . . 当然,如果你真的不能自己解决。. . 那你也可以问我。. . 只要我有时间,我会一一解答。. .
好的。. . 这节课我们讲的是用优采云采集软件填写我们新站论坛的内容。. . 也。. . 优采云采集采集软件规则的编写!
注:本教程中使用的模块和接口均参考晨元免费版,不支持附件存储和远程附件。如果需要附件存储,请看下一篇教程,优采云采集器软件采集教程!
这门课对新手来说有点难。. . 但只要努力,多向百度求教,多骗她,就没有解决不了的问题,也没有找不着的妹子!哈哈!
提示,看采集,它是一个基于采集dz1.5架构的站点。. 都是相似的。. . 最后,一些 采集 规则。. 大家想办法。.
好的!好吧,我们首先要下载优采云软件
下载地址:我们下载免费版。. . .
注意:如果你想找一个女士,你必须花钱。. . 不然人家不让进。。. 所以。. . 要使用 优采云,您必须安装 .NET FrameWork 2.0 或更高版本
.net framework 2.0下载地址:
好的。一切都准备好了,我只欠那位女士。. 不。. 我欠东风。. . 骚瑞。. .
然后,优采云我们也下载到本地了。net 框架,我们也安装了它。. .
然后,我们解压新下载的优采云采集软件。. .
看到一些密密麻麻的东西和文件。. . 所以。. .
上图中红圈包围的.exe是主程序,我们双击打开。. .
ps:这里说一下。在上图中,有很多任务是我自己使用的。. . 新节目,不多。. .
我们将看到 优采云 界面,它看起来很复杂,对吧?哦,其实没那么复杂。对于新手来说,有很多东西是不能用的。. . 下面将一一讲解。. .
让我们从 优采云采集 软件如何工作的教程开始。. .
因为我们浏览的网页最终都是通过html输出的,也就是说我们可以查看html的源码,那为什么要优采云采集到内容呢?
我们来看看网站的基本结构。. .
this 和 content 之间的内容是 网站 的内容部分。. 如下图(2)
---------- 网站 到此结束。. . .
如果要查看网页的html源文件,需要点击浏览器查看源文件。. . .
(1)
(2)
那么,我们知道了一个网页最基本的结构,那么就很容易理解优采云采集的基本原理了
优采云采集软件采集是如何工作的?
我们已经配置了 优采云采集 规则。采集 规则是什么?也就是我们看网页的源文件,看整个网页的源代码,内容部分的开始标签,结束标签,这样优采云就可以知道这个页面的哪个部分我们要采集,比如下面我们演示的。. .
内容
我们想要 采集 "content" 然后告诉 优采云采集器 内容开始标签是,结束标签是
理解?呃。. . 我想我的表达能力不够好。. . 所以。. . 我们看下面的例子,巩固好就OK了。. .
好的。. 然后我们开始一步步教你如何设置采集规则。. .
首先第一。. 我们的目标站。. 唱片!x1.5 架构 网站。. .
我们将 采集 转至我们的 网站 本论坛的内容和回复。. .
首先我们打开 优采云 并创建一个新站点。. . 单击 优采云 左上角的新建按钮并选择新建站点。. . 如下所示
我们只需要填写站点名称,其余保持默认,然后点击保存按钮!
然后。. . 在此站点下,创建一个新任务。. . 选择我们新建的站点,右键,选择第一个,从这个站点新建一个任务。. . 如下所示
其中,1为任务名称,必须填写。. 2,是整个采集任务的步骤引导,3,是文章列表的设置区域(下面解释),4,和3类似。。. 5.是登录的地方。有些网址必须登录才能看到内容。这就是事情!
好的。就是这样,那么,让我们一步一步来吧!
首先,我们为我们的任务添加一个标题。. .
接下来,我们开始为列表设置 采集 规则
(因为现在 优采云 不知道这个页面的 文章 列表是什么,所以让我们告诉 优采云!)
这里有两种方法。对于一个新手,我不知道哪个适合我。. . 让我们使用默认的,第一个
我们点击向导添加
然后出现下图。.
里面有4个标签,
如果我们只有采集目标站点的文章列表,那么我们选择单个URL,直接写目标列表网站,如下图!
然后单击添加,单击完成和确定。.
好吧,如果我们要 采集 多个列表。然后我们回去
见下图
其中 1 是目标 网站 的地址
其中,2是优采云的通配符(即某物被某物识别)
其中,3是区间数已经被零填充(下面一一解释)
其中4个,数字变化。. . 下面解释
5、字母变化。. .
所以。. . 见下图
图中地址栏填写的是(*).html。
那么这是什么意思?我们打开这个地址,点击下一步
发现地址变成了