[简单的语言] [网站采集器源代码]实时更新各种资源网络的采集软件的内容

优采云 发布时间: 2020-08-07 10:16

  1. 说明:

  1. 可以在资源网络的其他网站上测试刚刚编写的采集软件.

  2. 使用该模块: 皮肤模块(我不会打包以提高安全性).

  3,一个非常简单的软件,Daniel可以绕行

  4. 网站规则的配置文件存储在root \ rule目录中,可以使用记事本打开该文件.

  5. root \ article目录存储采集器提取的html文件,可以使用浏览器打开该文件. (图片未保存在本地,节省了空间和速度,哈哈)

  6. 存储在tmp目录中的是为临时测试而爬网的html文件.

  7. LinkId.txt文件是用于链接到网站的配置文件.

  2. 教程:

  1. 请创建一个新文件夹,解压缩压缩包中的所有文件,然后编译源代码.

  2. 选择文件夹简介:

  [网站采集器源代码]用于各种资源网络的采集软件的实时更新

  

  第一个选择文件夹: 正式遍历文章(即测试遍历是正常的,然后正式遍历)

  ?第二个选择文件夹: 测试遍历(即您自己添加规则之后,测试遍历是否正常!)

  ?第三个选择文件夹: 添加规则(即,添加网站的采集规则,标题文本,尾部文本等).

  [网站采集器源代码]用于各种资源网络的采集软件的实时更新

  

  3. 使用方法:

  ?请创建一个新文件夹,解压缩压缩包中的所有文件,然后编译源代码.

  ?进入第三个选择文件夹,选择规则文件,然后单击“加载”按钮.

  ?加载完成后(内容将出现在编辑框中),单击右下角的“测试遍历”按钮.

  ?软件将自动进入第二个选择文件夹. 此时,您可以单击“开始遍历”按钮.

  ?遍历完成后,将弹出一个信息框. 单击列表框,检查遍历的内容是否正确.

  ?以上是临时集合,文件保存在tmp目录中.

  ?进入第一个选择文件夹以选择正式采集的规则,开始采集,可见正式采集过程!

  检查网页源代码并填写编辑框以测试遍历!

  4,最后一句话. . .

<p>真的很难说清楚,我不知道您是否能听清楚,反正我听不清楚...,任何接触过html的人都应该知道一点...

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线