[简单的语言] [网站采集器源代码]实时更新各种资源网络的采集软件的内容

优采云发布时间: 2020-08-07 10:16

　　1. 说明:

　　1. 可以在资源网络的其他网站上测试刚刚编写的采集软件.

　　2. 使用该模块: 皮肤模块（我不会打包以提高安全性）.

　　3，一个非常简单的软件，Daniel可以绕行

　　4. 网站规则的配置文件存储在root \ rule目录中，可以使用记事本打开该文件.

　　5. root \ article目录存储采集器提取的html文件，可以使用浏览器打开该文件. （图片未保存在本地，节省了空间和速度，哈哈）

　　6. 存储在tmp目录中的是为临时测试而爬网的html文件.

　　7. LinkId.txt文件是用于链接到网站的配置文件.

　　2. 教程:

　　1. 请创建一个新文件夹，解压缩压缩包中的所有文件，然后编译源代码.

　　2. 选择文件夹简介:

　　[网站采集器源代码]用于各种资源网络的采集软件的实时更新

　　第一个选择文件夹: 正式遍历文章（即测试遍历是正常的，然后正式遍历）

　　？第二个选择文件夹: 测试遍历（即您自己添加规则之后，测试遍历是否正常！）

　　？第三个选择文件夹: 添加规则（即，添加网站的采集规则，标题文本，尾部文本等）.

　　[网站采集器源代码]用于各种资源网络的采集软件的实时更新

　　3. 使用方法:

　　？请创建一个新文件夹，解压缩压缩包中的所有文件，然后编译源代码.

　　？进入第三个选择文件夹，选择规则文件，然后单击“加载”按钮.

　　？加载完成后（内容将出现在编辑框中），单击右下角的“测试遍历”按钮.

　　？软件将自动进入第二个选择文件夹. 此时，您可以单击“开始遍历”按钮.

　　？遍历完成后，将弹出一个信息框. 单击列表框，检查遍历的内容是否正确.

　　？以上是临时集合，文件保存在tmp目录中.

　　？进入第一个选择文件夹以选择正式采集的规则，开始采集，可见正式采集过程！

　　检查网页源代码并填写编辑框以测试遍历！

　　4，最后一句话. . .

<p>真的很难说清楚，我不知道您是否能听清楚，反正我听不清楚...，任何接触过html的人都应该知道一点...

0

2020-08-07

内容采集器

0 个评论

要回复文章请先登录或注册