[简单的语言] [网站采集器源代码]实时更新各种资源网络的采集软件的内容
优采云 发布时间: 2020-08-07 10:161. 说明:
1. 可以在资源网络的其他网站上测试刚刚编写的采集软件.
2. 使用该模块: 皮肤模块(我不会打包以提高安全性).
3,一个非常简单的软件,Daniel可以绕行
4. 网站规则的配置文件存储在root \ rule目录中,可以使用记事本打开该文件.
5. root \ article目录存储采集器提取的html文件,可以使用浏览器打开该文件. (图片未保存在本地,节省了空间和速度,哈哈)
6. 存储在tmp目录中的是为临时测试而爬网的html文件.
7. LinkId.txt文件是用于链接到网站的配置文件.
2. 教程:
1. 请创建一个新文件夹,解压缩压缩包中的所有文件,然后编译源代码.
2. 选择文件夹简介:
[网站采集器源代码]用于各种资源网络的采集软件的实时更新
第一个选择文件夹: 正式遍历文章(即测试遍历是正常的,然后正式遍历)
?第二个选择文件夹: 测试遍历(即您自己添加规则之后,测试遍历是否正常!)
?第三个选择文件夹: 添加规则(即,添加网站的采集规则,标题文本,尾部文本等).
[网站采集器源代码]用于各种资源网络的采集软件的实时更新
3. 使用方法:
?请创建一个新文件夹,解压缩压缩包中的所有文件,然后编译源代码.
?进入第三个选择文件夹,选择规则文件,然后单击“加载”按钮.
?加载完成后(内容将出现在编辑框中),单击右下角的“测试遍历”按钮.
?软件将自动进入第二个选择文件夹. 此时,您可以单击“开始遍历”按钮.
?遍历完成后,将弹出一个信息框. 单击列表框,检查遍历的内容是否正确.
?以上是临时集合,文件保存在tmp目录中.
?进入第一个选择文件夹以选择正式采集的规则,开始采集,可见正式采集过程!
检查网页源代码并填写编辑框以测试遍历!
4,最后一句话. . .
<p>真的很难说清楚,我不知道您是否能听清楚,反正我听不清楚...,任何接触过html的人都应该知道一点...