采集工具(使用方法有很多种，具体需求如何就要看你怎么操作了)

优采云发布时间: 2021-12-14 10:15

　　解决方案：

　　打开config.ini，然后另存为asicii编码就行了。

　　效果展示

　　对于采集教育网站，我的配置文件是这样写的

　　[User]

whoami = Langzi

[Config]

title = 学

black_title = 政府

url = .edu.cn

black_url = None

content = None

black_content = 政府

thread = 500

timeout = 5

track = 1

forever = 1

　　然后右键启动主程序，因为之前没有采集 URL，所以输入1提示输入关键词，我输入【教育】，然后启动自动采集程序。然后我就去玩游戏了。片刻之后，本地又多了三个文本，是依次保存的结果。按时间排序，以下文字采集的结果最全面。放到服务器上挂了一天后重复采集4W多教育网。

　　lang_url自动化采集0.96版

　　重点在这里：

　　track = 1

# 设置 0 表示对传入的网址不采集友链，直接对传入网址进行动态规则筛选

# 设置 1 将会对传入网址进行友链采集，并且对传入网址和网址的友链进行动态规则筛选

forever = 1

# 对结果重复继续重复爬行友链次数

# 设置 0 表示不会对采集的结果无限重复采集

# 设置 1 会对采集的在进行友链爬行采集一次

# 设置 2 会对采集的在进行友链爬行采集两次

# 设置 3 会对采集的在进行友链爬行采集三次

# 设置 x 会对采集的在进行友链爬行采集x次

# 设置 forever大于0 的前提条件是track=1

【** 注意，forever 大于0 的前提条件是track = 1，即必须开启自动爬行友链的前提下才能启用无限采集功能 **】

【** 注意，如果不想采集友链不想多次采集，仅对自己的网址文本进行规则过滤的话，设置forever = 0，track = 0**】

【** 注意，如果设置track=0，forever=1或者大于1的话，效果和forever=0，track=0 效果一样，所以请不要这样做**】

【** 注意，如果设置track=1，forever=0的话，效果为要进行友链采集但没有设置采集次数，所以请不要这样做**】

　　也就是说：track（朋友链爬取）只有0（关闭）和1（打开）两个选项，forever（爬取次数）有0-1000（0-无限正整数）选项。

　　如果只想按规则过滤你手上的URL，设置forever=0,track=0

　　2018 年 9 月 5 日 00:12:46

　　修复一个功能，当设置所有过滤规则=None，则track=1，forever=一个大于0的正整数，即不对URL进行规则过滤，只提取网页的所有URL并保存到本地。

　　这意味着你可以这样设置

　　[User]

whoami = Langzi

[Config]

url = None

black_url = None

title = None

black_title = None

content = None

black_content = None

thread = 100

timeout = 5

track = 1

forever = 8

　　功能：无检测规则，直接提取页面中的所有URL。

　　然后导入URL，爬取好友链，爬了8次，采集很多结果。然后就可以汇总所有的结果，然后设置自定义的本地文件过滤规则。使用方法有很多种，具体的需求就看你怎么操作了。

　　lang_url自动化采集0.97版

　　2018 年 9 月 6 日 18:13:40

　　修复一个功能

　　添加新功能

　　设置white_or = 1表示所有白名单（url、title、content，只要其中一个符合条件，就会保存在本地，即url=www，title=international，content=langzi，只要出现www在URL中，会保存到本地）设置white_or = 0表示所有白名单（url, title, content, 保存前必须满足三个条件）

　　暂时没有黑名单和机制。

　　2018 年 9 月 7 日 20:28:33

　　修复多个采集问题

　　lang_url自动化采集0.98版

　　每次扫描时都会在当前目录中创建一个新文件夹。该文件夹是爬取检测后的URL，里面有一个result.txt。这个文本文件是所有符合规则的 URL。

　　2018 年 9 月 9 日 22:42:11

　　2018 年 9 月 10 日 22:06:22

　　最新下载地址

　　提取密码：

　　lang_url自动化采集0.99版

　　一些有趣的小功能

0

2021-12-14

采集工具

0 个评论

要回复文章请先登录或注册

AI时代内容工厂

采集工具(使用方法有很多种，具体需求如何就要看你怎么操作了)

0 个评论

发起人

AI时代内容工厂

采集工具(使用方法有很多种，具体需求如何就要看你怎么操作了)

0 个评论

发起人

相关问题