采集工具(使用方法有很多种,具体需求如何就要看你怎么操作了)
优采云 发布时间: 2021-12-14 10:15采集工具(使用方法有很多种,具体需求如何就要看你怎么操作了)
解决方案:
打开config.ini,然后另存为asicii编码就行了。
效果展示
对于采集教育网站,我的配置文件是这样写的
[User]
whoami = Langzi
[Config]
title = 学
black_title = 政府
url = .edu.cn
black_url = None
content = None
black_content = 政府
thread = 500
timeout = 5
track = 1
forever = 1
然后右键启动主程序,因为之前没有采集 URL,所以输入1提示输入关键词,我输入【教育】,然后启动自动采集 程序。然后我就去玩游戏了。片刻之后,本地又多了三个文本,是依次保存的结果。按时间排序,以下文字采集的结果最全面。放到服务器上挂了一天后重复采集4W多教育网。
lang_url自动化采集0.96版
重点在这里:
track = 1
# 设置 0 表示对传入的网址不采集友链,直接对传入网址进行动态规则筛选
# 设置 1 将会对传入网址进行友链采集,并且对传入网址和网址的友链进行动态规则筛选
forever = 1
# 对结果重复继续重复爬行友链次数
# 设置 0 表示不会对采集的结果无限重复采集
# 设置 1 会对采集的在进行友链爬行采集一次
# 设置 2 会对采集的在进行友链爬行采集两次
# 设置 3 会对采集的在进行友链爬行采集三次
# 设置 x 会对采集的在进行友链爬行采集x次
# 设置 forever大于0 的前提条件是track=1
【** 注意,forever 大于0 的前提条件是track = 1,即必须开启自动爬行友链的前提下才能启用无限采集功能 **】
【** 注意,如果不想采集友链不想多次采集,仅对自己的网址文本进行规则过滤的话,设置forever = 0,track = 0**】
【** 注意,如果设置track=0,forever=1或者大于1的话,效果和forever=0,track=0 效果一样,所以请不要这样做**】
【** 注意,如果设置track=1,forever=0的话,效果为要进行友链采集但没有设置采集次数,所以请不要这样做**】
也就是说:track(朋友链爬取)只有0(关闭)和1(打开)两个选项,forever(爬取次数)有0-1000(0-无限正整数)选项。
如果只想按规则过滤你手上的URL,设置forever=0,track=0
2018 年 9 月 5 日 00:12:46
修复一个功能,当设置所有过滤规则=None,则track=1,forever=一个大于0的正整数,即不对URL进行规则过滤,只提取网页的所有URL并保存到本地。
这意味着你可以这样设置
[User]
whoami = Langzi
[Config]
url = None
black_url = None
title = None
black_title = None
content = None
black_content = None
thread = 100
timeout = 5
track = 1
forever = 8
功能:无检测规则,直接提取页面中的所有URL。
然后导入URL,爬取好友链,爬了8次,采集很多结果。然后就可以汇总所有的结果,然后设置自定义的本地文件过滤规则。使用方法有很多种,具体的需求就看你怎么操作了。
lang_url自动化采集0.97版
2018 年 9 月 6 日 18:13:40
修复一个功能
添加新功能
设置white_or = 1表示所有白名单(url、title、content,只要其中一个符合条件,就会保存在本地,即url=www,title=international,content=langzi,只要出现www在URL中,会保存到本地)设置white_or = 0表示所有白名单(url, title, content, 保存前必须满足三个条件)
暂时没有黑名单和机制。
2018 年 9 月 7 日 20:28:33
修复多个 采集 问题
lang_url自动化采集0.98版
每次扫描时都会在当前目录中创建一个新文件夹。该文件夹是爬取检测后的URL,里面有一个result.txt。这个文本文件是所有符合规则的 URL。
2018 年 9 月 9 日 22:42:11
2018 年 9 月 10 日 22:06:22
最新下载地址
提取密码:
lang_url自动化采集0.99版
一些有趣的小功能