Lang_URL深度采集工具
优采云 发布时间: 2020-08-06 14:17标签: URL采集
类别: 个人作品
永久链接:
密码:
关键字:
描述: Lang_URL深度采集程序是一个URL采集程序,允许您自定义URL规则. 在URL采集过程中,将检查URL的动态规则,只有那些符合条件的URL才允许在本地保存记录. 例如,如果URL收录[www],则[International]必须出现在标题中,并且网页中不允许使用[safe dog]之类的规则. 它也可以通过好友链进行无限的采集和过滤. 您扮演小丑已经太久了,您已经忘记了自己. Lang_url自动采集0.95版的常见URL采集器不足
市场上大多数URL采集软件的原理是:
这意味着您需要尽可能多的界面,包括但不限于Bing,Google,搜狗,百度等,然后将参数传递到返回的页面以根据黑名单提取URL并过滤一些URL,最后迭代页面数.
看起来不错. 输入关键字以获取相关的URL. 但是,在此表面之下隐藏着一些缺点:
解决缺陷的方法
为了解决优化问题并造福大众,郎大师花了2个小时来完成伪代码并成功地对其进行了测试...然后花费了8多个小时来修复了一些错误...当前版本是0.95. ,版本0.95提供以下功能:
基本原则
实际上,实现起来并不难. 困难在于程序中的条件判断. 如果不关心,则会弹出一个BUG ...
无非就是先获取过滤规则,然后判断传入方法以获取URL,最后对URL进行规则判断.
功能介绍和用法
在使用之前,希望您能仔细阅读介绍. 当前版本为0.95.
打开目录时,您会发现3个文件,即:
我们将重点放在如何编写配置文件上. 它涉及URL过滤规则以及是否执行无限采集,请求超时以及线程数.
自定义规则
在当前目录中打开Config.ini并配置安装要求
[User]
whoami = Langzi
[Config]
#条件设置 & 是与关系。| 是或关系。
#设置成 None 即不检测存在与否关系,直接保存到本地
#一个条件中可以存在多个&,也可以存在多个|,但不允许同时存在&和|
#具体用法看下面例子
title = 浪子&博客
#title = 浪子&博客,标题中必须存在【浪子】和【博客】两个词才允许保存到本地
#如果设置成None的话,不检测标题关系
#title = None 的话,不检测标题中存不存在词
#title = 浪子 的话,标题中必须存在【浪子】这个词才允许保存到本地
#title = 浪子|博客,标题中仅需存在【浪子】或【博客】其中一个词就允许保存到本地
black_title = 捡到钱|踩到屎
#标题中出现【捡到钱】或【踩到屎】其中任意一个词就排除这个网址
url = www&cn
#网址中必须存在【www】和【cn】两个词才允许保存到本地
black_url = gov.cn|edu.cn
#网址中出现【gov.cn】或【edu.cn】其中任意一个词就排除这个网址
content = None
#不检测网页存在与否关系
#即不管网页存在什么都保存到本地
black_content = 404|360|安全狗
#网页中出现【404】或【360】或【安全狗】其中任意一个词就排除这个网址
thread = 100
#采集线程
timeout = 5
#连接超时5秒
track = 1
#设置 0 表示对传入的网址不采集友链,直接对传入网址进行动态规则筛选
#设置 1 将会对传入网址进行友链采集,并且对传入网址和网址的友链进行动态规则筛选
forever = 1
# 设置 0 表示不会对采集的结果无限重复采集
# 设置 1 会对采集的结果无限重复采集,实现挂机无限采集符合要求的网址
URL过滤权重排序:
网址黑名单>标题黑名单>网页黑名单>网址白名单>标题白名单>网页白名单
如果其中之一不符合配置文件的要求,请排除URL
注意,所有&|英文输入法都不是
如果您担心输入错误,只需在此处复制
&&&&&&
||||||
None None None
请注意,对于跟踪(朋友爬网)和永久(无限采集)配置项目,如果将永远设置为1,则跟踪也必须设置为1,因为如果要启用无限采集,则必须启用好友链爬行功能,否则如果没有新的连接传入,则无法实现无限采集功能.
初次使用
与大多数URL采集器一样,它会在启动后提示您输入关键字,然后采集URL.
配置config.ini过滤规则后,线程数,连接超时,是否启用好友链爬网以及是否启用无限制采集. 右键单击以启动Prodigal Son URL 采集 0.95.exe
配置如下:
[User]
whoami = Langzi
[Config]
url = .edu.cn
black_url = None
title = 学
black_title = 政府
content = None
black_content = 政府
thread = 500
timeout = 5
track = 1
forever = 0
功能: URL收录[. ],标题收录[Learn],标题不能收录[Government],网页不能收录[Government],500个线程,连接超时为5秒以及结果采集器链一次,不是无限采集
这时,您将看到以下界面
根据提示,我们知道此时需要传递初始URL,因为该URL并非事先采集并保存到本地,因此对于百度关键字采集输入1.
此时检查日志文件,您可以看到采集已开始
异常状态,好友链爬网,规则过滤都在日志文件中
最终结果将保存在本地
然后使用text deduplication.exe删除重复项,只需将文本拖入其中即可.
采集结束了.
还可以从文本文件加载初始URL. 您还可以输入关键字并使用内置的百度界面来采集URL.
例如,此时,您打开主程序,并根据提示输入0
也可以采集URL文本中的拖动
这取决于个人需求. 如果您手中有100个URL,并且要抓取这100个URL,请运行主程序并输入0,然后直接将文本拖入并按Enter.
如果没有网址,也可以,也可以使用内置界面来采集关键字. 运行主程序并输入1提示输入关键字,然后使用百度界面进行采集.
您可以在日志文件中看到爬网日志.
每次的结果都会根据时间自动保存在本地.
规则和技能采集教育网站
Config.ini设置如下
[User]
whoami = Langzi
[Config]
title = 学校|教育
# 标题中出现【学校】或者【教育】其中一个词就保存本地
black_title = 政府
# 标题出现【政府】就排除这个网址
url = .edu.cn
# 网址中必须出现【.edu.cn】
black_url = None
# 不检测网址黑名单
content = None
# 不检测网页内容
black_content = 政府|上海|北京
# 网页中出现【政府】或者【上海】或者【北京】其中某一个词就排除这个网址
thread = 500
# 线程数量 500
timeout = 5
# 连接超时 5 秒
track = 1
# 对网址进行友链爬行
forever = 1
# 进行无限采集
采集主要工厂的子域
[User]
whoami = Langzi
[Config]
title = 百度|京东|淘宝|阿里|腾讯|浪子
# 标题中出现【百度|京东|淘宝|阿里|腾讯|浪子】其中一个词就保存本地
black_title = 黄页|企业信息|天眼查
# 标题出现【黄页|企业信息|天眼查】其中一个就排除这个网址
url = baidu|taobao|tentcent|jd|langzi
# 网址中出现【baidu|taobao|tentcent|jd|langzi】其中一个词就保存本地
black_url = None
# 不检测网址黑名单
content = None
# 不检测网页内容
black_content = None
# 不检测网页黑名单
thread = 500
# 线程数量 500
timeout = 5
# 连接超时 5 秒
track = 1
# 对网址进行友链爬行
forever = 1
# 进行无限采集
采集特定的URL(外部)
[User]
whoami = Langzi
[Config]
title = None
# 不检测标题内容
black_title = 一|科|中|新|信|阿|吧|思|家
# 标题出现【一|科|中|新|信|阿|吧|思|家】其中一个就排除这个网址
url = www&jp
# 网址中必须出现【www】和【jp】这两个词才会保存到本地(日本网址后缀)
black_url = cn
# 网址中出现【cn】就排除这个网址
content = None
# 不检测网页内容
black_content = 网页出现【一|科|中|新|信|阿|吧|思|家】其中一个就排除这个网址
# 网页出现【一|科|中|新|信|阿|吧|思|家】其中一个就排除这个网址
thread = 500
# 线程数量 500
timeout = 5
# 连接超时 5 秒
track = 1
# 对网址进行友链爬行
forever = 1
# 进行无限采集
验证大量本地URL
如果您手中有100个URL,但是您不想使用朋友链接来抓取这些URL,因为这会浪费时间. 仅对100w URL执行规则过滤,右键单击以启动主程序,根据提示输入0,然后将文本拖入其中.
配置文件如下:
例如,我要过滤掉大厂的域名
[User]
whoami = Langzi
[Config]
title = 百度|京东|淘宝|阿里|腾讯|浪子
# 标题中出现【百度|京东|淘宝|阿里|腾讯|浪子】其中一个词就保存本地
black_title = 黄页|企业信息|天眼查
# 标题出现【黄页|企业信息|天眼查】其中一个就排除这个网址
url = baidu|taobao|tentcent|jd|langzi
# 网址中出现【baidu|taobao|tentcent|jd|langzi】其中一个词就保存本地
black_url = None
# 不检测网址黑名单
content = None
# 不检测网页内容
black_content = None
# 不检测网页黑名单
thread = 500
# 线程数量 500
timeout = 5
# 连接超时 5 秒
track = 0
# 不对网址进行友链爬行
forever = 0
# 不进行无限采集
要点在这里:
track = 0
# 不对网址进行友链爬行
forever = 0
# 不进行无限采集
如果设置了此选项,将不会抓取朋友链接,也不会无限采集URL.
使用初始URL专门导入
右键单击以启动主程序时,系统将提示您输入初始URL的输入方法
- 输入:0 ,会让你把网址文本拖拽进来
- 输入:1 ,会让你输入关键词,然后百度采集网址
我只想过滤一次爬网的朋友链
将此内容写在配置文件的最后两行
track = 1
# 不对网址进行友链爬行
forever = 0
# 不进行无限采集
然后右键单击以启动,安装程序将提示导入初始URL或使用百度关键字集合.
采集后,右键单击以允许重复数据删除文本. 然后将结果直接拖动以重复.
我只想抓取朋友链两次并对其进行过滤
(>人<;)对不起,尚不支持
我想采集无限的网址
将此内容写在配置文件的最后两行
track = 1
# 对网址进行友链爬行
forever = 1
# 进行无限采集
通过这种方式,打开了无限采集功能,右键单击以启动主程序,按照提示导入初始URL或使用百度关键字采集功能,则无需担心
每个集合的结果都会根据时间保存在本地,并且无限集合功能是下次将所有结果导入为初始URL.
自动重复数据删除.
我只想过滤大量本地URL
如上所述,在配置文件中写入以下两行
track = 0
# 不对网址进行友链爬行
forever = 0
# 不进行无限采集
然后右键单击以启动主程序,根据提示输入0,然后将URL文本拖入其中,结果将自动保存在本地.
个人用途
实际上,使用规则非常简单,无非就是与之建立关系. 配置无限采集也非常简单. 只有一个先决条件,即,如果要启用无限采集,则必须启用好友链爬网.
规则种类不多,但是您可以根据自己的需要进行配置. 毕竟,您知道自己的需求. 当然,不只是这样写用法. 如何深入抓取更多网站取决于您的大脑.
例如,如果您使用b0y的url采集器采集5000个URL,然后可以对这些URL启用好友链爬网和深度爬网,则可以爬网到更多URL.
还有更多的显示操作,具体取决于您是否可以想到.
日志
每次好友链爬网时,规则过滤的异常状态都会保存在当前本地目录的log.txt中. 您可以注意此文件.
注意
解决方案:
打开config.ini,然后另存为asicii编码就行了。
效果演示
为了采集教育网站,我的配置文件是这样写的
[User]
whoami = Langzi
[Config]
title = 学
black_title = 政府
url = .edu.cn
black_url = None
content = None
black_content = 政府
thread = 500
timeout = 5
track = 1
forever = 1
然后右键单击以启动主程序,因为我之前没有采集过URL,所以我输入1提示输入关键字,然后输入[education],然后启动自动采集程序. 然后我去玩游戏,过了一会儿,本地又有三个文本,这是顺序保存的结果. 按时间排序,以后的文本采集结果是最全面的. 将其放在服务器上并挂了一天重复之后,我们采集了超过4W的教育网络.
Lang_url自动采集版本0.96
要点在这里:
track = 1
# 设置 0 表示对传入的网址不采集友链,直接对传入网址进行动态规则筛选
# 设置 1 将会对传入网址进行友链采集,并且对传入网址和网址的友链进行动态规则筛选
forever = 1
# 对结果重复继续重复爬行友链次数
# 设置 0 表示不会对采集的结果无限重复采集
# 设置 1 会对采集的在进行友链爬行采集一次
# 设置 2 会对采集的在进行友链爬行采集两次
# 设置 3 会对采集的在进行友链爬行采集三次
# 设置 x 会对采集的在进行友链爬行采集x次
# 设置 forever大于0 的前提条件是track=1
【** 注意,forever 大于0 的前提条件是track = 1,即必须开启自动爬行友链的前提下才能启用无限采集功能 **】
【** 注意,如果不想采集友链不想多次采集,仅对自己的网址文本进行规则过滤的话,设置forever = 0,track = 0**】
【** 注意,如果设置track=0,forever=1或者大于1的话,效果和forever=0,track=0 效果一样,所以请不要这样做**】
【** 注意,如果设置track=1,forever=0的话,效果为要进行友链采集但没有设置采集次数,所以请不要这样做**】
这就是说: “跟踪”(朋友链爬网)只有0(关闭)和1(打开)两个选项,而“永远”(爬网次数)具有0-1000(0无限正整数)个选项.
如果您只想按规则过滤手中的网址,请设置永久= 0,跟踪= 0
2018年9月5日00:12:46
修复功能. 设置所有过滤器规则=无时,则track = 1并永远=大于0的正整数. 也就是说,不对URL执行任何规则过滤,只有网页的所有URL都将被提取并保存在本地.
这意味着您可以这样设置
[User]
whoami = Langzi
[Config]
url = None
black_url = None
title = None
black_title = None
content = None
black_content = None
thread = 100
timeout = 5
track = 1
forever = 8
功能: 在不检测规则的情况下,直接提取页面中的所有URL.
然后导入URL,抓取朋友链,抓取8次,并采集很多结果. 然后汇总所有结果,然后为本地文件筛选设置自定义规则. 有很多使用方法,具体需求取决于您的操作方式.
Lang_url自动采集版本0.97
2018年9月6日18:13:40
修复功能
添加新功能
设置white_or = 1表示所有白名单(URL,标题,内容,只要其中之一符合条件,它将保存在本地,即url = www,title = international,content = langzi,当网址中显示www时,“保存到本地”. 将white_or设置为0表示所有白名单(保存之前必须满足网址,标题,内容,三个条件)
目前没有黑名单或机制.
2018年9月7日20:28:33
解决多个馆藏问题
Lang_url自动采集版本0.98
每次扫描时,都会在当前目录中创建一个新文件夹. 该文件夹是爬网检测后的URL,并且其中收录result.txt. 该文本文件是符合规则的所有URL.
2018年9月9日22:42:11
2018年9月10日22:06:22
最新下载链接
解压缩密码:
Lang_url自动采集版本0.99
一些有趣的小功能