Lang_URL深度采集工具

优采云 发布时间: 2020-08-06 14:17

  标签: URL采集

  类别: 个人作品

  永久链接:

  密码:

  关键字:

  描述: Lang_URL深度采集程序是一个URL采集程序,允许您自定义URL规则. 在URL采集过程中,将检查URL的动态规则,只有那些符合条件的URL才允许在本地保存记录. 例如,如果URL收录[www],则[International]必须出现在标题中,并且网页中不允许使用[safe dog]之类的规则. 它也可以通过好友链进行无限的采集和过滤. 您扮演小丑已经太久了,您已经忘记了自己. Lang_url自动采集0.95版的常见URL采集器不足

  市场上大多数URL采集软件的原理是:

  这意味着您需要尽可能多的界面,包括但不限于Bing,Google,搜狗,百度等,然后将参数传递到返回的页面以根据黑名单提取URL并过滤一些URL,最后迭代页面数.

  看起来不错. 输入关键字以获取相关的URL. 但是,在此表面之下隐藏着一些缺点:

  解决缺陷的方法

  为了解决优化问题并造福大众,郎大师花了2个小时来完成伪代码并成功地对其进行了测试...然后花费了8多个小时来修复了一些错误...当前版本是0.95. ,版本0.95提供以下功能:

  基本原则

  实际上,实现起来并不难. 困难在于程序中的条件判断. 如果不关心,则会弹出一个BUG ...

  无非就是先获取过滤规则,然后判断传入方法以获取URL,最后对URL进行规则判断.

  功能介绍和用法

  在使用之前,希望您能仔细阅读介绍. 当前版本为0.95.

  打开目录时,您会发现3个文件,即:

  我们将重点放在如何编写配置文件上. 它涉及URL过滤规则以及是否执行无限采集,请求超时以及线程数.

  自定义规则

  在当前目录中打开Config.ini并配置安装要求

  [User]

whoami = Langzi

[Config]

#条件设置 & 是与关系。| 是或关系。

#设置成 None 即不检测存在与否关系,直接保存到本地

#一个条件中可以存在多个&,也可以存在多个|,但不允许同时存在&和|

#具体用法看下面例子

title = 浪子&博客

#title = 浪子&博客,标题中必须存在【浪子】和【博客】两个词才允许保存到本地

#如果设置成None的话,不检测标题关系

#title = None 的话,不检测标题中存不存在词

#title = 浪子 的话,标题中必须存在【浪子】这个词才允许保存到本地

#title = 浪子|博客,标题中仅需存在【浪子】或【博客】其中一个词就允许保存到本地

black_title = 捡到钱|踩到屎

#标题中出现【捡到钱】或【踩到屎】其中任意一个词就排除这个网址

url = www&cn

#网址中必须存在【www】和【cn】两个词才允许保存到本地

black_url = gov.cn|edu.cn

#网址中出现【gov.cn】或【edu.cn】其中任意一个词就排除这个网址

content = None

#不检测网页存在与否关系

#即不管网页存在什么都保存到本地

black_content = 404|360|安全狗

#网页中出现【404】或【360】或【安全狗】其中任意一个词就排除这个网址

thread = 100

#采集线程

timeout = 5

#连接超时5秒

track = 1

#设置 0 表示对传入的网址不采集友链,直接对传入网址进行动态规则筛选

#设置 1 将会对传入网址进行友链采集,并且对传入网址和网址的友链进行动态规则筛选

forever = 1

# 设置 0 表示不会对采集的结果无限重复采集

# 设置 1 会对采集的结果无限重复采集,实现挂机无限采集符合要求的网址

  URL过滤权重排序:

  网址黑名单>标题黑名单>网页黑名单>网址白名单>标题白名单>网页白名单

  如果其中之一不符合配置文件的要求,请排除URL

  注意,所有&|英文输入法都不是

  如果您担心输入错误,只需在此处复制

  &&&&&&

||||||

None None None

  请注意,对于跟踪(朋友爬网)和永久(无限采集)配置项目,如果将永远设置为1,则跟踪也必须设置为1,因为如果要启用无限采集,则必须启用好友链爬行功能,否则如果没有新的连接传入,则无法实现无限采集功能.

  初次使用

  与大多数URL采集器一样,它会在启动后提示您输入关键字,然后采集URL.

  配置config.ini过滤规则后,线程数,连接超时,是否启用好友链爬网以及是否启用无限制采集. 右键单击以启动Prodigal Son URL 采集 0.95.exe

  配置如下:

  [User]

whoami = Langzi

[Config]

url = .edu.cn

black_url = None

title = 学

black_title = 政府

content = None

black_content = 政府

thread = 500

timeout = 5

track = 1

forever = 0

  功能: URL收录[. ],标题收录[Learn],标题不能收录[Government],网页不能收录[Government],500个线程,连接超时为5秒以及结果采集器链一次,不是无限采集

  这时,您将看到以下界面

  

  根据提示,我们知道此时需要传递初始URL,因为该URL并非事先采集并保存到本地,因此对于百度关键字采集输入1.

  

  此时检查日志文件,您可以看到采集已开始

  

  异常状态,好友链爬网,规则过滤都在日志文件中

  

  最终结果将保存在本地

  

  然后使用text deduplication.exe删除重复项,只需将文本拖入其中即可.

  

  采集结束了.

  还可以从文本文件加载初始URL. 您还可以输入关键字并使用内置的百度界面来采集URL.

  例如,此时,您打开主程序,并根据提示输入0

  也可以采集URL文本中的拖动

  

  这取决于个人需求. 如果您手中有100个URL,并且要抓取这100个URL,请运行主程序并输入0,然后直接将文本拖入并按Enter.

  如果没有网址,也可以,也可以使用内置界面来采集关键字. 运行主程序并输入1提示输入关键字,然后使用百度界面进行采集.

  您可以在日志文件中看到爬网日志.

  每次的结果都会根据时间自动保存在本地.

  规则和技能采集教育网站

  Config.ini设置如下

  [User]

whoami = Langzi

[Config]

title = 学校|教育

# 标题中出现【学校】或者【教育】其中一个词就保存本地

black_title = 政府

# 标题出现【政府】就排除这个网址

url = .edu.cn

# 网址中必须出现【.edu.cn】

black_url = None

# 不检测网址黑名单

content = None

# 不检测网页内容

black_content = 政府|上海|北京

# 网页中出现【政府】或者【上海】或者【北京】其中某一个词就排除这个网址

thread = 500

# 线程数量 500

timeout = 5

# 连接超时 5 秒

track = 1

# 对网址进行友链爬行

forever = 1

# 进行无限采集

  采集主要工厂的子域

  [User]

whoami = Langzi

[Config]

title = 百度|京东|淘宝|阿里|腾讯|浪子

# 标题中出现【百度|京东|淘宝|阿里|腾讯|浪子】其中一个词就保存本地

black_title = 黄页|企业信息|天眼查

# 标题出现【黄页|企业信息|天眼查】其中一个就排除这个网址

url = baidu|taobao|tentcent|jd|langzi

# 网址中出现【baidu|taobao|tentcent|jd|langzi】其中一个词就保存本地

black_url = None

# 不检测网址黑名单

content = None

# 不检测网页内容

black_content = None

# 不检测网页黑名单

thread = 500

# 线程数量 500

timeout = 5

# 连接超时 5 秒

track = 1

# 对网址进行友链爬行

forever = 1

# 进行无限采集

  采集特定的URL(外部)

  [User]

whoami = Langzi

[Config]

title = None

# 不检测标题内容

black_title = 一|科|中|新|信|阿|吧|思|家

# 标题出现【一|科|中|新|信|阿|吧|思|家】其中一个就排除这个网址

url = www&jp

# 网址中必须出现【www】和【jp】这两个词才会保存到本地(日本网址后缀)

black_url = cn

# 网址中出现【cn】就排除这个网址

content = None

# 不检测网页内容

black_content = 网页出现【一|科|中|新|信|阿|吧|思|家】其中一个就排除这个网址

# 网页出现【一|科|中|新|信|阿|吧|思|家】其中一个就排除这个网址

thread = 500

# 线程数量 500

timeout = 5

# 连接超时 5 秒

track = 1

# 对网址进行友链爬行

forever = 1

# 进行无限采集

  验证大量本地URL

  如果您手中有100个URL,但是您不想使用朋友链接来抓取这些URL,因为这会浪费时间. 仅对100w URL执行规则过滤,右键单击以启动主程序,根据提示输入0,然后将文本拖入其中.

  配置文件如下:

  例如,我要过滤掉大厂的域名

  [User]

whoami = Langzi

[Config]

title = 百度|京东|淘宝|阿里|腾讯|浪子

# 标题中出现【百度|京东|淘宝|阿里|腾讯|浪子】其中一个词就保存本地

black_title = 黄页|企业信息|天眼查

# 标题出现【黄页|企业信息|天眼查】其中一个就排除这个网址

url = baidu|taobao|tentcent|jd|langzi

# 网址中出现【baidu|taobao|tentcent|jd|langzi】其中一个词就保存本地

black_url = None

# 不检测网址黑名单

content = None

# 不检测网页内容

black_content = None

# 不检测网页黑名单

thread = 500

# 线程数量 500

timeout = 5

# 连接超时 5 秒

track = 0

# 不对网址进行友链爬行

forever = 0

# 不进行无限采集

  要点在这里:

  track = 0

# 不对网址进行友链爬行

forever = 0

# 不进行无限采集

  如果设置了此选项,将不会抓取朋友链接,也不会无限采集URL.

  使用初始URL专门导入

  右键单击以启动主程序时,系统将提示您输入初始URL的输入方法

  - 输入:0 ,会让你把网址文本拖拽进来

- 输入:1 ,会让你输入关键词,然后百度采集网址

  我只想过滤一次爬网的朋友链

  将此内容写在配置文件的最后两行

  track = 1

# 不对网址进行友链爬行

forever = 0

# 不进行无限采集

  然后右键单击以启动,安装程序将提示导入初始URL或使用百度关键字集合.

  采集后,右键单击以允许重复数据删除文本. 然后将结果直接拖动以重复.

  我只想抓取朋友链两次并对其进行过滤

  (>人<;)对不起,尚不支持

  我想采集无限的网址

  将此内容写在配置文件的最后两行

  track = 1

# 对网址进行友链爬行

forever = 1

# 进行无限采集

  通过这种方式,打开了无限采集功能,右键单击以启动主程序,按照提示导入初始URL或使用百度关键字采集功能,则无需担心

  每个集合的结果都会根据时间保存在本地,并且无限集合功能是下次将所有结果导入为初始URL.

  自动重复数据删除.

  我只想过滤大量本地URL

  如上所述,在配置文件中写入以下两行

  track = 0

# 不对网址进行友链爬行

forever = 0

# 不进行无限采集

  然后右键单击以启动主程序,根据提示输入0,然后将URL文本拖入其中,结果将自动保存在本地.

  个人用途

  实际上,使用规则非常简单,无非就是与之建立关系. 配置无限采集也非常简单. 只有一个先决条件,即,如果要启用无限采集,则必须启用好友链爬网.

  规则种类不多,但是您可以根据自己的需要进行配置. 毕竟,您知道自己的需求. 当然,不只是这样写用法. 如何深入抓取更多网站取决于您的大脑.

  例如,如果您使用b0y的url采集器采集5000个URL,然后可以对这些URL启用好友链爬网和深度爬网,则可以爬网到更多URL.

  还有更多的显示操作,具体取决于您是否可以想到.

  日志

  每次好友链爬网时,规则过滤的异常状态都会保存在当前本地目录的log.txt中. 您可以注意此文件.

  注意

  解决方案:

  打开config.ini,然后另存为asicii编码就行了。

  效果演示

  为了采集教育网站,我的配置文件是这样写的

  [User]

whoami = Langzi

[Config]

title = 学

black_title = 政府

url = .edu.cn

black_url = None

content = None

black_content = 政府

thread = 500

timeout = 5

track = 1

forever = 1

  然后右键单击以启动主程序,因为我之前没有采集过URL,所以我输入1提示输入关键字,然后输入[education],然后启动自动采集程序. 然后我去玩游戏,过了一会儿,本地又有三个文本,这是顺序保存的结果. 按时间排序,以后的文本采集结果是最全面的. 将其放在服务器上并挂了一天重复之后,我们采集了超过4W的教育网络.

  Lang_url自动采集版本0.96

  要点在这里:

  track = 1

# 设置 0 表示对传入的网址不采集友链,直接对传入网址进行动态规则筛选

# 设置 1 将会对传入网址进行友链采集,并且对传入网址和网址的友链进行动态规则筛选

forever = 1

# 对结果重复继续重复爬行友链次数

# 设置 0 表示不会对采集的结果无限重复采集

# 设置 1 会对采集的在进行友链爬行采集一次

# 设置 2 会对采集的在进行友链爬行采集两次

# 设置 3 会对采集的在进行友链爬行采集三次

# 设置 x 会对采集的在进行友链爬行采集x次

# 设置 forever大于0 的前提条件是track=1

【** 注意,forever 大于0 的前提条件是track = 1,即必须开启自动爬行友链的前提下才能启用无限采集功能 **】

【** 注意,如果不想采集友链不想多次采集,仅对自己的网址文本进行规则过滤的话,设置forever = 0,track = 0**】

【** 注意,如果设置track=0,forever=1或者大于1的话,效果和forever=0,track=0 效果一样,所以请不要这样做**】

【** 注意,如果设置track=1,forever=0的话,效果为要进行友链采集但没有设置采集次数,所以请不要这样做**】

  这就是说: “跟踪”(朋友链爬网)只有0(关闭)和1(打开)两个选项,而“永远”(爬网次数)具有0-1000(0无限正整数)个选项.

  如果您只想按规则过滤手中的网址,请设置永久= 0,跟踪= 0

  2018年9月5日00:12:46

  修复功能. 设置所有过滤器规则=无时,则track = 1并永远=大于0的正整数. 也就是说,不对URL执行任何规则过滤,只有网页的所有URL都将被提取并保存在本地.

  这意味着您可以这样设置

  [User]

whoami = Langzi

[Config]

url = None

black_url = None

title = None

black_title = None

content = None

black_content = None

thread = 100

timeout = 5

track = 1

forever = 8

  功能: 在不检测规则的情况下,直接提取页面中的所有URL.

  然后导入URL,抓取朋友链,抓取8次,并采集很多结果. 然后汇总所有结果,然后为本地文件筛选设置自定义规则. 有很多使用方法,具体需求取决于您的操作方式.

  Lang_url自动采集版本0.97

  2018年9月6日18:13:40

  修复功能

  添加新功能

  设置white_or = 1表示所有白名单(URL,标题,内容,只要其中之一符合条件,它将保存在本地,即url = www,title = international,content = langzi,当网址中显示www时,“保存到本地”. 将white_or设置为0表示所有白名单(保存之前必须满足网址,标题,内容,三个条件)

  目前没有黑名单或机制.

  2018年9月7日20:28:33

  解决多个馆藏问题

  Lang_url自动采集版本0.98

  每次扫描时,都会在当前目录中创建一个新文件夹. 该文件夹是爬网检测后的URL,并且其中收录result.txt. 该文本文件是符合规则的所有URL.

  2018年9月9日22:42:11

  2018年9月10日22:06:22

  最新下载链接

  解压缩密码:

  Lang_url自动采集版本0.99

  一些有趣的小功能

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线