Lang_URL深度采集工具

优采云发布时间: 2020-08-06 14:17

　　标签: URL采集

　　类别: 个人作品

　　永久链接:

　　密码:

　　关键字:

　　描述: Lang_URL深度采集程序是一个URL采集程序，允许您自定义URL规则. 在URL采集过程中，将检查URL的动态规则，只有那些符合条件的URL才允许在本地保存记录. 例如，如果URL收录[www]，则[International]必须出现在标题中，并且网页中不允许使用[safe dog]之类的规则. 它也可以通过好友链进行无限的采集和过滤. 您扮演小丑已经太久了，您已经忘记了自己. Lang_url自动采集0.95版的常见URL采集器不足

　　市场上大多数URL采集软件的原理是:

　　这意味着您需要尽可能多的界面，包括但不限于Bing，Google，搜狗，百度等，然后将参数传递到返回的页面以根据黑名单提取URL并过滤一些URL，最后迭代页面数.

　　看起来不错. 输入关键字以获取相关的URL. 但是，在此表面之下隐藏着一些缺点:

　　解决缺陷的方法

　　为了解决优化问题并造福大众，郎大师花了2个小时来完成伪代码并成功地对其进行了测试...然后花费了8多个小时来修复了一些错误...当前版本是0.95. ，版本0.95提供以下功能:

　　基本原则

　　实际上，实现起来并不难. 困难在于程序中的条件判断. 如果不关心，则会弹出一个BUG ...

　　无非就是先获取过滤规则，然后判断传入方法以获取URL，最后对URL进行规则判断.

　　功能介绍和用法

　　在使用之前，希望您能仔细阅读介绍. 当前版本为0.95.

　　打开目录时，您会发现3个文件，即:

　　我们将重点放在如何编写配置文件上. 它涉及URL过滤规则以及是否执行无限采集，请求超时以及线程数.

　　自定义规则

　　在当前目录中打开Config.ini并配置安装要求

　　[User]

whoami = Langzi

[Config]

#条件设置 & 是与关系。| 是或关系。

#设置成 None 即不检测存在与否关系，直接保存到本地

#一个条件中可以存在多个&，也可以存在多个|，但不允许同时存在&和|

#具体用法看下面例子

title = 浪子&博客

#title = 浪子&博客，标题中必须存在【浪子】和【博客】两个词才允许保存到本地

#如果设置成None的话，不检测标题关系

#title = None 的话，不检测标题中存不存在词

#title = 浪子的话，标题中必须存在【浪子】这个词才允许保存到本地

#title = 浪子|博客，标题中仅需存在【浪子】或【博客】其中一个词就允许保存到本地

black_title = 捡到钱|踩到屎

#标题中出现【捡到钱】或【踩到屎】其中任意一个词就排除这个网址

url = www&cn

#网址中必须存在【www】和【cn】两个词才允许保存到本地

black_url = gov.cn|edu.cn

#网址中出现【gov.cn】或【edu.cn】其中任意一个词就排除这个网址

content = None

#不检测网页存在与否关系

#即不管网页存在什么都保存到本地

black_content = 404|360|安全狗

#网页中出现【404】或【360】或【安全狗】其中任意一个词就排除这个网址

thread = 100

#采集线程

timeout = 5

#连接超时5秒

track = 1

#设置 0 表示对传入的网址不采集友链，直接对传入网址进行动态规则筛选

#设置 1 将会对传入网址进行友链采集，并且对传入网址和网址的友链进行动态规则筛选

forever = 1

# 设置 0 表示不会对采集的结果无限重复采集

# 设置 1 会对采集的结果无限重复采集，实现挂机无限采集符合要求的网址

　　URL过滤权重排序:

　　网址黑名单>标题黑名单>网页黑名单>网址白名单>标题白名单>网页白名单

　　如果其中之一不符合配置文件的要求，请排除URL

　　注意，所有＆|英文输入法都不是

　　如果您担心输入错误，只需在此处复制

　　&&&&&&

||||||

None None None

　　请注意，对于跟踪（朋友爬网）和永久（无限采集）配置项目，如果将永远设置为1，则跟踪也必须设置为1，因为如果要启用无限采集，则必须启用好友链爬行功能，否则如果没有新的连接传入，则无法实现无限采集功能.

　　初次使用

　　与大多数URL采集器一样，它会在启动后提示您输入关键字，然后采集URL.

　　配置config.ini过滤规则后，线程数，连接超时，是否启用好友链爬网以及是否启用无限制采集. 右键单击以启动Prodigal Son URL 采集 0.95.exe

　　配置如下:

　　[User]

whoami = Langzi

[Config]

url = .edu.cn

black_url = None

title = 学

black_title = 政府

content = None

black_content = 政府

thread = 500

timeout = 5

track = 1

forever = 0

　　功能: URL收录[. ]，标题收录[Learn]，标题不能收录[Government]，网页不能收录[Government]，500个线程，连接超时为5秒以及结果采集器链一次，不是无限采集

　　这时，您将看到以下界面

　　根据提示，我们知道此时需要传递初始URL，因为该URL并非事先采集并保存到本地，因此对于百度关键字采集输入1.

　　此时检查日志文件，您可以看到采集已开始

　　异常状态，好友链爬网，规则过滤都在日志文件中

　　最终结果将保存在本地

　　然后使用text deduplication.exe删除重复项，只需将文本拖入其中即可.

　　采集结束了.

　　还可以从文本文件加载初始URL. 您还可以输入关键字并使用内置的百度界面来采集URL.

　　例如，此时，您打开主程序，并根据提示输入0

　　也可以采集URL文本中的拖动

　　这取决于个人需求. 如果您手中有100个URL，并且要抓取这100个URL，请运行主程序并输入0，然后直接将文本拖入并按Enter.

　　如果没有网址，也可以，也可以使用内置界面来采集关键字. 运行主程序并输入1提示输入关键字，然后使用百度界面进行采集.

　　您可以在日志文件中看到爬网日志.

　　每次的结果都会根据时间自动保存在本地.

　　规则和技能采集教育网站

　　Config.ini设置如下

　　[User]

whoami = Langzi

[Config]

title = 学校|教育

# 标题中出现【学校】或者【教育】其中一个词就保存本地

black_title = 政府

# 标题出现【政府】就排除这个网址

url = .edu.cn

# 网址中必须出现【.edu.cn】

black_url = None

# 不检测网址黑名单

content = None

# 不检测网页内容

black_content = 政府|上海|北京

# 网页中出现【政府】或者【上海】或者【北京】其中某一个词就排除这个网址

thread = 500

# 线程数量 500

timeout = 5

# 连接超时 5 秒

track = 1

# 对网址进行友链爬行

forever = 1

# 进行无限采集

　　采集主要工厂的子域

　　[User]

whoami = Langzi

[Config]

title = 百度|京东|淘宝|阿里|腾讯|浪子

# 标题中出现【百度|京东|淘宝|阿里|腾讯|浪子】其中一个词就保存本地

black_title = 黄页|企业信息|天眼查

# 标题出现【黄页|企业信息|天眼查】其中一个就排除这个网址

url = baidu|taobao|tentcent|jd|langzi

# 网址中出现【baidu|taobao|tentcent|jd|langzi】其中一个词就保存本地

black_url = None

# 不检测网址黑名单

content = None

# 不检测网页内容

black_content = None

# 不检测网页黑名单

thread = 500

# 线程数量 500

timeout = 5

# 连接超时 5 秒

track = 1

# 对网址进行友链爬行

forever = 1

# 进行无限采集

　　采集特定的URL（外部）

　　[User]

whoami = Langzi

[Config]

title = None

# 不检测标题内容

black_title = 一|科|中|新|信|阿|吧|思|家

# 标题出现【一|科|中|新|信|阿|吧|思|家】其中一个就排除这个网址

url = www&jp

# 网址中必须出现【www】和【jp】这两个词才会保存到本地（日本网址后缀）

black_url = cn

# 网址中出现【cn】就排除这个网址

content = None

# 不检测网页内容

black_content = 网页出现【一|科|中|新|信|阿|吧|思|家】其中一个就排除这个网址

# 网页出现【一|科|中|新|信|阿|吧|思|家】其中一个就排除这个网址

thread = 500

# 线程数量 500

timeout = 5

# 连接超时 5 秒

track = 1

# 对网址进行友链爬行

forever = 1

# 进行无限采集

　　验证大量本地URL

　　如果您手中有100个URL，但是您不想使用朋友链接来抓取这些URL，因为这会浪费时间. 仅对100w URL执行规则过滤，右键单击以启动主程序，根据提示输入0，然后将文本拖入其中.

　　配置文件如下:

　　例如，我要过滤掉大厂的域名

　　[User]

whoami = Langzi

[Config]

title = 百度|京东|淘宝|阿里|腾讯|浪子

# 标题中出现【百度|京东|淘宝|阿里|腾讯|浪子】其中一个词就保存本地

black_title = 黄页|企业信息|天眼查

# 标题出现【黄页|企业信息|天眼查】其中一个就排除这个网址

url = baidu|taobao|tentcent|jd|langzi

# 网址中出现【baidu|taobao|tentcent|jd|langzi】其中一个词就保存本地

black_url = None

# 不检测网址黑名单

content = None

# 不检测网页内容

black_content = None

# 不检测网页黑名单

thread = 500

# 线程数量 500

timeout = 5

# 连接超时 5 秒

track = 0

# 不对网址进行友链爬行

forever = 0

# 不进行无限采集

　　要点在这里:

　　track = 0

# 不对网址进行友链爬行

forever = 0

# 不进行无限采集

　　如果设置了此选项，将不会抓取朋友链接，也不会无限采集URL.

　　使用初始URL专门导入

　　右键单击以启动主程序时，系统将提示您输入初始URL的输入方法

　　- 输入：0 ，会让你把网址文本拖拽进来

- 输入：1 ，会让你输入关键词，然后百度采集网址

　　我只想过滤一次爬网的朋友链

　　将此内容写在配置文件的最后两行

　　track = 1

# 不对网址进行友链爬行

forever = 0

# 不进行无限采集

　　然后右键单击以启动，安装程序将提示导入初始URL或使用百度关键字集合.

　　采集后，右键单击以允许重复数据删除文本. 然后将结果直接拖动以重复.

　　我只想抓取朋友链两次并对其进行过滤

　　（＞人＜;）对不起，尚不支持

　　我想采集无限的网址

　　将此内容写在配置文件的最后两行

　　track = 1

# 对网址进行友链爬行

forever = 1

# 进行无限采集

　　通过这种方式，打开了无限采集功能，右键单击以启动主程序，按照提示导入初始URL或使用百度关键字采集功能，则无需担心

　　每个集合的结果都会根据时间保存在本地，并且无限集合功能是下次将所有结果导入为初始URL.

　　自动重复数据删除.

　　我只想过滤大量本地URL

　　如上所述，在配置文件中写入以下两行

　　track = 0

# 不对网址进行友链爬行

forever = 0

# 不进行无限采集

　　然后右键单击以启动主程序，根据提示输入0，然后将URL文本拖入其中，结果将自动保存在本地.

　　个人用途

　　实际上，使用规则非常简单，无非就是与之建立关系. 配置无限采集也非常简单. 只有一个先决条件，即，如果要启用无限采集，则必须启用好友链爬网.

　　规则种类不多，但是您可以根据自己的需要进行配置. 毕竟，您知道自己的需求. 当然，不只是这样写用法. 如何深入抓取更多网站取决于您的大脑.

　　例如，如果您使用b0y的url采集器采集5000个URL，然后可以对这些URL启用好友链爬网和深度爬网，则可以爬网到更多URL.

　　还有更多的显示操作，具体取决于您是否可以想到.

　　日志

　　每次好友链爬网时，规则过滤的异常状态都会保存在当前本地目录的log.txt中. 您可以注意此文件.

　　注意

　　解决方案:

　　打开config.ini，然后另存为asicii编码就行了。

　　效果演示

　　为了采集教育网站，我的配置文件是这样写的

　　[User]

whoami = Langzi

[Config]

title = 学

black_title = 政府

url = .edu.cn

black_url = None

content = None

black_content = 政府

thread = 500

timeout = 5

track = 1

forever = 1

　　然后右键单击以启动主程序，因为我之前没有采集过URL，所以我输入1提示输入关键字，然后输入[education]，然后启动自动采集程序. 然后我去玩游戏，过了一会儿，本地又有三个文本，这是顺序保存的结果. 按时间排序，以后的文本采集结果是最全面的. 将其放在服务器上并挂了一天重复之后，我们采集了超过4W的教育网络.

　　Lang_url自动采集版本0.96

　　要点在这里:

　　track = 1

# 设置 0 表示对传入的网址不采集友链，直接对传入网址进行动态规则筛选

# 设置 1 将会对传入网址进行友链采集，并且对传入网址和网址的友链进行动态规则筛选

forever = 1

# 对结果重复继续重复爬行友链次数

# 设置 0 表示不会对采集的结果无限重复采集

# 设置 1 会对采集的在进行友链爬行采集一次

# 设置 2 会对采集的在进行友链爬行采集两次

# 设置 3 会对采集的在进行友链爬行采集三次

# 设置 x 会对采集的在进行友链爬行采集x次

# 设置 forever大于0 的前提条件是track=1

【** 注意，forever 大于0 的前提条件是track = 1，即必须开启自动爬行友链的前提下才能启用无限采集功能 **】

【** 注意，如果不想采集友链不想多次采集，仅对自己的网址文本进行规则过滤的话，设置forever = 0，track = 0**】

【** 注意，如果设置track=0，forever=1或者大于1的话，效果和forever=0，track=0 效果一样，所以请不要这样做**】

【** 注意，如果设置track=1，forever=0的话，效果为要进行友链采集但没有设置采集次数，所以请不要这样做**】

　　这就是说: “跟踪”（朋友链爬网）只有0（关闭）和1（打开）两个选项，而“永远”（爬网次数）具有0-1000（0无限正整数）个选项.

　　如果您只想按规则过滤手中的网址，请设置永久= 0，跟踪= 0

　　2018年9月5日00:12:46

　　修复功能. 设置所有过滤器规则=无时，则track = 1并永远=大于0的正整数. 也就是说，不对URL执行任何规则过滤，只有网页的所有URL都将被提取并保存在本地.

　　这意味着您可以这样设置

　　[User]

whoami = Langzi

[Config]

url = None

black_url = None

title = None

black_title = None

content = None

black_content = None

thread = 100

timeout = 5

track = 1

forever = 8

　　功能: 在不检测规则的情况下，直接提取页面中的所有URL.

　　然后导入URL，抓取朋友链，抓取8次，并采集很多结果. 然后汇总所有结果，然后为本地文件筛选设置自定义规则. 有很多使用方法，具体需求取决于您的操作方式.

　　Lang_url自动采集版本0.97

　　2018年9月6日18:13:40

　　修复功能

　　添加新功能

　　设置white_or = 1表示所有白名单（URL，标题，内容，只要其中之一符合条件，它将保存在本地，即url = www，title = international，content = langzi，当网址中显示www时，“保存到本地”. 将white_or设置为0表示所有白名单（保存之前必须满足网址，标题，内容，三个条件）

　　目前没有黑名单或机制.

　　2018年9月7日20:28:33

　　解决多个馆藏问题

　　Lang_url自动采集版本0.98

　　每次扫描时，都会在当前目录中创建一个新文件夹. 该文件夹是爬网检测后的URL，并且其中收录result.txt. 该文本文件是符合规则的所有URL.

　　2018年9月9日22:42:11

　　2018年9月10日22:06:22

　　最新下载链接

　　解压缩密码:

　　Lang_url自动采集版本0.99

　　一些有趣的小功能

0

2020-08-06

采集的文章和关键词不符

0 个评论

要回复文章请先登录或注册

AI时代内容工厂

Lang_URL深度采集工具

0 个评论

发起人

AI时代内容工厂

Lang_URL深度采集工具

0 个评论

发起人

相关问题