
config
手把手教你怎么获取全网可访问的所有网站网址和网站信息
采集交流 • 优采云 发表了文章 • 0 个评论 • 249 次浏览 • 2020-08-03 13:03
如何获取全网可访问的所有网站网址和网站信息呢
今天因为有一个小程序项目,是专门给织梦dedecms网站、WordPress网站做小程序制做免费小程序的。但是手上织梦网站和WordPress网站用户数目都不是好多,很好的项目却没有触碰到用户,没有能给网站带来益处,于是就想,能不能搜集现今网上所有的织梦网站和WordPress网站,并且获取她们的邮箱、QQ、微信、电话等有用信息呢?
带着疑惑百度了一番,没有发觉现成的可用数据,可是小程序项目还得向前推呢,等着用户来使用呢?既然网上没有现成的,要不就自己写一个吧。于是就有了这个cobweb全网网址采集器。
全网网址采集器是哪些?
这是一个由golang编撰的全网网址采集器,可用手动爬取可触碰的所有网站信息。该网址采集器会手动采集并剖析网站的标题、站点描述、微信、QQ、联系电话、网站所用的运行环境、ip信息等,甚至是网站所用的框架。
为什么会有这个全网网址采集器全网网址采集器能采集哪些内容
本采集器可以采集到的的内容有:文章标题、文章关键词、文章描述、文章详情内容、文章作者、文章发布时间、文章浏览量。
全网网址采集器可用在那里运行
本采集器可用运行在 Windows系统、Mac 系统、Linux系统(Centos、Ubuntu等),可用下载编译好的程序直接执行,也可以下载源码自己编译。
如何安装使用
最后执行下面命令
```shell script
go mod tidy
go mod vendor
go build
编译结束后,配置config。重命名config.dist.json为config.json,打开config.json,修改mysql部份的配置,填写为你的mysql地址、用户名、密码、数据库信息,新建cobweb数据库,导入mysql.sql到填写的数据库中,然后双击运行可执行文件即可开始采集之旅。
config.json配置说明
{
"mysql": { //数据库配置
"Database": "spider",
"User": "root",
"Password": "root",
"Charset": "utf8mb4",
"Host": "127.0.0.1",
"TablePrefix": "",
"Port": 3306,
"MaxIdleConnections": 1000,
"MaxOpenConnections": 100000
}
}
全网网址采集器运行原理剖析多线程(多协程)同时执行
全网网址采集器借助了golang得天独厚的并行任务优势,同时开启多个解释器,可以做到比常规轻易得手的php采集代码快10倍~100倍全网文章采集,甚至更快。当然更快的采集速度还须要借助你本地的网速,你家开的是500M带宽的话,开1000个解释器都是可以的。
相关代码部份
<p>var MaxChan = 100
var waitGroup sync.WaitGroup
var ch = make(chan string, MaxChan)
func SingleSpider(){
var websites []Website
var counter int
DB.Model(&Website{}).Where("`status` = 0").Limit(MaxChan*10).Count(&counter).Find(&websites)
if counter > 0 {
for _, v := range websites {
ch 查看全部
今天因为有一个小程序项目,是专门给织梦dedecms网站、WordPress网站做小程序制做免费小程序的。但是手上织梦网站和WordPress网站用户数目都不是好多,很好的项目却没有触碰到用户,没有能给网站带来益处,于是就想,能不能搜集现今网上所有的织梦网站和WordPress网站,并且获取她们的邮箱、QQ、微信、电话等有用信息呢?
带着疑惑百度了一番,没有发觉现成的可用数据,可是小程序项目还得向前推呢,等着用户来使用呢?既然网上没有现成的,要不就自己写一个吧。于是就有了这个cobweb全网网址采集器。
全网网址采集器是哪些?
这是一个由golang编撰的全网网址采集器,可用手动爬取可触碰的所有网站信息。该网址采集器会手动采集并剖析网站的标题、站点描述、微信、QQ、联系电话、网站所用的运行环境、ip信息等,甚至是网站所用的框架。
为什么会有这个全网网址采集器全网网址采集器能采集哪些内容
本采集器可以采集到的的内容有:文章标题、文章关键词、文章描述、文章详情内容、文章作者、文章发布时间、文章浏览量。
全网网址采集器可用在那里运行
本采集器可用运行在 Windows系统、Mac 系统、Linux系统(Centos、Ubuntu等),可用下载编译好的程序直接执行,也可以下载源码自己编译。
如何安装使用
最后执行下面命令
```shell script
go mod tidy
go mod vendor
go build
编译结束后,配置config。重命名config.dist.json为config.json,打开config.json,修改mysql部份的配置,填写为你的mysql地址、用户名、密码、数据库信息,新建cobweb数据库,导入mysql.sql到填写的数据库中,然后双击运行可执行文件即可开始采集之旅。
config.json配置说明
{
"mysql": { //数据库配置
"Database": "spider",
"User": "root",
"Password": "root",
"Charset": "utf8mb4",
"Host": "127.0.0.1",
"TablePrefix": "",
"Port": 3306,
"MaxIdleConnections": 1000,
"MaxOpenConnections": 100000
}
}
全网网址采集器运行原理剖析多线程(多协程)同时执行
全网网址采集器借助了golang得天独厚的并行任务优势,同时开启多个解释器,可以做到比常规轻易得手的php采集代码快10倍~100倍全网文章采集,甚至更快。当然更快的采集速度还须要借助你本地的网速,你家开的是500M带宽的话,开1000个解释器都是可以的。
相关代码部份
<p>var MaxChan = 100
var waitGroup sync.WaitGroup
var ch = make(chan string, MaxChan)
func SingleSpider(){
var websites []Website
var counter int
DB.Model(&Website{}).Where("`status` = 0").Limit(MaxChan*10).Count(&counter).Find(&websites)
if counter > 0 {
for _, v := range websites {
ch 查看全部
如何获取全网可访问的所有网站网址和网站信息呢
今天因为有一个小程序项目,是专门给织梦dedecms网站、WordPress网站做小程序制做免费小程序的。但是手上织梦网站和WordPress网站用户数目都不是好多,很好的项目却没有触碰到用户,没有能给网站带来益处,于是就想,能不能搜集现今网上所有的织梦网站和WordPress网站,并且获取她们的邮箱、QQ、微信、电话等有用信息呢?
带着疑惑百度了一番,没有发觉现成的可用数据,可是小程序项目还得向前推呢,等着用户来使用呢?既然网上没有现成的,要不就自己写一个吧。于是就有了这个cobweb全网网址采集器。
全网网址采集器是哪些?
这是一个由golang编撰的全网网址采集器,可用手动爬取可触碰的所有网站信息。该网址采集器会手动采集并剖析网站的标题、站点描述、微信、QQ、联系电话、网站所用的运行环境、ip信息等,甚至是网站所用的框架。
为什么会有这个全网网址采集器全网网址采集器能采集哪些内容
本采集器可以采集到的的内容有:文章标题、文章关键词、文章描述、文章详情内容、文章作者、文章发布时间、文章浏览量。
全网网址采集器可用在那里运行
本采集器可用运行在 Windows系统、Mac 系统、Linux系统(Centos、Ubuntu等),可用下载编译好的程序直接执行,也可以下载源码自己编译。
如何安装使用
最后执行下面命令
```shell script
go mod tidy
go mod vendor
go build
编译结束后,配置config。重命名config.dist.json为config.json,打开config.json,修改mysql部份的配置,填写为你的mysql地址、用户名、密码、数据库信息,新建cobweb数据库,导入mysql.sql到填写的数据库中,然后双击运行可执行文件即可开始采集之旅。
config.json配置说明
{
"mysql": { //数据库配置
"Database": "spider",
"User": "root",
"Password": "root",
"Charset": "utf8mb4",
"Host": "127.0.0.1",
"TablePrefix": "",
"Port": 3306,
"MaxIdleConnections": 1000,
"MaxOpenConnections": 100000
}
}
全网网址采集器运行原理剖析多线程(多协程)同时执行
全网网址采集器借助了golang得天独厚的并行任务优势,同时开启多个解释器,可以做到比常规轻易得手的php采集代码快10倍~100倍全网文章采集,甚至更快。当然更快的采集速度还须要借助你本地的网速,你家开的是500M带宽的话,开1000个解释器都是可以的。
相关代码部份
<p>var MaxChan = 100
var waitGroup sync.WaitGroup
var ch = make(chan string, MaxChan)
func SingleSpider(){
var websites []Website
var counter int
DB.Model(&Website{}).Where("`status` = 0").Limit(MaxChan*10).Count(&counter).Find(&websites)
if counter > 0 {
for _, v := range websites {
ch
手把手教你怎么获取全网可访问的所有网站网址和网站信息
采集交流 • 优采云 发表了文章 • 0 个评论 • 249 次浏览 • 2020-08-03 13:03
如何获取全网可访问的所有网站网址和网站信息呢
今天因为有一个小程序项目,是专门给织梦dedecms网站、WordPress网站做小程序制做免费小程序的。但是手上织梦网站和WordPress网站用户数目都不是好多,很好的项目却没有触碰到用户,没有能给网站带来益处,于是就想,能不能搜集现今网上所有的织梦网站和WordPress网站,并且获取她们的邮箱、QQ、微信、电话等有用信息呢?
带着疑惑百度了一番,没有发觉现成的可用数据,可是小程序项目还得向前推呢,等着用户来使用呢?既然网上没有现成的,要不就自己写一个吧。于是就有了这个cobweb全网网址采集器。
全网网址采集器是哪些?
这是一个由golang编撰的全网网址采集器,可用手动爬取可触碰的所有网站信息。该网址采集器会手动采集并剖析网站的标题、站点描述、微信、QQ、联系电话、网站所用的运行环境、ip信息等,甚至是网站所用的框架。
为什么会有这个全网网址采集器全网网址采集器能采集哪些内容
本采集器可以采集到的的内容有:文章标题、文章关键词、文章描述、文章详情内容、文章作者、文章发布时间、文章浏览量。
全网网址采集器可用在那里运行
本采集器可用运行在 Windows系统、Mac 系统、Linux系统(Centos、Ubuntu等),可用下载编译好的程序直接执行,也可以下载源码自己编译。
如何安装使用
最后执行下面命令
```shell script
go mod tidy
go mod vendor
go build
编译结束后,配置config。重命名config.dist.json为config.json,打开config.json,修改mysql部份的配置,填写为你的mysql地址、用户名、密码、数据库信息,新建cobweb数据库,导入mysql.sql到填写的数据库中,然后双击运行可执行文件即可开始采集之旅。
config.json配置说明
{
"mysql": { //数据库配置
"Database": "spider",
"User": "root",
"Password": "root",
"Charset": "utf8mb4",
"Host": "127.0.0.1",
"TablePrefix": "",
"Port": 3306,
"MaxIdleConnections": 1000,
"MaxOpenConnections": 100000
}
}
全网网址采集器运行原理剖析多线程(多协程)同时执行
全网网址采集器借助了golang得天独厚的并行任务优势,同时开启多个解释器,可以做到比常规轻易得手的php采集代码快10倍~100倍全网文章采集,甚至更快。当然更快的采集速度还须要借助你本地的网速,你家开的是500M带宽的话,开1000个解释器都是可以的。
相关代码部份
<p>var MaxChan = 100
var waitGroup sync.WaitGroup
var ch = make(chan string, MaxChan)
func SingleSpider(){
var websites []Website
var counter int
DB.Model(&Website{}).Where("`status` = 0").Limit(MaxChan*10).Count(&counter).Find(&websites)
if counter > 0 {
for _, v := range websites {
ch 查看全部
今天因为有一个小程序项目,是专门给织梦dedecms网站、WordPress网站做小程序制做免费小程序的。但是手上织梦网站和WordPress网站用户数目都不是好多,很好的项目却没有触碰到用户,没有能给网站带来益处,于是就想,能不能搜集现今网上所有的织梦网站和WordPress网站,并且获取她们的邮箱、QQ、微信、电话等有用信息呢?
带着疑惑百度了一番,没有发觉现成的可用数据,可是小程序项目还得向前推呢,等着用户来使用呢?既然网上没有现成的,要不就自己写一个吧。于是就有了这个cobweb全网网址采集器。
全网网址采集器是哪些?
这是一个由golang编撰的全网网址采集器,可用手动爬取可触碰的所有网站信息。该网址采集器会手动采集并剖析网站的标题、站点描述、微信、QQ、联系电话、网站所用的运行环境、ip信息等,甚至是网站所用的框架。
为什么会有这个全网网址采集器全网网址采集器能采集哪些内容
本采集器可以采集到的的内容有:文章标题、文章关键词、文章描述、文章详情内容、文章作者、文章发布时间、文章浏览量。
全网网址采集器可用在那里运行
本采集器可用运行在 Windows系统、Mac 系统、Linux系统(Centos、Ubuntu等),可用下载编译好的程序直接执行,也可以下载源码自己编译。
如何安装使用
最后执行下面命令
```shell script
go mod tidy
go mod vendor
go build
编译结束后,配置config。重命名config.dist.json为config.json,打开config.json,修改mysql部份的配置,填写为你的mysql地址、用户名、密码、数据库信息,新建cobweb数据库,导入mysql.sql到填写的数据库中,然后双击运行可执行文件即可开始采集之旅。
config.json配置说明
{
"mysql": { //数据库配置
"Database": "spider",
"User": "root",
"Password": "root",
"Charset": "utf8mb4",
"Host": "127.0.0.1",
"TablePrefix": "",
"Port": 3306,
"MaxIdleConnections": 1000,
"MaxOpenConnections": 100000
}
}
全网网址采集器运行原理剖析多线程(多协程)同时执行
全网网址采集器借助了golang得天独厚的并行任务优势,同时开启多个解释器,可以做到比常规轻易得手的php采集代码快10倍~100倍全网文章采集,甚至更快。当然更快的采集速度还须要借助你本地的网速,你家开的是500M带宽的话,开1000个解释器都是可以的。
相关代码部份
<p>var MaxChan = 100
var waitGroup sync.WaitGroup
var ch = make(chan string, MaxChan)
func SingleSpider(){
var websites []Website
var counter int
DB.Model(&Website{}).Where("`status` = 0").Limit(MaxChan*10).Count(&counter).Find(&websites)
if counter > 0 {
for _, v := range websites {
ch 查看全部
如何获取全网可访问的所有网站网址和网站信息呢
今天因为有一个小程序项目,是专门给织梦dedecms网站、WordPress网站做小程序制做免费小程序的。但是手上织梦网站和WordPress网站用户数目都不是好多,很好的项目却没有触碰到用户,没有能给网站带来益处,于是就想,能不能搜集现今网上所有的织梦网站和WordPress网站,并且获取她们的邮箱、QQ、微信、电话等有用信息呢?
带着疑惑百度了一番,没有发觉现成的可用数据,可是小程序项目还得向前推呢,等着用户来使用呢?既然网上没有现成的,要不就自己写一个吧。于是就有了这个cobweb全网网址采集器。
全网网址采集器是哪些?
这是一个由golang编撰的全网网址采集器,可用手动爬取可触碰的所有网站信息。该网址采集器会手动采集并剖析网站的标题、站点描述、微信、QQ、联系电话、网站所用的运行环境、ip信息等,甚至是网站所用的框架。
为什么会有这个全网网址采集器全网网址采集器能采集哪些内容
本采集器可以采集到的的内容有:文章标题、文章关键词、文章描述、文章详情内容、文章作者、文章发布时间、文章浏览量。
全网网址采集器可用在那里运行
本采集器可用运行在 Windows系统、Mac 系统、Linux系统(Centos、Ubuntu等),可用下载编译好的程序直接执行,也可以下载源码自己编译。
如何安装使用
最后执行下面命令
```shell script
go mod tidy
go mod vendor
go build
编译结束后,配置config。重命名config.dist.json为config.json,打开config.json,修改mysql部份的配置,填写为你的mysql地址、用户名、密码、数据库信息,新建cobweb数据库,导入mysql.sql到填写的数据库中,然后双击运行可执行文件即可开始采集之旅。
config.json配置说明
{
"mysql": { //数据库配置
"Database": "spider",
"User": "root",
"Password": "root",
"Charset": "utf8mb4",
"Host": "127.0.0.1",
"TablePrefix": "",
"Port": 3306,
"MaxIdleConnections": 1000,
"MaxOpenConnections": 100000
}
}
全网网址采集器运行原理剖析多线程(多协程)同时执行
全网网址采集器借助了golang得天独厚的并行任务优势,同时开启多个解释器,可以做到比常规轻易得手的php采集代码快10倍~100倍全网文章采集,甚至更快。当然更快的采集速度还须要借助你本地的网速,你家开的是500M带宽的话,开1000个解释器都是可以的。
相关代码部份
<p>var MaxChan = 100
var waitGroup sync.WaitGroup
var ch = make(chan string, MaxChan)
func SingleSpider(){
var websites []Website
var counter int
DB.Model(&Website{}).Where("`status` = 0").Limit(MaxChan*10).Count(&counter).Find(&websites)
if counter > 0 {
for _, v := range websites {
ch