话题：config - 自动文章采集器-优采云官网

手把手教你怎么获取全网可访问的所有网站网址和网站信息

采集交流 • 优采云发表了文章 • 0 个评论 • 273 次浏览 • 2020-08-03 13:03 • 来自相关话题

　　如何获取全网可访问的所有网站网址和网站信息呢
　　今天因为有一个小程序项目，是专门给织梦dedecms网站、WordPress网站做小程序制做免费小程序的。但是手上织梦网站和WordPress网站用户数目都不是好多，很好的项目却没有触碰到用户，没有能给网站带来益处，于是就想，能不能搜集现今网上所有的织梦网站和WordPress网站，并且获取她们的邮箱、QQ、微信、电话等有用信息呢？
　　带着疑惑百度了一番，没有发觉现成的可用数据，可是小程序项目还得向前推呢，等着用户来使用呢？既然网上没有现成的，要不就自己写一个吧。于是就有了这个cobweb全网网址采集器。
　　全网网址采集器是哪些？
　　这是一个由golang编撰的全网网址采集器，可用手动爬取可触碰的所有网站信息。该网址采集器会手动采集并剖析网站的标题、站点描述、微信、QQ、联系电话、网站所用的运行环境、ip信息等，甚至是网站所用的框架。
　　为什么会有这个全网网址采集器全网网址采集器能采集哪些内容
　　本采集器可以采集到的的内容有：文章标题、文章关键词、文章描述、文章详情内容、文章作者、文章发布时间、文章浏览量。
　　全网网址采集器可用在那里运行
　　本采集器可用运行在 Windows系统、Mac 系统、Linux系统（Centos、Ubuntu等），可用下载编译好的程序直接执行，也可以下载源码自己编译。
　　如何安装使用
　　最后执行下面命令
```shell script
go mod tidy
go mod vendor
go build
　　编译结束后，配置config。重命名config.dist.json为config.json，打开config.json，修改mysql部份的配置，填写为你的mysql地址、用户名、密码、数据库信息，新建cobweb数据库，导入mysql.sql到填写的数据库中，然后双击运行可执行文件即可开始采集之旅。
　　config.json配置说明
　　{
"mysql": { //数据库配置
"Database": "spider",
"User": "root",
"Password": "root",
"Charset": "utf8mb4",
"Host": "127.0.0.1",
"TablePrefix": "",
"Port": 3306,
"MaxIdleConnections": 1000,
"MaxOpenConnections": 100000
}
}
　　全网网址采集器运行原理剖析多线程（多协程）同时执行
　　全网网址采集器借助了golang得天独厚的并行任务优势，同时开启多个解释器，可以做到比常规轻易得手的php采集代码快10倍~100倍全网文章采集，甚至更快。当然更快的采集速度还须要借助你本地的网速，你家开的是500M带宽的话，开1000个解释器都是可以的。
　　相关代码部份
<p>var MaxChan = 100
var waitGroup sync.WaitGroup
var ch = make(chan string, MaxChan)
func SingleSpider(){
var websites []Website
var counter int
DB.Model(&Website{}).Where("`status` = 0").Limit(MaxChan*10).Count(&counter).Find(&websites)
if counter > 0 {
for _, v := range websites {
ch 查看全部

　　如何获取全网可访问的所有网站网址和网站信息呢
　　今天因为有一个小程序项目，是专门给织梦dedecms网站、WordPress网站做小程序制做免费小程序的。但是手上织梦网站和WordPress网站用户数目都不是好多，很好的项目却没有触碰到用户，没有能给网站带来益处，于是就想，能不能搜集现今网上所有的织梦网站和WordPress网站，并且获取她们的邮箱、QQ、微信、电话等有用信息呢？
　　带着疑惑百度了一番，没有发觉现成的可用数据，可是小程序项目还得向前推呢，等着用户来使用呢？既然网上没有现成的，要不就自己写一个吧。于是就有了这个cobweb全网网址采集器。
　　全网网址采集器是哪些？
　　这是一个由golang编撰的全网网址采集器，可用手动爬取可触碰的所有网站信息。该网址采集器会手动采集并剖析网站的标题、站点描述、微信、QQ、联系电话、网站所用的运行环境、ip信息等，甚至是网站所用的框架。
　　为什么会有这个全网网址采集器全网网址采集器能采集哪些内容
　　本采集器可以采集到的的内容有：文章标题、文章关键词、文章描述、文章详情内容、文章作者、文章发布时间、文章浏览量。
　　全网网址采集器可用在那里运行
　　本采集器可用运行在 Windows系统、Mac 系统、Linux系统（Centos、Ubuntu等），可用下载编译好的程序直接执行，也可以下载源码自己编译。
　　如何安装使用
　　最后执行下面命令
```shell script
go mod tidy
go mod vendor
go build
　　编译结束后，配置config。重命名config.dist.json为config.json，打开config.json，修改mysql部份的配置，填写为你的mysql地址、用户名、密码、数据库信息，新建cobweb数据库，导入mysql.sql到填写的数据库中，然后双击运行可执行文件即可开始采集之旅。
　　config.json配置说明
　　{
"mysql": { //数据库配置
"Database": "spider",
"User": "root",
"Password": "root",
"Charset": "utf8mb4",
"Host": "127.0.0.1",
"TablePrefix": "",
"Port": 3306,
"MaxIdleConnections": 1000,
"MaxOpenConnections": 100000
}
}
　　全网网址采集器运行原理剖析多线程（多协程）同时执行
　　全网网址采集器借助了golang得天独厚的并行任务优势，同时开启多个解释器，可以做到比常规轻易得手的php采集代码快10倍~100倍全网文章采集，甚至更快。当然更快的采集速度还须要借助你本地的网速，你家开的是500M带宽的话，开1000个解释器都是可以的。
　　相关代码部份
<p>var MaxChan = 100
var waitGroup sync.WaitGroup
var ch = make(chan string, MaxChan)
func SingleSpider(){
var websites []Website
var counter int
DB.Model(&Website{}).Where("`status` = 0").Limit(MaxChan*10).Count(&counter).Find(&websites)
if counter > 0 {
for _, v := range websites {
ch

AI时代内容工厂

config

手把手教你怎么获取全网可访问的所有网站网址和网站信息

手把手教你怎么获取全网可访问的所有网站网址和网站信息

话题描述

相关话题

最佳回复者

1 人关注该话题