敏感词教你怎么获取全网可访问的所有网站网址和网站信息

优采云发布时间: 2020-08-03 13:03

　　如何获取全网可访问的所有网站网址和网站信息呢

　　今天因为有一个小程序项目，是专门给织梦dedecms网站、WordPress网站做小程序制做免费小程序的。但是手上织梦网站和WordPress网站用户数目都不是好多，很好的项目却没有触碰到用户，没有能给网站带来益处，于是就想，能不能搜集现今网上所有的织梦网站和WordPress网站，并且获取她们的邮箱、QQ、微信、电话等有用信息呢？

　　带着疑惑百度了一番，没有发觉现成的可用数据，可是小程序项目还得向前推呢，等着用户来使用呢？既然网上没有现成的，要不就自己写一个吧。于是就有了这个cobweb全网网址采集器。

　　全网网址采集器是哪些？

　　这是一个由golang编撰的全网网址采集器，可用手动爬取可触碰的所有网站信息。该网址采集器会手动采集并剖析网站的标题、站点描述、微信、QQ、联系电话、网站所用的运行环境、ip信息等，甚至是网站所用的框架。

　　为什么会有这个全网网址采集器全网网址采集器能采集哪些内容

　　本采集器可以采集到的的内容有：文章标题、文章关键词、文章描述、文章详情内容、文章作者、文章发布时间、文章浏览量。

　　全网网址采集器可用在那里运行

　　本采集器可用运行在 Windows系统、Mac 系统、Linux系统（Centos、Ubuntu等），可用下载编译好的程序直接执行，也可以下载源码自己编译。

　　如何安装使用

　　最后执行下面命令

```shell script

go mod tidy

go mod vendor

go build

　　编译结束后，配置config。重命名config.dist.json为config.json，打开config.json，修改mysql部份的配置，填写为你的mysql地址、用户名、密码、数据库信息，新建cobweb数据库，导入mysql.sql到填写的数据库中，然后双击运行可执行文件即可开始采集之旅。

　　config.json配置说明

　　{

"mysql": { //数据库配置

"Database": "spider",

"User": "root",

"Password": "root",

"Charset": "utf8mb4",

"Host": "127.0.0.1",

"TablePrefix": "",

"Port": 3306,

"MaxIdleConnections": 1000,

"MaxOpenConnections": 100000

}

　　全网网址采集器运行原理剖析多线程（多协程）同时执行

　　全网网址采集器借助了golang得天独厚的并行任务优势，同时开启多个解释器，可以做到比常规轻易得手的php采集代码快10倍~100倍全网文章采集，甚至更快。当然更快的采集速度还须要借助你本地的网速，你家开的是500M带宽的话，开1000个解释器都是可以的。

　　相关代码部份

<p>var MaxChan = 100

var waitGroup sync.WaitGroup

var ch = make(chan string, MaxChan)

func SingleSpider(){

var websites []Website

var counter int

DB.Model(&Website{}).Where("`status` = 0").Limit(MaxChan*10).Count(&counter).Find(&websites)

if counter > 0 {

for _, v := range websites {

ch

0

2020-08-03

config

0 个评论

要回复文章请先登录或注册

AI时代内容工厂

敏感词教你怎么获取全网可访问的所有网站网址和网站信息

0 个评论

发起人

AI时代内容工厂

*敏*感*词*教你怎么获取全网可访问的所有网站网址和网站信息

0 个评论

发起人

相关问题

敏感词教你怎么获取全网可访问的所有网站网址和网站信息