免费文章采集工具(万能文章采集器能采集哪些内容本采集器可用在哪里运行)
优采云 发布时间: 2022-03-12 18:11免费文章采集工具(万能文章采集器能采集哪些内容本采集器可用在哪里运行)
通用文章采集器(采集器)
这是一个用 golang 编写的 采集器 自动识别 文章 列表和 文章 内容。将其用于采集文章 不需要编写正则表达式,您只需要提供一个指向文章 列表页面的链接。
为什么这个无所不能文章采集器万能文章采集器能采集什么内容
该采集器中可以为采集的内容包括:文章标题、文章关键词、文章描述、文章详情,文章作者,文章发表时间,文章浏览量。
什么时候需要使用万能的文章采集器
当我们需要给网站采集文章时,这个采集器可以派上用场,这个采集器不需要值班,24小时运行时,它会每隔10分钟自动遍历采集列表,抓取收录文章的链接,随时将文本抓取回来。也可以设置自动发布,自动发布到表中指定的文章。
通用文章采集器可在哪里运行
这个采集器可以在Windows系统、Mac系统、Linux系统(Centos、Ubuntu等)上运行,可以通过下载编译好的程序直接执行,也可以下载源代码自行编译。
是否通用文章采集器可用伪原创
此采集器 目前不支持伪原创 功能,稍后将添加适当的伪原创 选项。
如何安装和使用
go env -w GOPROXY=https://goproxy.cn,direct
最后执行以下命令
go mod tidy
go mod vendor
go build
# to linux
# CGO_ENABLED=0 GOOS=linux GOARCH=amd64 go build -o collector
# to windows
# CGO_ENABLED=0 GOOS=windows GOARCH=amd64 go build -o collector.exe
# to mac
# CGO_ENABLED=0 GOOS=darwin GOARCH=amd64 go build -o collector
编译完成后,运行编译好的文件,然后双击运行可执行文件,在打开的浏览器可视化界面填写数据库信息,完成初始配置,添加采集源码,即可启动采集@ > 游览。
发展计划援助
欢迎有能力和贡献精神的个人或团体参与本采集器的开发和完善,共同完善采集的功能。请fork一个分支,然后在上面修改,修改后提交pull request合并请求。