汇总:fesiong/collector: 这是一个由golang编写的采集器

优采云 发布时间: 2020-09-03 18:37

  fesiong / collector:这是golang编写的采集

  Universal 文章 采集器(采集器)

  这是golang编写的采集器,它可以自动识别文章列表和文章的内容。要将其用于采集 文章,不需要编写正则表达式,只需提供指向文章列表页面的链接。

  为什么会有这样的通用文章 采集器通用文章 采集器可以采集什么内容

  可以作为采集的采集器内容包括:文章标题,文章 关键词,文章说明,文章详细信息,文章作者,文章发布时间, 文章浏览量。

  何时需要使用Universal 文章 采集器

  当我们需要给网站 采集 文章时,这个采集器可以派上用场,这个采集器不需要守护,它每天24小时运行,每10分钟运行一次自动遍历采集列表,获取收录文章的链接,并随时获取文本。您还可以设置自动发布以自动发布到指定的文章表。

  Universal 文章 采集器在哪里运行?

  此采集器可以在Windows系统,Mac系统,Linux系统(Centos,Ubuntu等)上运行,您可以下载已编译的程序以直接执行,也可以下载源代码并自行编译。

  是否有通用的文章 采集器 伪原创

  此采集器暂时不支持伪原创功能,稍后将添加适当的伪原创选项。

  如何安装和使用

  go env -w GOPROXY=https://goproxy.cn,direct

  最后执行以下命令

  go mod tidy

go mod vendor

go build

  编译后,配置config。将config.dist.json重命名为config.json,打开config.json,修改mysql部分的配置,填写您的mysql地址,用户名,密码,数据库信息,将mysql.sql导入已填充的数据库,然后双击点击运行可执行文件以开始采集之旅。

  添加到采集 文章列表说明

  第一个版本还没有可视界面,因此您需要使用数据库工具打开fe_article_source表并填写采集列表。您只需要在url字段中填写采集列表,每行一个即可。

  Config.json配置说明

  {

"mysql": { //数据库配置

"Database": "collector",

"User": "root",

"Password": "root",

"Charset": "utf8mb4",

"Host": "127.0.0.1",

"TablePrefix": "fe_",

"Port": 3306,

"MaxIdleConnections": 1000,

"MaxOpenConnections": 100000

},

"server": { //采集器运行配置

"SiteName" : "万能采集器",

"Host" : "localhost",

"Env" : "development",

"Port" : 8088

},

"collector": { //采集规则

"ErrorTimes": 5, //列表访问错误多少次后抛弃该列表连接

"Channels": 5, //同时使用多少个通道执行

"TitleMinLength": 6, //最小标题长度,小于该长度的会自动放弃

"ContentMinLength": 200, //最小详情长度,小于该长度的会自动放弃

"TitleExclude": [ //标题不包含关键词,出现这些关键词的会自动放弃

"法律声明",

"关于我们",

"站点地图"

],

"TitleExcludePrefix": [ //标题不包含开头,以这些开头的会自动放弃

"404",

"403",

"NotFound"

],

"TitleExcludeSuffix": [ //标题不包含结尾,以这些开头的会自动放弃

"网站",

"网",

"政府",

"门户"

],

"ContentExclude": [ //内容不包含关键词,出现这些关键词的会自动放弃

"ICP备",

"政府网站标识码",

"以上版本浏览本站",

"版权声明",

"公网安备"

],

"ContentExcludeLine": [ //内容不包含关键词的行,出现这些关键词的行会自动放弃

"背景色:",

"时间:",

"作者:",

"qrcode"

]

},

"content": { //自动发布设置

"AutoPublish": true, //是否自动发布,true为自动

"TableName": "fe_new_article", //自动发布到的文章表名

"IdField": "id", //文章表的id字段名

"TitleField": "title", //文章表的标题字段名

"CreatedTimeField": "created_time", //文章表的发布时间字段名,时间戳方式

"KeywordsField": "keywords", //文章表的关键词字段名

"DescriptionField": "description", //文章表的描述字段名

"AuthorField": "author", //文章表的作者字段名

"ViewsField": "views", //文章表的浏览量字段名

"ContentTableName": "fe_new_article_data", //如果文章内容表和文章表不是同一个表,则在这里填写指定表面,如果相同,则填写相同的名称

"ContentIdField": "id", //文章内容表的id字段名

"ContentField": "content" //文章内容表或文字表的id字段名

}

}

  发展计划有助于改善

  欢迎有能力和精神的个人或团体参与此采集器的开发和改进,并共同改善采集的功能。请派生分支,对其进行修改,然后提交合并请求。

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线