分享:开源一文多发平台ArtiPub，让文章随处可阅

优采云发布时间: 2022-11-29 22:40

　　背景

　　很多优秀的程序员和技术人员喜欢撰写技术文章和技术博客，通过这种方式分享和传播知识和经验，扩大自己的知名度和影响力，吸引粉丝关注。一些技术博主甚至通过写文章获得广告收入，很多优秀的博主也通过这种方式获得了出书的机会和工作机会。因此，写技术文章是一项非常值得的投资，利己利众。

　　但是，写技术文章通常很费时间，尤其是一些高质量的文章。不仅需要广泛引用、构思文章结构、照顾受众，还需要做很多前期工作，比如搭建环境、写demo代码、测试代码、很快。一篇高质量的技术文章通常需要 3-6 个小时才能完成。然而，花很多时间写一篇文章并最终发表却没有引起很多人的注意，这可能会让人非常沮丧。我们相信高质量的文章值得关注和传播，让更多的技术工作者通过阅读文章获得知识和收益。

　　每个技术博主都有自己喜欢的技术媒体平台，比如掘金、CSDN、微信公众号等等。很多技术博主也喜欢在不同的平台上发表文章，以寻求最大的关注度，同时防止自己辛辛苦苦写的文章被别人复制粘贴。然而，在多个平台上发帖是一件很麻烦的事情：博主需要同时登录多个媒体平台，将自己的文章一篇一篇地复制粘贴；比较麻烦的是有的平台只支持Markdown，有的平台只支持Rich text，博主需要在两者之间来回转换，增加了工作量。

　　多发帖平台ArtiPub解决了这个问题。下面我们就来介绍一下最近刚刚上线的开源多发布平台ArtiPub。

　　ArtiPub简介

　　ArtiPub（Article Publisher的简称，意为“文章发布者”）是一个开源的多发布平台，可以帮助文章作者将写好的文章自动发布到掘金、SegmentFault、CSDN、知乎、开源中国等技术的媒体平台传播高质量的知识并获得最大的曝光度。ArtiPub安装简单，提供多种安装方式（Docker、NPM、源码），一键安装使用，通常安装仅需5分钟。

　　ArtiPub第一版目前支持文章编辑、文章发布、数据统计等功能。后期我们会增加股票文章导入和数据分析功能，方便您更好的管理和优化您的技术文章。此外，我们还将接入更多的媒体渠道，真正做到文章无处不在。

　　用户使用ArtiPub也非常简单。他们只需要在浏览器上打开ArtiPub的网页界面，将文章以Markdown的形式输入到编辑器中，然后一键发布即可。等待不到1分钟，文章就会自动同步到各大技术。媒体平台。此外，文章的阅读、点赞、评论数据会定期同步回传，让作者近乎实时地看到文章的传播情况。

　　平台列表

　　以下为平台网页界面截图。当然，我们更推荐您实际安装和体验ArtiPub。

" />

　　平台管理

　　文章管理

　　文章编辑

　　文章发表

　　Chrome 扩展程序

　　与其他平台比较

　　市面上已经有多发布平台，比如OpenWrite，为什么要创建ArtiPub？或许其他的发帖平台也是一种选择，但它们要求用户将自己的账户信息如cookies或账户密码上传到对方的服务器，这是非常不安全的。一旦平台出现问题，他们的账户信息就会被泄露。虽然我相信一般的平台不会恶意操作用户的账号，但是一旦出现误操作，您的账号隐私就会被泄露，平台上的财产也有可能受到损害。有这样的风险需要考虑。ArtiPub不要求用户上传账户信息，所有账户信息都存储在用户自己的数据库中，从而避免了这种安全风险。

" />

　　另外，由于ArtiPub是开源的，JS源码相对容易理解，扩展性强。如果用户有其他平台的接入需求，无需等待平台更新，只需更改源代码即可完全实现自己的需求。开发团队也将继续开发ArtiPub，使其更加实用易用。

　　ArtiPub原理介绍

　　其实ArtiPub的原理并不复杂。简单的说就是利用爬虫技术将文章发布到各大平台。ArtiPub 的爬虫使用了 Puppeteer，这是一种由 Google 开发的自动化测试工具。这个工具不仅可以获取需要ajax动态内容的数据，还可以做一些模拟操作，类似Selenium，但是更强大。如何登录？实际上，ArtiPub是通过Chrome插件获取用户登录信息（Cookie），将Cookie注入到Puppeteer运行的Chromium浏览器中，浏览器即可正常登录网站发送文档。Cookies存储在用户自己搭建的MongoDB数据库中，不对外暴露，非常安全。

　　下图是ArtiPub架构*敏*感*词*。

　　架构原理简单介绍如下： - 后端是整个架构的中坚力量，负责为前端交换数据、存储和读取数据库、控制爬虫、采集

cookie等；- Chrome Extension 只负责从 Sites 获取 Cookie；- 爬虫由后台控制，负责在网站发布文章和抓取数据；- 数据库（MongoDB）负责存储数据；- 前端（Frontend）是一个 React 应用，由 Ant Design Pro 改造而来。

　　总结

　　总的来说，ArtiPub 解决了用户需要在多平台发布文章而不泄露账号信息的痛点。用户可以免费使用ArtiPub，因为它是开源的，其架构原则非常透明，开发者也可以自己为开源项目做贡献。ArtiPub 非常实用。作者在各种可用平台上发表了一些股票文章，效果还不错。甚至，这篇文章是用 ArtiPub 编写和发布的。如果你想尝试，请到Github、Docker、NPM主页安装体验。

　　如果您觉得ArtiPub对您有帮助，请扫描下方群二维码。群满请加作者微信tikazyq1并注明“ArtiPub”，作者会拉你入群。

　　本文由多发平台ArtiPub自动发布

　　解决方案:一种网络资讯的采集和分析方法及系统的*敏*感*词*法

　　一种采集

分析网络信息的方法及其*敏*感*词*法

　　[专利摘要] 本发明提供了一种网络信息采集方法及系统。该方法包括以下步骤： S1：为预设的抓包节点分配抓包任务，抓包任务对应至少一个目标网络网络地址；S2：接收抓包节点发送的抓包数据信息，根据数据信息提取目标数据并将目标数据存储到目标数据库中，目标数据包括：关于抓包的标题、来源、发布时间和文本内容数据信息；S3：判断当前目标数据与目标数据库中其他目标数据的重复程度。本发明采用智能技术方法采集信息，

　　【专利说明】

　　一种网络信息采集分析方法及系统

　　技术领域

　　[0001] 本发明涉及互联网数据爬虫技术领域，具体涉及一种基于互联网的网络信息的采集、分析方法及系统。

　　【背景技术】

　　现有公众获取财经信息的方式已从报纸、广播、电视等方式逐渐转变为以互联网为主流方式。网络信息通过互联网传播，使其具有持续的影响力，并通过不同的来源传播。

　　[0003] 目前，大部分网络信息处理都是靠人工维护和管理的，通过人工维护和管理，在网络信息的及时性和网络信息的利用率方面存在很多不足。因此，采用人工方式采集

整理财务信息，耗费大量时间和经验，效果也不尽如人意。

　　[0004] 面对互联网新形势下的这些问题，需要借助互联网技术手段和方法，快速开展网络信息传播时间和广度检测，提高信息的情报引导和内容挖掘能力。互联网。

　　【发明内容】

　　[0005] 本发明所要解决的问题是提供一种网络信息采集与分析方法及系统，能够为网络信息的深度挖掘应用提供数据逻辑支持。

　　为了解决上述技术问题，本发明提供以下技术方案：

　　一种网络信息的采集与分析方法，包括以下步骤：

　　S1:为预设抓取节点分配抓取任务，所述抓取任务至少对应一个目标网络的网络地址；

　　S2：接收抓取节点发送的抓取数据信息，根据数据信息提取目标数据并将目标数据存储到目标数据库中，目标数据包括：关于的标题、来源、发布时间和文本内容数据信息；

　　[0010] S3:判断当前目标数据与目标数据库中其他目标数据的重复程度。

　　[0011] 作为优选，所述步骤S1还用于根据分布在各抓取节点中的网络爬虫的状态，分配所述抓取任务。

　　作为优选，所述步骤S1还包括：

　　S10：确定每个所述爬虫节点对应的目标网站的*敏*感*词*数量；

　　S11:确定所述抓取节点的网络爬虫完成抓取的*敏*感*词*数量和未完成抓取的*敏*感*词*数量；

　　S12:所述抓取节点的网络爬虫完成的*敏*感*词*数量从高到低排序；

　　[0016] S13:将未完成的抓取任务的*敏*感*词*按照S12中的顺序分发给各个抓取节点。

　　作为优选，步骤S3还包括：

　　[0018] S30:对目标数据进行索引，并将索引存储在索引数据库中；

　　[0019] S31:比较指标库中各指标对应的目标数据，判断各目标数据的重复性，将重复性对应写入目标库中。

" />

　　[0020] 作为优选，根据目标数据的重复程度，建立目标数据与各重复数据时间的对应关系。

　　[0021] 作为优选，索引包括目标数据中的关键字和关键词。

　　[0022] 作为优选，关联的目标数据库包括索引数据库中的索引信息。

　　[0023] 作为优选，所述目标网络为金融信息相关网络。

　　本发明还提供了一种网络信息采集与分析系统，其应用上述网络信息采集与分析方法，所述系统包括：

　　[0025] 任务分配模块，为预设的抓取节点分配抓取任务，所述抓取任务至少对应目标网络的网络地址；

　　抓取模块，接收并执行所述抓取任务；

　　提取模块，接收所述抓取模块中各抓取节点抓取的数据信息，根据数据信息提取目标数据，并将目标数据存储到目标数据库中，目标数据包括：关于标题、来源、数据信息的发布时间和文本内容；

　　[0028] 分析模块，根据提取模块提取的数据信息，判断当前目标数据与目标数据库中其他目标数据的重复程度。

　　作为优选，所述分析模块还包括：

　　索引构建单元，对目标数据建立索引，并将索引存储在索引数据库中；

　　[0031] 重复性判断单元，根据建立的指标对应的目标数据，判断每个目标数据的重复性，并将重复性对应写入目标数据库。

　　本发明的有益效果是：本发明采用智能化的技术方式采集信息，大大突破了人工信息采集和处理的瓶颈，还具有自动建立信息关键信息索引的程序，为信息大数据建设打下了坚实的基础。数据应用。

　　【图纸说明】

　　图1为本发明实施例中网络信息的采集

与分析方法的流程图；

　　[0034] 图。图2为本发明实施例的网络信息采集与分析系统框图。

　　参考数字说明

　　1-任务分发模块 2-抓取模块

　　3-提取模块 4-分析模块

　　【详细方式】

　　[0038] 下面，结合附图对本发明的实施方式作进一步详细说明，但不作为对本发明的限制。

　　本发明提供了一种网络信息的采集和分析方法及系统，本发明的方法能够对网络中的抓取节点抓取到的数据进行自动分析，并建立相关的索引，并且能够将它们之间的关系分析指标对应数据的重复程度和时间，为数据挖掘提供强大的后台支持。

　　如图1所示，为本发明实施例中的一种网络信息采集与分析方法的流程图，其中包括以下步骤：

　　[0041] S1:通过工具设置平台，为预设的抓取节点分配抓取任务，抓取任务至少对应目标网络的网络地址；网络地址可以是关于财务信息的网站地址。

　　S2：接收各抓取节点发送的抓取数据信息，根据数据信息提取目标数据，并将目标数据存储到目标数据库中，目标数据包括：关于数据的标题、来源、发布时间和信息的文本内容；同时，数据信息还可以包括已爬取网站的*敏*感*词*和未完成爬取任务的网站的*敏*感*词*。

　　[0043] S3:判断目标数据库中当前目标数据与其他目标数据的重复程度。重复度可以包括标题、网站内容或来源的重复，重复度可以通过将上述几种情况下的重复进行组合计算得到反映上述所有重复内容的重复度。

　　[0044] 通过上述配置，本发明实施例可以通过统计各个相关网站发布的信息的相关性，对重复的内容进行汇总，从而分析出内容的热点或热度。

" />

　　[0045] 另外，步骤S1还可以进一步配置为，根据分布在各个抓取节点中的网络爬虫的状态，分配抓取任务。也就是说，可以根据各网络节点的网络爬虫的任务完成状态或空闲状态来分配爬虫任务，以平衡各网络节点的工作状态。具体地，本发明实施例中的步骤S1还可以包括：

　　S10：确定每个抓取节点对应的目标网站的*敏*感*词*数量，即确定每个抓取节点的网络爬虫的总任务负载；

　　S11:确定所述抓取节点的网络爬虫完成抓取的*敏*感*词*数量和未完成抓取的*敏*感*词*数量；

　　S12：将抓取节点的网络爬虫完成的*敏*感*词*数从高到低排序；

　　[0049] S13:将未完成的抓取任务的*敏*感*词*按照S12中的顺序分发给各个抓取节点。

　　通过上述配置，可以自动计算网络节点中每个网络爬虫抓取任务的完成量，并根据该完成量的高低顺序重新分配任务，可以提高任务抓取的效率，可以也提高了各个网络节点之间的交互，能够有效快速的完成爬取任务。

　　此外，本实施例中的步骤S3还可以进一步包括：

　　[0052] S30:对目标数据进行索引，并将索引存储在索引数据库中；

　　[0053] S31:比较指标库中各指标对应的目标数据，判断各目标数据的重复性，将重复性对应写入目标数据库。

　　[0054] 也就是说，通过索引可以更有效、更快速地找到重复内容或关键内容的重复程度，也可以方便数据信息的检索和阅读。

　　[0055] 其中，在本实施例中，根据目标数据的重复程度，建立每个目标数据与重复数据和时间的对应关系。即建立每条数据信息或重复信息的目标数据与其发布时间的时间轴关系，并将该关系存储在目标数据库中。本实施例中的索引可以包括目标数据中的关键字和关键词，目标数据库中的关联包括索引数据库中的索引信息。通过目标数据库与索引数据库的关联，可以快速对应的找到相关的数据信息，从而快速实现信息的阅读、查找、比对。

　　本发明还提供了一种网络信息采集与分析系统，该系统应用了上述实施例所述的网络信息采集与分析方法，如图2所示，用于本发明的实施本发明的网络信息采集分析系统可以包括：任务分配模块1、抓取模块2、提取模块3和分析模块4，其中，任务分配模块1可以为预设的抓取节点分配抓取任务，所述抓取任务对应于目标网络的至少一个网络地址；抓取模块2可以接收并执行抓取任务，抓取模块2包括安装在各个网络节点上的网络爬虫。提取模块3可以接收抓取模块2中各抓取节点抓取的数据信息，并根据该数据信息提取目标数据，并将该目标数据存储到目标数据库中，所述目标数据包括：标题、来源、版本数据信息的时间和文本内容。另外，分析模块4可以根据提取模块3提取的数据信息，判断当前目标数据与目标数据库中其他目标数据的重复程度。

　　[0057] 基于上述配置，本实施例的系统可以通过统计每个相关网站发布的信息的相关度，并对重复的内容进行汇总，来分析内容的热点或流行度。

　　另外，本实施例还可以包括计算模块和排序模块，该计算模块用于计算每个抓取节点对应的目标网站的*敏*感*词*数量，即确定每个抓取的网络爬虫的总任务节点数量；排序模块用于判断爬取节点的网络爬虫已经爬取到的*敏*感*词*数和未爬取到的*敏*感*词*数。依次分配给各个抓取节点。

　　通过上述配置，可以自动计算网络节点中每个网络爬虫抓取任务的完成量，并根据该完成量的高低顺序重新分配任务，可以提高任务抓取的效率，可以也提高了各个网络节点之间的交互，能够有效快速的完成爬取任务。

　　此外，本实施例中的分析模块4还可以进一步包括：索引构建单元41和重复性判断单元42，该索引构建单元41可以为目标数据建立索引，该索引存储在索引数据库中；

　　[0061] 重复度判断单元42可以根据建立的索引对应的目标数据判断每个目标数据的重复度，并将重复度对应写入目标数据库。也就是说，通过建立索引，可以更有效、更快速地找到重复内容或关键内容的重复程度，也可以方便数据信息的检索和阅读。

　　以上实施例仅为本发明的优选实施例而已，并不用于限制本发明，本发明的保护范围以权利要求书所限定的为准。本领域的技术人员可以在本发明的精神和保护范围内对本发明作出各种修改或等同替换，这些修改或等同替换也应视为本发明的保护范围。

　　【主权物品】

　　1. 一种网络信息的采集与分析方法，其特征在于，包括以下步骤： S1:为预设的抓取节点分配抓取任务，所述抓取任务至少对应一个目标网络的网络地址；S2：接收抓包节点发送的抓包数据信息，根据数据信息提取目标数据并将目标数据存储到目标数据库中，目标数据包括：关于数据信息的名称、来源、发布时间和文本内容; S3：判断当前目标数据与目标数据库中其他目标数据的重复程度。2.根据权利要求1所述的方法，其特征在于，所述步骤S1还用于根据分布在各爬虫节点中的网络爬虫的状态分配爬虫任务。3. 3.根据权利要求2所述的方法，其特征在于，所述步骤S1还包括： S10：确定每个所述抓取节点对应的目标网站的*敏*感*词*数量；S11:确定所述抓取节点的网络爬虫已经完成的*敏*感*词*数和未完成的*敏*感*词*数；S12：将爬取节点的网络爬虫完成的*敏*感*词*数从高到低排序；*敏*感*词*按照S12中的顺序分配给抓取节点。4.根据权利要求1所述的方法，其特征在于，步骤S3还包括： S30：对目标数据进行索引，并将索引存储在索引数据库中。S31：比较索引库中的各个索引库；对相应的目标数据进行索引，判断每个目标数据的重复程度，

　　5.根据权利要求4所述的方法，其特征在于，根据所述目标数据的重复程度，建立每个具有重复数据的目标数据与时间的对应关系。6.如权利要求4所述的方法，其特征在于，所述索引包括目标数据中的关键字和关键词。7.根据权利要求4所述的方法，其特征在于，所述目标数据库中的关联信息包括索引数据库中的索引信息。8.如权利要求1所述的方法，其特征在于，所述目标网络为与金融信息相关的网络。9. 一种网络信息采集与分析系统，其应用权利要求1-8任一项所述的网络信息采集与分析方法，所述系统包括：任务分配模块，为预先设置的抓取节点分配一个抢任务，抓取任务对应目标网络的至少一个网络地址；抓取模块，接收并执行抓取任务；提取模块，接收每个Grab节点抓取的数据信息，根据数据信息提取目标数据，并将目标数据存储到目标数据库中，目标数据包括：标题、来源、发布时间和正文内容; 分析模块，根据提取模块提取的数据信息判断当前目标数据与目标数据库中其他目标数据的重复程度。10.根据权利要求9所述的系统，其特征在于，所述分析模块还包括：索引构建单元，为所述目标数据建立索引，并将所述索引存储在索引数据库中。

　　【文件编号】G06F17/30GK105956069SQ2

　　【开放日期】2016年9月21日

　　【申请日期】2016年4月28日

　　【发明人】吴斌、谢晓勇、黄军、胡春华、陈志雄、胡浩

　　【申请人】优品财富管理*敏*感*词*

0

2022-11-29

自动采集发布文章

0 个评论

要回复文章请先登录或注册

AI时代内容工厂

分享:开源一文多发平台ArtiPub，让文章随处可阅

0 个评论

发起人

AI时代内容工厂

分享:开源一文多发平台ArtiPub，让文章随处可阅

0 个评论

发起人

相关问题