采集内容管理平台(运维较麻烦的公众号封号的话模块分析)
优采云 发布时间: 2022-03-04 09:22采集内容管理平台(运维较麻烦的公众号封号的话模块分析)
③运维比较麻烦
主要体现在标题上。如果是临时封禁,可以通过手机号解封。如果是永久封禁,则需要在其他微信账号上重新监控微信公众号目前正在关注的公众号。这个过程大约需要二十天才能完成。
④公众号关注比较麻烦
为了处理封号问题,我们在处理公众号时需要注意以下几点:
①每个公众号都必须在数据库和微信账号中进行管理,
②手机必须按照一定的规则编号
③ 手机和微信ID必须在数据中关联。
(5) 模板管理
我们现在已经摆脱了配置模板,转而支持通过培训进行自动处理。
(6)微博博主管理
由于微博的搜索列表并没有显示所有与搜索词相关的信息,所以需要同时监控一些博主,两者相辅相成。
2. 资源管理模块
(1) 服务器管理:
对于做舆论或数据服务的公司来说,数据采集至少涉及到几十台服务器。为了方便掌握这些服务器的到期、更新和服务器配置,我们倾向于将服务器管理与任务调度一起设计,而不是使用云平台提供的控制终端。
当然,网络管理员可以通过云平台控制台查询和监控服务器的各项指标。
(2) 项目管理:
在进行搜索采集时,一般按照项目或产品的数据范围来组织搜索词。因此,在添加元搜索关键词时,一般是与项目绑定的。因此,项目也需要统一管理。
(3) 索引管理:
由于采集的数据量很大,每天收到的数据量采集至少有一百万。因此,我们不可能长时间将所有数据采集放在一个ES索引库中。
在实际使用中,我们首先对信息进行分类。如:新闻、论坛、博客、微博、客户端、微信、平面媒体等。如果采集有国外网站,可以添加国外媒体类型。
尽管数据是按类型分类的,但每种类型的数据并不总是存储在一个索引中。因此,需要按照一定的规则生成索引。例如,按时间、每周或每月生成某种类型的索引。
为了提高ES集群的工作效率,我们可以根据实际业务需求关闭比当前时间长的冷索引,比如关闭半年前产生的ES索引。这样可以减少服务器内存和硬盘的浪费,提高热索引的查询速度,提升产品的用户体验。
同时,为了掌握ES集群中各个索引的情况,我们需要记录索引的创建时间、上次保存数据的时间、索引名称、索引类型、数据量、数据类型,以及收录哪些字段。
记录索引信息,一是便于了解当前索引库的各类数据;二是方便各种统计和报告所需数据的导出。
3. 监控模块
网站、栏目、搜索引擎、服务器、采集器等监控不在此赘述。在之前的《数据采集,如何建立有效的监控系统?》一文中,有详细的介绍,大家可以阅读。
4. 调度模块
调度模块是运维管理中最重要的部分。
在分布式批量数据采集中,采集所涉及的网站、列或通道的数量至少有1万、10万,甚至数百万。
涉及的服务器数量从三到五不等,多达三十或五十个,或三到五百个。每台服务器上部署多个采集器,
难以想象没有专门的系统来处理采集器这样数量级的运维。
调度模块主要负责采集器的增减、部署/上传、启动、关闭等,实现一键部署,解放人力。
第二:数据采集
采集器在处理采集任务中,最重要的三个部分是:网页下载、翻页、数据分析。各部分加工注意事项如下:
1. 翻页
在大批量数据采集中,不建议设置翻页。主要是翻页信息的维护比较麻烦。为了不错过数据采集,可以适度提高采集的频率,以弥补不翻页带来的影响。
2. 标题
标题一般使用采集URL地址的A标签的值。然后在解析文本期间执行二次检查以纠正标题中可能出现的错误。
3. 发帖时间处理
发布时间解析难免会有问题,但一定不能大于当前时间。
一般在清除HTML源码中的css样式、JS、注释、meta等信息后,删除HTML标签,以内容中的第一次作为发布时间。
一般可以统计一些发布时间标识,如:“发布时间:”、“发布日期”等。然后通过正则表达式得到100长字符串中识别前后的时间作为发布时间。
第三:数据质量
1. 标头处理;
标题一般容易出现以下三个问题:
①以“_XXX网站或传送门”结尾;
②以“……”结尾;
③长度小于等于两个字符;
针对上面的问题,我们可以使用list的title和body中的title的二次校验来进行修正。
2. 文本处理;
文本一般按数据类型,可以注意以下几个问题:
①新闻、博客、平面媒体、客户端、微信的正文不少于10个字符;
②论坛、微博等内容大于0;
③ 注意由于解析异常导致内容中有css样式数据;
④格式化数据。删除多余的“\n”、“\t”、空行等。
3. 统一数据传输接口:
对于企业来说,有常规的采集,也有基于项目和产品的定制采集。有些项目或产品有很多自定义脚本。如果数据存储方式(或数据推送方式)不统一,一旦出现问题,排查难度极大。它还浪费时间并增加劳动力成本。
统一数据传输接口主要有以下优点:
① 异常介词,降低异常数据流入系统的概率,提供用户体验;
②数据质量监控,优化采集任务;
③ 在多源情况下,对数据进行加权,减轻数据分析压力;
④减少数据持久化存在的问题,提供工作效率;
四:统一开发模式
数据采集人员较多、技术水平参差不齐的舆论或数据服务公司。为减少各级人员开发过程中的Bug数量,可提取各部分低耦合模块进行定制开发,制作成第三方插件,分发安装在每个开发者的环境。这样可以大大降低开发中出现bug的概率,有效的提供工作效率,
那么,哪些模块可以独立呢?
①采集任务获取模块;
②网页下载模块;
③发布时间、文字等分析模块;
④采集结果推送模块;
⑤采集监控模块;
将以上五部分代码统一起来,至少可以节省40%的人力。
第五:采集的痛点:
1. 网站修订
网站改版后,信息正则化、翻页正则化、采集模板会失败,导致网站采集异常。不仅浪费资源,还影响采集的效率。
尤其是最近一两年,政府网站进行了全国性的大改版,很多网站的历史配置都是采集没有数据的。
2. 数据丢失
数据丢失,情况为以下之一:
①采集出现频率不对,导致信息到第二页等,不能采集(因为采集翻页)
②由于网站的修改,信息正则表达式或模板配置异常;
③信息位置网站没有配置栏,加入采集的任务队列;
④ 数据传输异常,导致数据丢失;如kafka异常,导致内存中所有数据丢失;
⑤ 网络抖动,导致采集文字异常;
通过监控系统可以快速发现和定位上述数据泄露的原因。由于监控系统的建立,可以参考之前发表的《数据采集,如何建立有效的监控系统?》一文。
六:第三方数据平台
如果你是个人,只是简单地采集写一些数据写一篇论文,或者这个测试什么的,那么这个文章可以到此结束;
如果你是做舆论或数据分析的公司,第三方平台是很好的数据补充来源。一方面,它可以补充我们遗漏的数据,提升用户体验。另一方面,我们也可以从他们的数据网站中分析信息来源,补充我们自己的源数据库。
主要第三方平台或数据服务商如下:
1. 元哈SaaS平台
元哈舆论其实就是新浪舆论。因此,元哈的微博数据应该是市面上最完整、最及时的。网站,客户、纸媒等类型的数据其实都差不多,看投资的多少。一般来说
2. 铱星 SAAS 平台
3. 智慧星光SaaS平台
铱金和智慧星光的数据差不多,智慧星光的数据略好一些。
4. 河口微信资料
特点:微信公众号文章的数据还可以,日交易量在80万到150万之间,在市场上他们的成本应该是比较合适的。如果您的公司有这个需求,您可以与他们联系。微博等数据暂时未连接,质量未知。
这就是今天的全部内容。文笔不好,大家看明白就好。哈哈......
如果您还有其他采集相关问题想了解更多,可以在评论区留言一起讨论!