关键词自动采集生成内容系统-无需任何打理(数据采集及自动处理流程(一)_光明网(组图))

优采云发布时间: 2021-12-03 21:25

　　数据采集及自动处理流程概述本文主要介绍内容网络库的外部定义数据采集接口以及这些采集数据的自动处理流程。通过对目前极速网的分析，我们认为数据的采集主要是通过人工方式和爬取方式进行的。对于采集的其他方法，虽然网通有提到，但是我们目前的极速网后台没有找到对应的模块。希望网络相关人员通过阅读本文档，及时补充我们采集接口的不足。对于我们下面设计的界面，希望网通相关人员可以提供测试数据供我们测试。采集接口定义爬虫BT接口是一个有待确认的问题，因为在原速网后台，我们没有找到接口设置接口，所以请相关人员回答以下问题。1.爬虫是否会爬取BT信息2.如果爬虫会爬取BT信息，是否与HTTP爬取的信息匹配？持续的？3.Bt爬虫爬取的数据和Bt主动缓存解析的数据有什么区别？基于以上问题，我们在没有得到网络相关人员回复的情况下，根据以下情况设计了爬虫会议爬取BT信息2. 爬虫爬取的信息只收录资源信息。界面设计调用者：爬虫系统调用频率：当发现有新数据被爬取时，实时调用或每天定时调用。约束：保证每次发送的信息都是最新的一批数据。输入参数： <dutarion> 输入参数的详细信息如下 18 FORMAT 文件格式 2NAME 名称用于完整性验证、判断和去重 4PROTOCOL采集协议 5LANGUAGE 语言（6CNT_SIZE 大小 7QUALITY 质量 10DATA_RATE 码流 11INFOHASHInfohash 值判断重复数据删除 12Duration 播放时长 13URL 资源源完整性检查输出：成功或失败。

　　爬虫HTTP接口挂起问题爬虫爬取HTTP在线资源时，是否同时获取资源数据信息采集？Http抓取的资源中是否有电影名称和剧集编号？基于上述问题，在没有得到网络相关人员的回复的情况下，我们设计了爬虫，按照以下条件抓取HTTP在线资源。资源信息和数据信息不是同时进行的。采集接口设计爬虫HTTP资源接口<dutarion>18 FORMAT文件格式2NAME名称用于完整性校验、判断和去重4PROTOCOL采集 number 字段名称描述备注 2NAME 名称电影名称 3LABEL 别名 4DESCRIPTION 描述电影情节描述 5HPOSTER 横版海报 6VPOSTER 竖版海报 7IS_HOT 热不热 8TAGTag 列 9CHILDREN_COUNT 子集数量 10AUTHOR 作者 11TV_NAME 电视台名称 12TV_HOST 播放时间 13S COMMENT LANMENT 时长评论 LANAGES COM影视语言 (FK) 16 ACTORS 主要演员 17 DIRECTORS 导演 18 PLAYDATE 影视上映日期 19 COUNTRY 地区类别 (FK) 20 MOVIETYPE 电影类别 (FK) 21 CONTENT_TYPE 主题类别 (FK) 22 AVG_MARKS1 capture_site @>点判断是否是10大门户网站24channel可以用来区分是否有剧集、主演作者等一系列字段。自动处理过程。自动处理过程的目的是通过系统的自动内容过滤，对采集接口获取的数据进行自动过滤。内容质量控制和自动内容发布功能提高了数据库中数据的质量，减少了人工编辑的工作量。

　　规则列表下方的表格定义了我们总结的筛选、质量控制和发布规则。平台的规则引擎将根据以下规则自动处理数据。请根据实际情况确认和补充这些规则。筛选规则通过判断电影名称和播放地址不为空来屏蔽垃圾数据。如果有空字段，则将数据放入垃圾表进行处理。(信息) 屏蔽资源垃圾数据通过清空电影名称和播放地址进行处理。如果有空字段，则将数据放入垃圾表进行处理。（资源）采集信息数据去重比较“电影名称”。如果有相同的数据，相关数据内容不完整的数据放入垃圾表进行处理。采集信息资源去重对比“播放地址”和“infohash”。如果数据相同。然后删除其中一条记录。元数据去重是通过电影名、别名与元数据中的原创数据进行比较，如果有相同的数据，则不将该数据加入元数据数据库中。元数据资源去重http通过播放地址比较，bt通过infohash值比较。如果找到相同的记录，则该资源的状态将被更改并添加到元数据数据库中。如果在重复数据删除阶段未找到相同的记录，则绑定到库中。通过查找对应的电影名称绑定（数据搜索资源），反之亦然。（资源数据）对于有父子关系的数据（如电视剧）。如果库中没有子集数据。父子数据会自动生成子集数据用于资源绑定。

　　检查审核规则的有效性，判断每个字段是否有关键词（例如：*敏*感*词*词），如果有则转人工待审（资源信息常见）。检查资源是否属于前10个门户。网站，如果是直接批准。发送ping到播放地址看看是否有效。数据内容验证首先判断数据是否属于前10名门户网站网站，如果是，则直接审批。对于别名中出现的逗号，逗号会自动转换为“/”。去掉“/”两边的空格。如果分数字段小于 5 分，将自动转换为大于 5 分。如果分数是整数，将增加一位小数。对于导演和演员来说，每行的前导和尾随空格会自动删除。对于情节描述，第一行留2个空格，多余的空格会自动添加或删除。对于演员和导演，如果姓名不全（例如：张艺谋，但数据中有张艺），查找字典表，自动补全姓名。对于演员来说也是如此。对于区域：如果区域是空的，演员和导演可以计算出它是哪个区域。如果频道对应于剧集，则为电影。那么演员、导演不能为空。如果对应的是*敏*感*词*，那么作者不能为空。如果对应的是综艺节目，那么主持人和电视台不能为空。不符合规则的，转向人工审核和分发管理规则。资源发布规则根据资源的热度（点击率、排名、搜索次数）分为几个等级，并根据热度等级和各站点缓存情况的组合分配到各个站点的各个位置。例如，热量分为三个级别：高、正常和低。对于高级别的资源，所有站点都分布，对于普通热度的资源，只分布到缓存空间大的站点，对于低热级别的资源。只分发到本地。热量分为三个等级：高、正常和低。对于高级别的资源，所有站点都分布，对于普通热度的资源，只分布到缓存空间大的站点，对于低热级别的资源。只分发到本地。热量分为三个等级：高、正常和低。对于高级别的资源，所有站点都分布，对于普通热度的资源，只分布到缓存空间大的站点，对于低热级别的资源。只分发到本地。

　　缓存优化规则1. 当发现某个资源的缓存进度已经比较低时，根据规则替换或删除缓存。2. 当发现一个资源被多次缓存时，应该根据该资源的缓存Progress 保留进度最高的资源，并删除其他资源缓存。3.当发现站点缓存空间不足时，应根据各个资源的热度、缓存情况，以及热度低、缓存进度低的资源进行清理。详细说明 1 资源处理流程图资源入库前，会经过完整性验证、同批次去重、和资源可靠性审查，以确保输入元数据的资源真实可用。资源入库后，会定期调用审核规则，检查资源库中的数据是否满足审核条件，并去除无效链接。并对满足发布条件的资源调用分布式管理机制，保证资源的最大利用率。2 数据处理流程图数据入库前，会进行完整性验证，通过同批次去重、元数据去重等多个步骤，确保元数据的元数据唯一。以及在存储之前会调用哪些审计规则，尽量提前纠正数据中的错误。数据存入数据库后，会定期调用审计规则，检查数据库中数据的完整性和可靠性，部分数据会自动更正和修订。并出版符合出版条件的资料。补充问题小伙伴引入的调用接口在哪里，如何调用，能否提供？

0

2021-12-03

关键词自动采集生成内容系统_无需任何打理

0 个评论

要回复文章请先登录或注册

AI时代内容工厂

关键词自动采集生成内容系统-无需任何打理(数据采集及自动处理流程(一)_光明网(组图))

0 个评论

发起人

AI时代内容工厂

关键词自动采集生成内容系统-无需任何打理(数据采集及自动处理流程(一)_光明网(组图))

0 个评论

发起人

相关问题