解决方案:内容网数据采集接口定义及自动处理流程[宝典]
优采云 发布时间: 2022-11-26 12:31解决方案:内容网数据采集接口定义及自动处理流程[宝典]
财务内控体系内容 财务内控体系内容 人员招聘及配置内容 项目成本控制内容 消防安全演练内容 网络数据采集接口定义及自动处理流程【宝典】数据采集及自动处理流程 1 概述 本文主要描述内容网络库对外定义的数据采集接口,以及对这些采集数据的自动处理流程。通过闲宿网的分析,我们认为数据的采集
主要是通过人工爬取进行的。对于其他的采集方式,网络资料虽然有提及,但我们目前在速网后台还没有找到对应的模块。希望网通相关人员通过阅读本文档,及时补充我们缺少的采集接口。下面我们设计的接口,希望网通相关人员能提供测试数据给我们测试 2 采集接口定义 21 爬虫BT接口 211 问题待确认 因为我们在原创速网后台,请回答以下问题 1 爬虫是否会爬取BT信息 2 爬虫是否可以爬取BT信息,是否与HTTP爬取的信息一致 3 Bt爬虫爬取的数据有什么区别以及 Bt 主动缓存和解析的数据?在得到相关人员答复的前提下,我们按以下条件进行设计: 1. 爬虫会爬取BT信息;2、爬虫爬取的信息只收录
资源信息;212. 界面设计: 调用方:爬虫系统调用频率。当发现有新的数据被爬取时,会实时或每天调用。定时调用约束保证每次发送的信息是最新一批数据输入参数contentscontenttypebtnamenameinfohashinfohashprotocolprotocolformatformatcnt_sizecnt_sizedutariondu
同时在爬取HTTP在线资源时 2 Http爬取的资源是否有电影名称?基于以上问题,我们在没有得到网信相关人员解答的前提下,设计爬虫在线爬取HTTP。资源和数据信息不同时采集 222 接口设计 2221 爬虫HTTP资源接口内容contenttypehttpnamenameinfohashinfoprotocolprotocolformatformatcnt_sizecnt_sizedutariondurationdata_ratedata_ratequalityqualitylanguagelanguageurlurlcontentsFORMAT文件格式18NAME名称用于补全 我们在没有得到网信相关人员解答的前提下,设计爬虫在线爬取HTTP。资源和数据信息不同时采集 222 接口设计 2221 爬虫HTTP资源接口内容contenttypehttpnamenameinfohashinfoprotocolprotocolformatformatcnt_sizecnt_sizedutariondurationdata_ratedata_ratequalityqualitylanguagelanguageurlurlcontentsFORMAT文件格式18NAME名称用于补全 我们在没有得到网信相关人员解答的前提下,设计爬虫在线爬取HTTP。资源和数据信息不同时采集 222 接口设计 2221 爬虫HTTP资源接口内容contenttypehttpnamenameinfohashinfoprotocolprotocolformatformatcnt_sizecnt_sizedutariondurationdata_ratedata_ratequalityqualitylanguagelanguageurlurlcontentsFORMAT文件格式18NAME名称用于补全
" />
整性校验判断去重2PROTOCOL采集协议4LANGUAGE语言5CNT_SIZE大小6QUALITY质量7DATA_RATE码流10INFOHASHInfohash值判断去重11Duration播放时长12URL资源来源完整性校验132222爬虫HTTP资料接口documentsdocumentnamenameauthorauthordirectorsdirectorsactorsactorstv_nametv_nametv_hosttv_hostspanspanplaydateplaydatecountrycountrylanguagelanguagemovietypemovietypecontent_typecontent_typecommentscommentstagtagdescriptiondesprictionhposterhpostervpostervposteris_hotis_hotchildren_countchildren_countavg_marksavg_markscapture_sitecapture_sitechannelchanneldocumentdocuments编号字段名称说明备注NAME名称2影片名称LABEL 别名 3DESCRIPTION 描述 4 电影情节描述 HPOSTER 横版海报 5VPOST
发布功能,提高数据库中数据的质量,减少人工编辑的工作量。31条规则列表下表是各种形式的规范使用。参赛表格可在主播时间免费下载。制作一个收录
详细信息的表格。表单模板下载定义了我们总结的用于筛选质量控制和发布的规则。平台的规则引擎会根据以下规则自动处理数据。请根据实际情况确认这些规则,并补充屏蔽规则以阻止数据垃圾。传视频如果有空字段,将数据放入垃圾表处理数据,屏蔽资源垃圾号,清空视频名称播放地址。如果有空字段,则将数据放入垃圾表。在处理资源的过程中,采集
信息,比较电影的名称。如果有相同的数据,则将不完整的数据放入垃圾表中进行处理采集
信息。
" />
来源比较播放地址infohash 如果数据相同,则删除其中一条记录。使用电影名称别名与元数据中的原创
数据进行比较。例如,如果元数据数据重复,如果存在相同的数据,则不会将此数据添加到元数据数据库中。http通过播放地址比对bt通过infohash值进入元数据资源进行去重行比对,比如发现相同的记录,则将该资源的状态改为屏蔽,加入到元数据库中。标题数据搜索资源,反之亦然。对于有父子关系的资源数据,比如电视剧数据,如果库中没有子集数据,父子数据会自动生成子数据,用于资源绑定审核规则,判断每个字段是否有<。关键词比如黄字,如果有合法性验证结果,会转人工待审核。通用资源是否属于前10的门户网站,如果直接审核通过资源有效性验证向播放地址发送ping,看是否有效。首先判断该数据是否属于排名前10的门户网站?如果是直接数据内容验证审核,则别名中出现的逗号和逗号会自动转换为“”并去掉两边的空格。如果分数字段小于 5 分,则自动转换为 5 分或以上。如果分数是整数则加一个小数。对于导演和演员,自动删除每行前后的空格。对于情节描述的第一行,有2个空格。自动添加或删除多余的空格。对于演员和导演,如果名字不全,比如张艺谋,但是数据是张译,查字典表自动补全。演员的名字也是如此。如果region为空,可以使用actor director计算出是哪个region。如果频道对应剧集,演员导演不能为空。如果对应的是*敏*感*词*,则作者不能为空。如果对应的是综艺节目,那么主播电视台不能为空 对于情节描述的第一行,有2个空格。自动添加或删除多余的空格。对于演员和导演,如果名字不全,比如张艺谋,但是数据是张译,查字典表自动补全。演员的名字也是如此。如果region为空,可以使用actor director计算出是哪个region。如果频道对应剧集,演员导演不能为空。如果对应的是*敏*感*词*,则作者不能为空。如果对应的是综艺节目,那么主播电视台不能为空 对于情节描述的第一行,有2个空格。自动添加或删除多余的空格。对于演员和导演,如果名字不全,比如张艺谋,但是数据是张译,查字典表自动补全。演员的名字也是如此。如果region为空,可以使用actor director计算出是哪个region。如果频道对应剧集,演员导演不能为空。如果对应的是*敏*感*词*,则作者不能为空。如果对应的是综艺节目,那么主播电视台不能为空 查字典表,自动补全。演员的名字也是如此。如果region为空,可以使用actor director计算出是哪个region。如果频道对应剧集,演员导演不能为空。如果对应的是*敏*感*词*,则作者不能为空。如果对应的是综艺节目,那么主播电视台不能为空 查字典表,自动补全。演员的名字也是如此。如果region为空,可以使用actor director计算出是哪个region。如果频道对应剧集,演员导演不能为空。如果对应的是*敏*感*词*,则作者不能为空。如果对应的是综艺节目,那么主播电视台不能为空
不符合规则的分布式管理规则转为人工审计。根据资源热度、点击率排名、搜索次数、资源发布规则分为几个等级。根据流行程度结合各站点的缓存情况,发送到各站点。例如,人气被划分。高、中、低3个等级。等级高的资源,投递到所有站点。对于流行度一般的资源,只投放到缓存空间较大的站点。对于人气低的资源,只投递到本地站点。1 当找到某个资源时,当某个资源的缓存进度已经比较低时,应该使用缓存优化规则,根据规则替换或删除缓存。2.当发现某个资源被多次缓存时,根据资源的缓存进度,保留进度最高的资源。删除其他资源缓存。办公站点缓存空间小,根据各资源的热度和缓存情况进行资源清理。应该清理流行度低和缓存进度低的资源。32 详细说明 1 资源处理流程图。可靠性审计和其他多个步骤确保进入元数据的资源是真实可用的。资源入库后,会定期调用审计规则,检查资源库中的数据是否满足审计条件。已过期的链接被淘汰,满足释放条件。资源调用分配管理机制保证了资源的最大利用。2. 数据处理流程图 数据在入库前会进行完整性校验。批量重复数据删除和元数据重复数据删除等多个步骤可确保元数据数据在数据库中唯一且可用。进入数据库前会调用哪些审计规则?尝试提前更正数据中的错误。进入数据库后,会定期调用审计规则,检查数据库中数据的完整性和可靠性,自动更正和更正部分数据,符合发布条件的材料发布4补充问题合作伙伴介绍where and how调用调用接口可以提供吗?数据处理流程图 数据在存储前会进行完整性检查。批量重复数据删除和元数据重复数据删除等多个步骤可确保元数据数据在数据库中唯一且可用。进入数据库前会调用哪些审计规则?尝试提前更正数据中的错误。进入数据库后,会定期调用审计规则,检查数据库中数据的完整性和可靠性,自动更正和更正部分数据,符合发布条件的材料发布4补充问题合作伙伴介绍where and how调用调用接口可以提供吗?数据处理流程图 数据在存储前会进行完整性检查。批量重复数据删除和元数据重复数据删除等多个步骤可确保元数据数据在数据库中唯一且可用。进入数据库前会调用哪些审计规则?尝试提前更正数据中的错误。进入数据库后,会定期调用审计规则,检查数据库中数据的完整性和可靠性,自动更正和更正部分数据,符合发布条件的材料发布4补充问题合作伙伴介绍where and how调用调用接口可以提供吗?进入数据库前会调用哪些审计规则?尝试提前更正数据中的错误。进入数据库后,会定期调用审计规则,检查数据库中数据的完整性和可靠性,自动更正和更正部分数据,符合发布条件的材料发布4补充问题合作伙伴介绍where and how调用调用接口可以提供吗?进入数据库前会调用哪些审计规则?尝试提前更正数据中的错误。进入数据库后,会定期调用审计规则,检查数据库中数据的完整性和可靠性,自动更正和更正部分数据,符合发布条件的材料发布4补充问题合作伙伴介绍where and how调用调用接口可以提供吗?
URL 采集
器 - 关键词集合
Msray-plus是一款用GO语言开发的企业级综合爬虫/收割软件。
关键词:搜索引擎结果采集
,域名采集
,URL采集
,URL采集
,
全网域名采集、CMS采集、*敏*感*词*采集
支持亿级数据存储、导入、重复判断。无需使用复杂的命令,提供本地WEB管理后台对软件执行相关操作,功能强大,使用方便!
1:用户导入关键词对应的搜索结果(SERP数据)可以从*敏*感*词*多个搜索引擎批量采集,并进行结构化数据存储和自定义过滤;
2:可以从用户提供的URL*敏*感*词*地址自动抓取全网网站数据,并进行结构化数据存储和自定义过滤处理;
3:网站联系信息可以从用户提供的网站列表数据中自动提取,包括但不限于电子邮件、手机/电话、QQ、微信、脸书、推特等。
" />
同时支持域名、根网址、网站的存储(URL)、IP、
IP国家、标题、描述、访问状态等数据,主要用于全网域名/URL/集合、行业市场调研分析、指定类型网站采集分析、网络推广分析,并为各种大数据分析提供数据支持。
系统优势:用GO语言(企业级项目标准)开发。跨平台,可以在Ubuntu、CentOS、Windows、Mac等系统上完美运行;搜索引擎结果(SERP数据)采集,支持多搜索引擎并行采集+各引擎多线程搜索,效率高;支持*敏*感*词*多个知名搜索引擎,可突破安全验证!包括但不限于百度(电脑+手机)、谷歌(谷歌)、必应、神马、Yandex、Qwant等;采用B/S架构,自带WEB管理后台,用于远程访问!无需使用命令,易于上手且使用难度较低。支持按任务细粒度定制,自定义指定搜索引擎的开闭,自定义线程数等;采集
效率高,每日采集
数百万/数千级,无需重复压力;系统资源占用小,CPU和内存压力超小;可以智能识别结果中的通配符域名站组,并自动将其添加到黑名单中,防止大量同域名的亚二级域名出现。使用简单方便,无需技术经验即可快速使用;支持无限采集,搜索引擎中近似搜索词自动抓取,自动扩展添加*敏*感*词*关键词;高效的自动结果防重复功能(100%无重复);超全面支持多种过滤方案,如按域名级别、按标题、按内容、按国家、按域名后缀等;它可以保存域名,根网址,网址(URL),IP,IP国家,标题,描述和其他数据;全面的数据导出功能,支持根据任务自定义多种格式的数据导出,还支持按时间(如按天)导出所有结果,甚至无需手动导出即可将记录保存到本地;支持实时数据推送功能接口,可自定义接收数据的HTTP接口地址,方便数据的扩展开发和自定义二次处理,如与其他软件链接;其他扩展功能如“同服务器IP网站查询”功能可不定期更新,可免费使用。完善的在线文档,稳定快速的版本更新服务;操作环境
1: 跨平台,同时支持ubuntu、centos、windows、mac等系统;
2: 建议操作系统选择64位系统。
3: 建议使用chrome浏览器访问软件后台;
" />
自定义集合关键词创建关键词集合任务
点击 [自定义导入*敏*感*词*关键词文件] 按钮,选择收录
要采集
的关键词的列表文件;
根据您的业务场景配置相关搜索引擎并采集
相关设置
采集
采集结果预览: