网站自动采集系统(4.一种多来源网站的数据自动采集方法,应用于权利要求)
优采云 发布时间: 2021-10-10 15:36网站自动采集系统(4.一种多来源网站的数据自动采集方法,应用于权利要求)
技术特点:
1.多源网站自动数据采集系统,其特点是:包括原创数据库、特征提取模块、特征数据库、数据采集模块、最终数据库和可视化界面;original 数据库用于存储原创数据;特征提取模块用于从原创数据库中提取特征数据;特征数据库用于存储特征数据;数据采集模块用于从特征数据库中获取目标数据;最终数据库用于存储目标数据;可视化界面用于显示数据采集和分析结果,以及修改和编辑数据采集的中间参数。2.多源网站自动数据采集 2.根据权利要求1所述的系统,其特征在于:原创数据库中存储的数据包括原创特征信息和模板信息、网页翻页信息、url信息和url示例信息。3.根据权利要求1所述的一种多源网站自动数据采集系统,其特征在于:特征库中存储的数据的数据类型包括post-html、post-json 、get-html 和 get-json。4.一种多源网站数据自动采集方法,应用于权利要求1-3所述的多源网站数据自动采集该系统的特点包括以下步骤: (a) 将网页信息录入原创数据库;(b) 特征提取模块对原创数据库数据进行自动清理和分析,将提取的网页信息和关键特征存储在特征数据库中;(c) 请求网页:模块自动生成网页请求的url和参数,获取网页内容;(d) 网页分析:解析请求网页步骤后返回的网页内容,网页分析模块分析项目名称、发布时间和项目超链接智能处理,不完整部分自动补充生成完整链接;(e) 筛选目标并将其存储在最终数据库中;(f) 通过可视化界面显示运行状态、统计分析和数据录入状态。5. 5.根据权利要求4所述的多源数据自动网站方法,其特征在于:在步骤(c)中,请求的网页类型包括get类型和post类型;当网页请求为get类型时,通过对比网页对连续3个页面进行分段处理,通过对比分析变化信息确定网页的翻页代码和规则,每个页面的链接都是动态生成的;当网页请求为post类型时,通过对比网页的变化来确定网页的变化规则和响应类型 参数变化规则,生成每页数据的访问规则。6.如权利要求4所述的一种多源网站自动数据采集方法,其特征在于:在步骤(d)中,返回的网页类型包括html和json。7.根据权利要求4所述的一种多源网站自动数据采集方法,其特征在于:在步骤(f)中,可视化界面还用于对中间参数进行编辑和修改的。