抓取网页音频(本发明专利技术提供一种基于爬虫的数据获取方法及装置)

优采云发布时间: 2022-03-20 17:19

　　本发明专利技术提供了一种基于爬虫的数据获取方法及装置。该方法包括获取第一待爬取页面上的第一数据和至少一个跳转链接，其中至少一个跳转链接为第一待爬取页面获取该页面上可以跳转到第二待爬取页面的跳转地址，根据至少一个跳转链接进入每个跳转链接对应的第二待爬取页面，获取第二待爬取页面的信息。对于第二数据，第一数据和第二数据存储在预设的数据库中。通过获取页面中的数据实现数据抓取，通过获取页面中的跳转链接，跳转到跳转链接对应的页面，模拟手动操作浏览器的行为，

　　下载所有详细的技术数据

　　【技术实现步骤总结】

　　该专利技术涉及互联网

　　，特别是一种基于爬虫的数据采集方法和装置。

　　技术介绍

　　随着主流Web技术的飞速发展，互联网平台也在不断变化。今天，互联网由静态网页和黄页组成。用户使用博客、微博、电子公告牌（英文：Bulletin Board System，简称：BBS）、社交网站（英文：Social Network Site，简称：SNS）、新闻等各种社交网络平台评论等获取信息、评论等。基于互联网各种热点话题的信息已被广泛分析和关注，快速准确获取互联网用户数据、评论数据等数据的重要性在于突出显示。目前网络数据采集主要有两种方法：一种是使用应用程序编程接口（英文：Application Programming Interface，API）由网络本身提供，通常不能满足多方位数据分析的需要；另一种是利用传统的爬虫程序获取相关数据，需要对复杂的网页元素进行分析解析，并对需要的数据进行过滤。@网站*敏*感*词*的数量和类型，以*敏*感*词*的URL为当前URL，以*敏*感*词*的网站号为当前网站号，以*敏*感*词*的类型为当前类型；获取至少一项策略，根据策略确定至少一项爬虫爬取参数；根据当前类型获取当前类型对应的规则；根据爬虫爬取参数从当前URL中抓取网页数据，并按照规则解析网页数据，得到解析后的数据。以上两种方式都是使用传统的爬虫程序来获取网络数据。对于使用传统爬虫程序获取网络相关数据，以及通过获取页面的URL来获取静态页面中的数据，对于当今的交互式动态页面和复杂的跳转方式，传统的爬虫程序无法实现全部数据的获取。

　　技术实现思路

　　本专利技术提供了一种基于爬虫的数据获取方法及装置，实现对动态交互页面丰富的网页中数据的爬取，提高动态交互页面网页中数据爬取的速度和稳定性。本专利技术的第一方面提供了一种网络爬虫的数据抓取方法，包括：获取第一待抓取页面的第一数据和至少一个跳转链接；其中，至少一个跳转链接为第一个待爬取页面的跳转地址，可以跳转到第二个待爬取页面；根据至少一个跳转链接，进入每个跳转链接对应的第二待爬取页面，获取待爬取页面上的第二数据；将第一数据和第二数据存储在预设数据库中。进一步，所述获取第一待爬取页面的第一数据和至少一个跳转链接包括：解析第一待爬取页面的布局，定位第一待爬取页面上的第一页面。数据位置和至少一个跳转链接的位置；使用爬虫获取第一待爬取页面上的第一数据位置对应的第一数据，获取至少一个跳转链接，该位置对应至少一个跳转链接。可选的，分析待爬取页面的布局，定位待爬取的第一页的第一数据的位置和至少一个跳转链接的位置，包括：使用可扩展的标记语言路径。语言解析待爬取页面的位置和布局，

　　进一步的，在获取第一待爬取页面上的第一数据和至少一个跳转链接之前，该方法还包括从至少一个预设的账户信息中选择第一账户信息，并将第一账户信息登录到网站@ > 待爬取页面所在位置，进入待爬取的第一页；其中，每个账号信息包括登录账号和登录密码。进一步地，该方法还包括：检测第一账户信息是否无效；如果第一账户信息无效，标记第一账户信息，并在至少一个账户信息信息中选择第二账户；根据第二个账号信息登录网站，进入要爬取的第一页。进一步，检测抓取数据的次数和/或第一账户信息的抓取时间；当抓取数据的次数超过预设的抓取次数阈值时，从至少一个账户信息中选择第三个。账号信息，根据第三个账号信息登录网站，进入要爬取的第一页；和/或，当爬取时间超过预设的爬取时间阈值时，从至少一个账号信息中选择第三个账号信息，根据第三个账号信息登录网站，进入第一页爬行。本专利技术的第二方面提供了一种网络爬虫的数据抓取装置，包括：数据获取模块，用于获取待抓取的第一页上的第一数据和至少一个跳转链接；其中，所述至少一个跳转链接为第一待爬取页面上可以跳转到第二待爬取页面的跳转地址；处理模块，用于根据至少一个跳转链接进入每个跳转链接对应的页面。要爬取的第二个页面；数据获取模块，还用于获取第二待爬取页面的第二数据；存储模块，用于将第一数据和第二数据存储在预先设置的数据库中。处理模块，用于根据至少一个跳转链接进入每个跳转链接对应的页面。要爬取的第二个页面；数据获取模块，还用于获取第二待爬取页面的第二数据；存储模块，用于将第一数据和第二数据存储在预先设置的数据库中。处理模块，用于根据至少一个跳转链接进入每个跳转链接对应的页面。要爬取的第二个页面；数据获取模块，还用于获取第二待爬取页面的第二数据；存储模块，用于将第一数据和第二数据存储在预先设置的数据库中。

　　进一步地，数据获取模块具体用于：分析第一待爬取页面的布局，定位第一待爬取页面上的第一数据位置和至少一个跳转链接的位置；通过爬虫获取待爬取的第一页上的第一数据位置对应的第一数据，并获取与至少一个跳转链接的位置对应的至少一个跳转链接。可选地，数据获取模块具体用于使用可扩展标记语言路径语言解析待爬取页面的位置和布局，得到第一数据的位置和至少一个跳转链接的位置。. 进一步地，所述处理模块还用于从至少一个预设账户信息中选择所述第一账户信息，根据第一账号信息登录待抓取页面所在的网站，输入第一账号信息。要爬取的页面；其中，每个账号信息包括登录账号和登录密码。进一步地，处理模块还用于检测第一账户信息是否无效。如果第一账户信息无效，则标记第一账户信息，并在至少一个账户信息中选择第二账户信息。帐户信息; 根据第二个账号信息登录网站，进入要爬取的第一页。进一步地，处理模块还用于检测第一账号信息的抓取数据的次数和/或抓取时间；当抓取数据的次数超过预设的抓取次数阈值时，从至少一个账号信息中选择第三个账号信息，根据第三个账号信息登录网站，输入第一个要爬取的页面；和/或，当爬取时间超过预设的爬取时间阈值时，从至少一个账户信息中选择第三个账户信息，根据第三个账户信息登录网站，输入要抓取的第一页。

　　本专利技术提供的一种网络爬虫的数据抓取方法及装置，通过获取第一待抓取页面上的第一数据和至少一个跳转链接，根据至少一个跳转链接进入对应的跳转链接。获取第二待爬取页面，获取第二待爬取页面的第二数据；爬取的数据存储在预设的数据库中。该专利技术通过获取页面中的数据实现数据抓取，通过获取页面中的跳转链接，跳转到跳转链接对应的页面实现页面跳转，模拟手动操作浏览器的行为，以实现交互式富动态页面的页面跳转，即使是随机生成的跳转链接，只要获取到链接，跳转到链接对应的页面，就可以实现对页面的数据抓取，解决了传统的问题。爬虫在抓取动态网页时无法获取页面所有数据的问题。附图说明为了更清楚地说明本专利技术或现有技术的技术方案，下面简要介绍描述实施例或现有技术所需的附图。显然，在下面的描述中，附图只是本专利技术的一些实施例，对于本领域的普通技术人员来说，在没有创造性劳动的情况下，还可以从这些附图中获得其他的附图。无花果。附图说明图1是本专利技术实施例提供的一种基于爬虫的数据获取方法实施例一的流程图；无花果。图2为本专利技术实施例提供的一种基于爬虫的数据获取方法实施例二的流程图；专利技术实施例提供的基于爬虫的数据获取方法第三实施例的流程图；无花果。图4为本发明专利技术实施例提供的基于爬虫的数据获取方法第三实施例的流程图；无花果。图5是专利技术实施例。提供了一种基于爬虫的数据采集装置实施例的结构*敏*感*词*。优选实施例的详细说明图2为本专利技术实施例提供的一种基于爬虫的数据获取方法实施例二的流程图；专利技术实施例提供的基于爬虫的数据获取方法第三实施例的流程图；无花果。图4为本发明专利技术实施例提供的基于爬虫的数据获取方法第三实施例的流程图；无花果。图5是专利技术实施例。提供了一种基于爬虫的数据采集装置实施例的结构*敏*感*词*。优选实施例的详细说明图2为本专利技术实施例提供的一种基于爬虫的数据获取方法实施例二的流程图；专利技术实施例提供的基于爬虫的数据获取方法第三实施例的流程图；无花果。图4为本发明专利技术实施例提供的基于爬虫的数据获取方法第三实施例的流程图；无花果。图5是专利技术实施例。提供了一种基于爬虫的数据采集装置实施例的结构*敏*感*词*。优选实施例的详细说明图4为本发明专利技术实施例提供的基于爬虫的数据获取方法第三实施例的流程图；无花果。图5是专利技术实施例。提供了一种基于爬虫的数据采集装置实施例的结构*敏*感*词*。优选实施例的详细说明图4为本发明专利技术实施例提供的基于爬虫的数据获取方法第三实施例的流程图；无花果。图5是专利技术实施例。提供了一种基于爬虫的数据采集装置实施例的结构*敏*感*词*。优选实施例的详细说明

　　【技术保护点】

　　一种基于爬虫的数据获取方法，包括：获取第一待爬取页面上的第一数据和至少一个跳转链接；其中，所述至少一个跳转链接为第一个待爬取页面，获取可以跳转到第二个待爬取页面的页面上的跳转地址；根据至少一个跳转链接，进入每个跳转链接对应的第二待爬取页面，获取第二待爬取页面获取页面上的第二数据；将第一数据和第二数据存储在预设数据库中。

　　【技术特点总结】

　　1.一种基于爬虫的数据获取方法，其特征在于，包括：获取第一待爬取页面上的第一数据和至少一个跳转链接；其中，所述至少一个跳转链接是所有第一个待爬取页面都可以跳转到第二个待爬取页面的跳转地址；根据至少一个跳转链接，进入每个跳转链接对应的第二待爬取页面，获取第二待爬取页面上的所有第二数据；将第一数据和第二数据存储在预设数据库中。2.根据权利要求1所述的方法，其特征在于，所述获取第一待爬取页面的第一数据和至少一个跳转链接包括：解析第一待爬取页面布局，定位第一数据在待爬取页面上的位置。待爬取的第一页和至少一个跳转链接的位置；使用爬虫方法获取第一数据在第一待爬取页面上的对应位置以及获取到至少一个跳转链接的位置对应的至少一个跳转链接。3.如权利要求2所述的方法，其特征在于，所述分析待爬取页面的布局，定位待爬取的第一页的第一数据的位置和所述至少一个跳转链接的位置包括：使用Extensible Markup Language Path Language解析待爬取页面的位置和布局，获取第一条数据的位置和至少一个跳转链接的位置。4.根据权利要求1至3任一项所述的方法，其特征在于，在获取所述第一数据和所述第一待爬取页面上的至少一个跳转链接之前，该方法还包括：从预设的至少一个账户信息中选择第一账户信息，根据第一账户信息登录待爬取页面所在的网站，进入第一页面被爬取；其中，每个账号信息包括登录账号和登录密码。5.根据权利要求4所述的方法，其特征在于，所述方法还包括：检测所述第一账户信息是否无效；如果第一账户信息无效，则执行第一账户信息标记，从至少一个账户信息中选择第二账户信息；根据第二个账号信息登录网站，进入要爬取的第一页。6.如权利要求4所述的方法，其特征在于... 从预设的至少一个账号信息中选择第一账号信息，根据第一账号信息登录待爬取页面所在的网站，进入第一待爬取页面；其中，每个账号信息包括登录账号和登录密码。5.根据权利要求4所述的方法，其特征在于，所述方法还包括：检测所述第一账户信息是否无效；如果第一账户信息无效，则执行第一账户信息标记，从至少一个账户信息中选择第二账户信息；根据第二个账号信息登录网站，进入要爬取的第一页。6.如权利要求4所述的方法，其特征在于... 从预设的至少一个账号信息中选择第一账号信息，根据第一账号信息登录待爬取页面所在的网站，进入第一待爬取页面；其中，每个账号信息包括登录账号和登录密码。5.根据权利要求4所述的方法，其特征在于，所述方法还包括：检测所述第一账户信息是否无效；如果第一账户信息无效，则执行第一账户信息标记，从至少一个账户信息中选择第二账户信息；根据第二个账号信息登录网站，进入要爬取的第一页。6.如权利要求4所述的方法，其特征在于...

　　【专利技术性质】

　　技术研发人员：陈健，

　　申请人（专利权）持有人：北京邮电大学，

　　类型：发明

　　国家、省、市：北京；11

　　下载所有详细的技术数据我是该专利的所有者

0

2022-03-20

抓取网页音频

0 个评论

要回复文章请先登录或注册

AI时代内容工厂

抓取网页音频(本发明专利技术提供一种基于爬虫的数据获取方法及装置)

0 个评论

发起人