网页视频抓取脚本(如何用一些有用的数据抓取一个网页数据(图))

优采云 发布时间: 2021-10-28 15:08

  网页视频抓取脚本(如何用一些有用的数据抓取一个网页数据(图))

  前不久在LearnML分论坛看到一个帖子。主机在这篇文章中提到他需要为他的机器学习项目抓取网络数据。很多人在回复中给出了自己的方法,主要是学习如何使用BeautifulSoup和Selenium。

  我在一些数据科学项目中使用过 BeautifulSoup 和 Selenium。在本文中,我将告诉您如何抓取收录一些有用数据的网页并将其转换为 Pandas 数据结构(DataFrame)。

  为什么要转换成数据结构?这是因为大多数机器学习库都可以处理 Pandas 数据结构,并且您只需稍作修改即可编辑您的模型。

  首先,我们需要在维基百科上找一张表,转换成数据结构。我抓到的表格显示了维基百科上观看次数最多的运动员数据。

  

  许多任务之一是浏览 HTML 树以获取我们需要的表格。

  

  通过请求和正则表达式库,我们开始使用 BeautifulSoup。

  复制代码

  接下来,我们将从网页中提取 HTML 代码:

  复制代码

  从语料库中采集所有表格,我们有一个小的表面积可供搜索。

  复制代码

  因为有很多表,所以需要一种过滤它们的方法。

  据我们所知,克里斯蒂亚诺·罗纳尔多(Cristiano Ronaldo)(又名葡萄牙足球运动员罗纳尔多)有一个锚标记,这在几张表中可能是独一无二的。

  

  使用 Cristiano Ronaldo 文本,我们可以过滤那些由锚点标记的表格。此外,我们还发现了一些收录此锚标记的父元素。

  复制代码

  父元素只显示单元格。

  这是一个带有浏览器 Web 开发工具的单元格。

  复制代码

  使用 tbody,我们可以返回收录先前锚标记的其他表。

  为了进一步过滤,我们可以在下表中搜索不同的标题:

  复制代码

  第三个看起来很像我们需要的表。

  接下来,我们开始创建必要的逻辑来提取和清理我们需要的细节。

  复制代码

  分解一下:

  复制代码

  下面我们从上面的列表中选择第三个元素。这是我们需要的表。

  接下来,创建一个空列表来存储每一行​​的详细信息。遍历这个表时,创建一个循环来遍历表中的每一行,并将其保存到rows变量中。

  复制代码

  

  复制代码

  建立一个嵌套循环。遍历上一个循环中保存的每一行。在遍历这些单元格时,我们将每个单元格保存在一个新变量中。

  

  复制代码

  这段简短的代码使我们能够在从单元格中提取文本时避免出现空单元格并防止出现错误。

  复制代码

  在这里,我们将各种单元格清理成纯文本格式。清除的值存储在其列名下的变量中。

  复制代码

  在这里,我们将这些值添加到行列表中。然后输出清洗后的值。

  复制代码

  将其转换为如下数据结构:

  复制代码

  

  现在您可以在机器学习项目中使用 pandas 数据结构。您可以使用您喜欢的库来拟合模型数据。

  关于作者:

  对技术感兴趣的 Tobi Olabode 目前专注于机器学习。

  原文链接:

  ","force_purephv":"0","gnid":"9d93d1380ff6130c3","img_data":[{"flag":2,"img":[{"desc":"","height":"455" ,"title":"","url":"。ssl。图像。360快。com/t0111b4386451c14232。jpg","width":"640"},{"desc":"","height":"344","title":"","url":". ssl。图像。360快。com/t0163abae7d0afa4a52。jpg","width":"640"},{"desc":"","height":"304","title":"","url":". ssl。图像。360快。com/t01e1854e1192196759。jpg","width":"640"},{"desc":"","height":"359"," 标题":" ","url":"。ssl。图像。360快。com/t01817bde479df695d7。

  jpg","width":"640"},{"desc":"","height":"359","title":"","url":". ssl。图像。360快。com/t01068432b557b6b0cc。jpg","width":"640"},{"desc":"","height":"277","title":"","url":". ssl。图像。360快。com/t011c419ec86e03caa9。jpg","width":"640"}]}],"original":"0","pat":"art_src_0,fts0,sts0","powerby":"pika","pub_time":00,"纯":"","rawurl":"。消息。所以。com/4d924b0a317bf4ce1a0bec36b5f436e5","re​​direct":0,"rptid":"d34f0bbfbed58571","src":"不拥抱不爱","标签": 机器学习","u":""},{"clk":"ktechnology_1:数据结构","k":"数据结构","u":"" }],"title":"如何抓取您的机器学习项目的网页数据?如何抓取网页上的数据-?--->> 1、用工具分析js最终生成的url是什么,具体请求中发送的是什么数据。相关参考:【教程】教你如何使用工具(ie9的f12)分析模拟登录网站的内部逻辑过程(百度主页)如果你不了解它背后的逻辑,你可参考:【整理】关于... 机器学习","u":""},{"clk":"ktechnology_1:数据结构","k":"数据结构","u":"" }],"title":"如何抓取您的机器学习项目的网页数据?如何抓取网页上的数据-?--->> 1、用工具分析js最终生成的url是什么,具体请求中发送的是什么数据。相关参考:【教程】教你如何使用工具(ie9的f12)分析模拟登录网站的内部逻辑过程(百度主页)如果你不了解它背后的逻辑,你可参考:【整理】关于... title":"如何为您的机器学习项目抓取网页数据?如何抓取网页上的数据-?--->> 1、用工具分析js最终生成的url是什么,具体请求中发送的是什么数据。相关参考:【教程】教你如何使用工具(ie9的f12)分析模拟登录网站的内部逻辑过程(百度主页)如果你不了解它背后的逻辑,你可参考:【整理】关于... title":"如何为您的机器学习项目抓取网页数据?如何抓取网页上的数据-?--->> 1、用工具分析js最终生成的url是什么,具体请求中发送的是什么数据。相关参考:【教程】教你如何使用工具(ie9的f12)分析模拟登录网站的内部逻辑过程(百度主页)如果你不了解它背后的逻辑,你可参考:【整理】关于...

  如何抓取网页数据-?--->> 我们在爬取数据的时候,通常不仅爬取网页当前页面的数据,还经常在翻页后继续爬取数据。本文将向您介绍 gooseeker 网络爬虫是如何进行数据抓取的,自动抓取页面后的数据。msm的爬虫路线工作台有3条线索...

  如何抓取网页并提取内容?--->> 使用以下工具实现: 使用offline explorer批量下载网页使用LAMP环境发布网页使用优采云软件建立网页提取规则从网页中提取数据

  如何提取网页内容?-?--->> 好用又简单的方法:工具-Internet选项-安全-自定义级别-设置找到脚本设置,分别是Java小程序脚本、活动脚本和允许通过脚本粘贴设置的三个脚本是禁用的。(允许通过脚本设置粘贴脚本也可以启用) 确认后刷新网页。一切都好。特别提醒:用完后记得恢复三个脚本设置重新启用,否则网页显示会异常。

  如何抓取跪求的所有页面?--->> 使用360浏览器,有这个功能,文件---保存网页。就是这样。您还可以将网页另存为图片

  网络爬虫是如何提取网页信息的?--->> 可以使用正则表达式或第三方工具包。比如html解析器,jsoup等,jsoup推荐。更有力。简单下载请参考#answer-1391273085 有问题可以私信

  如何让爬虫爬取网页?--->> 网站构建完成,当然希望网页被收录搜索到,这样更好,但是有时候我们也会遇到网站这样的不需要搜索收录。比如启用一个新的域名作为镜像网站,主要用于PPC的推广,这时候我们就必须想办法阻止搜索引擎蜘蛛爬取我们的镜像并建立索引。 .

  如何抓取网页采集网站内容??--->> 网页抓取/数据提取/信息提取软件工具包MetaSeeker非常适合这份工作。MetaSeeker是一个网页信息爬取/提取/提取工具包,可以根据用户的引导从网页中过滤输出需要的信息,过滤掉噪声信息,将捕获/提取/提取的内容存储为...

  如何提取网页浏览历史记录-?--->> 1 自定义删除(即删除你要删除的历史记录) 在百度搜索页面的搜索栏中,双击鼠标左键,会出现之前搜索过的历史记录。然后用鼠标将鼠标指向要删除的历史记录(注意:点,不要点击),那么这条历史记录会以深色显示,然后点击...

  如何抓取 HTML 页面数据?--->> 使用之前嗅探的 ForeSpider 数据采集 系统。ForeSpider数据采集系统具有全面的采集范围、准确的数据准确性、出色的捕捉性能,以及简单的可视化操作和智能自动化采集,使企业能够从数据中快速获取结构化或非结构化数据。用很少的劳动力成本上网。软件...

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线