怎样抓取网页数据(怎样抓取网页数据？是通过fiddler抓取还是通过python抓取)

优采云发布时间: 2022-02-24 08:02

　　怎样抓取网页数据？是通过fiddler抓取，还是通过python/requests/beautifulsoup这种web前端库抓取？现在市面上抓取网页，一般都是靠fiddler+webdriver，以前的话，就是webdriver+python，以前的思路很简单，就是爬虫抓取，然后，再结合正则表达式处理数据。

　　像人工智能和大数据，都是靠这样的方式。但是，随着现在数据增加，数据量增加，尤其是互联网类的，抓取的效率开始降低。那么怎么有效的抓取互联网上的数据呢？首先，我们必须要明确下抓取这个词的定义：抓取，指的是通过某个网站拿到我们想要的东西。这里面有两个重要的关键词：拿到、想要。举个例子：我们要拿到：保险产品的条款。

　　一般需要去新华保险的官网。搜索保险产品，官网的产品信息基本上是爬取不到的。很显然，官网拿不到数据。fiddler对网页有抓取，python，requests，beautifulsoup，lxml等库可以抓取，但是有效率，都比不上nmap。nmap又称侦察式网络扫描仪。无需特殊配置，即可在浏览器端侦测网络基本上能抓取到的东西，都是需要要找到的。

　　找到后，再结合正则表达式，抓取这些想要的东西。因此，直接是抓取不到的。怎么办？我们可以看看另外一些抓取数据的方法。比如，我想从已经登录的阿里网站抓取理财产品的信息。不难，那么只需要：阿里的产品搜索页面。那么这个页面存在很多特殊字符，不小心点到了，就能打开了，我们只需要从中找到这个跳转后，我们要的信息。

　　比如账户名，理财产品的名称，收益率，投资金额，最近几个月份的收益率（自己保存一个记录，是所有收益率），产品到期日期，等等信息，但是这样，收益率这些东西，一般都是没有保存的。这里，我推荐有一个系统，叫bumblebee，微软的。其实，平时还是要多练习一下，或者搞搞爬虫。

0

2022-02-24

怎样抓取网页数据

0 个评论

要回复文章请先登录或注册

AI时代内容工厂

怎样抓取网页数据(怎样抓取网页数据？是通过fiddler抓取还是通过python抓取)

0 个评论

发起人