怎样抓取网页数据(怎样抓取网页数据?是通过fiddler抓取还是通过python抓取)

优采云 发布时间: 2022-02-24 08:02

  怎样抓取网页数据(怎样抓取网页数据?是通过fiddler抓取还是通过python抓取)

  怎样抓取网页数据?是通过fiddler抓取,还是通过python/requests/beautifulsoup这种web前端库抓取?现在市面上抓取网页,一般都是靠fiddler+webdriver,以前的话,就是webdriver+python,以前的思路很简单,就是爬虫抓取,然后,再结合正则表达式处理数据。

  像人工智能和大数据,都是靠这样的方式。但是,随着现在数据增加,数据量增加,尤其是互联网类的,抓取的效率开始降低。那么怎么有效的抓取互联网上的数据呢?首先,我们必须要明确下抓取这个词的定义:抓取,指的是通过某个网站拿到我们想要的东西。这里面有两个重要的关键词:拿到、想要。举个例子:我们要拿到:保险产品的条款。

  一般需要去新华保险的官网。搜索保险产品,官网的产品信息基本上是爬取不到的。很显然,官网拿不到数据。fiddler对网页有抓取,python,requests,beautifulsoup,lxml等库可以抓取,但是有效率,都比不上nmap。nmap又称侦察式网络扫描仪。无需特殊配置,即可在浏览器端侦测网络基本上能抓取到的东西,都是需要要找到的。

  找到后,再结合正则表达式,抓取这些想要的东西。因此,直接是抓取不到的。怎么办?我们可以看看另外一些抓取数据的方法。比如,我想从已经登录的阿里网站抓取理财产品的信息。不难,那么只需要:阿里的产品搜索页面。那么这个页面存在很多特殊字符,不小心点到了,就能打开了,我们只需要从中找到这个跳转后,我们要的信息。

  比如账户名,理财产品的名称,收益率,投资金额,最近几个月份的收益率(自己保存一个记录,是所有收益率),产品到期日期,等等信息,但是这样,收益率这些东西,一般都是没有保存的。这里,我推荐有一个系统,叫bumblebee,微软的。其实,平时还是要多练习一下,或者搞搞爬虫。

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线