c爬虫抓取网页数据( 如何替代人工从网页中找到数据并复制粘贴到excel中)
优采云 发布时间: 2022-02-03 20:02c爬虫抓取网页数据(
如何替代人工从网页中找到数据并复制粘贴到excel中)
为什么要学习网络爬虫
它可以代替人工从网页中查找数据并将其复制粘贴到excel中。这种重复性的工作,不仅浪费时间,而且一不留神,容易出错,解决了这些无法自动化、无法实时获取的公共数据的应用价值,我们可以借助KYC框架来了解,了解你的公司(了解您的公司),了解您的竞争对手(了解您的竞争对手),了解您的客户(了解您的客户)。这是通过理解和执行对公共数据的简单描述性分析可以带来的价值。进一步,通过机器学习和统计算法分析,可以帮助企业做4Ps(产品)、价格(价格)、渠道(地点)促销(promotion))
网络爬虫的基本协议
robots协议
python爬虫的流程
主要可以分为三个部分:1.获取网页;2.解析网页(提取数据);3.存储数据;
1.获取网页就是向URL发送请求,会返回整个网页的数据
2.解析一个网页就是从整个网页的数据中提取出想要的数据
3.存数据就是存数据
三道工序的技术实现
1.获取网页
获取网页的基本技术:request、urllib和selenium(模拟浏览器)
获取网页先进技术:多进程多线程爬取、登录爬取、破IP封禁、服务器爬取
2.解析网页
解析网页的基本技术:re正则表达式、beautifulsoup和lxml
网页解析高级技术:解决中文乱码
3.存储的数据
数据存储的基本技术:存txt文件和存csv文件
存储数据的先进技术:存储在MySQL数据库中和存储在mongodb数据库中