谷歌网页视频抓取工具(:Python3基本语法，抓取境外投资企业(机构)名录)

优采云发布时间: 2021-10-08 15:44

　　【新手任务】

　　老板：我们在海外市场，获得投资人很重要。去抄所有的境外投资企业（机构）给我。

　　任务.png

　　一共2606页，点下一页，然后ctrl+C，然后Ctrl+V，准备复制到天亮。一眼望去，新来的实习生都回学校做毕业论文了。

　　【解决方案】

　　知识点：Python 3基础语法，splinter库和xpath基础知识

　　案例一：python使用splinter库控制chrome浏览器，打开网页，获取数据。抢夺境外投资企业（机构）名单。分析思路：第一步：安装splinter

　　百度splinter安装，建议先安装anaconda（python常用库基本都有），然后安装splinter

　　第二步：使用splinter打开chrome访问链接 from splinter import Browser browser = Browser('chrome') #Open Google browser browser.visit('') #访问链接

　　打开谷歌浏览器，访问link.png 第三步：获取网页空白处的信息，右击选择“检查”。然后，在出现的功能框中，用鼠标点击选中该元素

　　检查.png

　　单击所选元素后，按钮变为蓝色（我是色盲，可能是蓝色）。然后，将鼠标移动到要获取信息的网页，然后单击。

　　选择要复制的数据.png

　　然后，将鼠标移动到需要获取的信息上的功能框，然后右击-复制-XPath。这样就得到了网页中元素的地址。

　　复制XPath.png代码如下： #通过谷歌浏览器的检查功能，可以快速获取所需元素的地址。# find_by_xpath(XPath address) 返回值存放在列表中#这里是一个只有一个元素的列表，所以选择列表中第一个元素的值 r1c1=browser.find_by_xpath('//*[@id=" foreach" ]/td[1]').first.value # 获取1行1列的值 r1c2=browser.find_by_xpath('//*[@id="foreach"]/td[2]'). first.value # 获取第 1 行 2 列的值 r1c3=browser.find_by_xpath('//*[@id="foreach"]/td[3]').first.value# 获取第 1 行和3 column browser.find_by_xpath('/ /*[@id="pageNoLink_0"]').first.click() #点击下一页#打印数据退出浏览器 print(r1c1,r1c2,r1c3) 浏览器。

　　本文简单介绍如何使用python splinter库操作谷歌浏览器，然后定位需要的元素，然后获取元素的值。获取后，打印数据并退出浏览器。关于数据的存储，请参考插上翅膀，让Excel飞起来--xlwings(一)。要获取数百页的数据，只需在代码中添加一个循环即可。如果需要，我会多说下次再说吧，完整代码如下：

　　from splinter import Browser browser = Browser('chrome') browser.visit('') r1c1=browser.find_by_xpath('//*[@id="foreach"]/td[1]').first.value r1c2= browser.find_by_xpath('//*[@id="foreach"]/td[2]').first.value r1c3=browser.find_by_xpath('//*[@id="foreach"]/td[3] ').first.value browser.find_by_xpath('///*[@id="pageNoLink_0"]').first.click() # 打印数据并退出浏览器 print(r1c1,r1c2,r1c3)浏览器退出（）

　　参考

　　Xpath实例分裂官方文档

0

2021-10-08

谷歌网页视频抓取工具

0 个评论

要回复文章请先登录或注册

AI时代内容工厂

谷歌网页视频抓取工具(:Python3基本语法，抓取境外投资企业(机构)名录)

0 个评论

发起人