谷歌网页视频抓取工具(:Python3基本语法,抓取境外投资企业(机构)名录)

优采云 发布时间: 2021-10-08 15:44

  谷歌网页视频抓取工具(:Python3基本语法,抓取境外投资企业(机构)名录)

  【新手任务】

  老板:我们在海外市场,获得投资人很重要。去抄所有的境外投资企业(机构)给我。

  任务.png

  一共2606页,点下一页,然后ctrl+C,然后Ctrl+V,准备复制到天亮。一眼望去,新来的实习生都回学校做毕业论文了。

  【解决方案】

  知识点:Python 3基础语法,splinter库和xpath基础知识

  案例一:python使用splinter库控制chrome浏览器,打开网页,获取数据。抢夺境外投资企业(机构)名单。分析思路:第一步:安装splinter

  百度splinter安装,建议先安装anaconda(python常用库基本都有),然后安装splinter

  第二步:使用splinter打开chrome访问链接 from splinter import Browser browser = Browser('chrome') #Open Google browser browser.visit('') #访问链接

  打开谷歌浏览器,访问link.png 第三步:获取网页空白处的信息,右击选择“检查”。然后,在出现的功能框中,用鼠标点击选中该元素

  检查.png

  单击所选元素后,按钮变为蓝色(我是色盲,可能是蓝色)。然后,将鼠标移动到要获取信息的网页,然后单击。

  选择要复制的数据.png

  然后,将鼠标移动到需要获取的信息上的功能框,然后右击-复制-XPath。这样就得到了网页中元素的地址。

  复制XPath.png代码如下: #通过谷歌浏览器的检查功能,可以快速获取所需元素的地址。# find_by_xpath(XPath address) 返回值存放在列表中#这里是一个只有一个元素的列表,所以选择列表中第一个元素的值 r1c1=browser.find_by_xpath('//*[@id=" foreach" ]/td[1]').first.value # 获取1行1列的值 r1c2=browser.find_by_xpath('//*[@id="foreach"]/td[2]'). first.value # 获取第 1 行 2 列的值 r1c3=browser.find_by_xpath('//*[@id="foreach"]/td[3]').first.value# 获取第 1 行和3 column browser.find_by_xpath('/ /*[@id="pageNoLink_0"]').first.click() #点击下一页#打印数据退出浏览器 print(r1c1,r1c2,r1c3) 浏览器。

  本文简单介绍如何使用python splinter库操作谷歌浏览器,然后定位需要的元素,然后获取元素的值。获取后,打印数据并退出浏览器。关于数据的存储,请参考插上翅膀,让Excel飞起来--xlwings(一)。要获取数百页的数据,只需在代码中添加一个循环即可。如果需要,我会多说下次再说吧,完整代码如下:

  from splinter import Browser browser = Browser('chrome') browser.visit('') r1c1=browser.find_by_xpath('//*[@id="foreach"]/td[1]').first.value r1c2= browser.find_by_xpath('//*[@id="foreach"]/td[2]').first.value r1c3=browser.find_by_xpath('//*[@id="foreach"]/td[3] ').first.value browser.find_by_xpath('///*[@id="pageNoLink_0"]').first.click() # 打印数据并退出浏览器 print(r1c1,r1c2,r1c3)浏览器退出()

  参考

  Xpath实例分裂官方文档

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线