抓取网页数据((Url,,XPathXPath)(,))
优采云 发布时间: 2022-01-15 17:18抓取网页数据((Url,,XPathXPath)(,))
此公式适用于 Windows 7+ 环境、WPS 2016 及以上或 Excel 2007 及以上
GetXPathW()(网址)
Url指的是要爬取的网页地址
GetWebContentByXPathW(网址,XPath)
其中XPath指的是网页的XPath地址,可以通过GetXPathW()返回。这里不能直接使用火狐或者Chrome浏览器拾取的XPath,存在差异,所以不能正确返回结果。
GetWebContentByIdW(网址,XPath)
GetWebContentByClassNameW(Url, XPath)
GetImgW(网址,过滤器)
其中,Filter是指过滤关键词。如果设置了Filter,该函数只返回收录Filter关键词的图片地址。
GetLinkW(网址,过滤器)
其中Filter指的是filter关键词,如果设置了Filter,函数只返回收录Filter关键词的Link地址。
基本原理:首先通过GetXPathW()函数和Excel浏览器将要爬取的网页数据下载到本地数据库,然后通过数据爬取函数抓取目标数据。这样做的好处是提高了数据抓取的效率,尤其是当一个网页抓取大量数据项时。