免规则采集器列表算法(如何采集手机版网页的数据?如何手动选择列表数据 )
优采云 发布时间: 2022-04-02 19:24免规则采集器列表算法(如何采集手机版网页的数据?如何手动选择列表数据
)
指示
一:输入采集网址
打开软件,新建一个任务,输入需要采集的网站地址。
二:智能分析,全程数据自动提取
进入第二步后,优采云采集器自动智能分析网页,从中提取列表数据。
三:导出数据到表、数据库、网站等
运行任务将采集中的数据导出到表、网站和各种数据库中,并支持api导出。
计算机系统要求
它可以支持Windows XP以上的系统。
.Net 4.0 框架,下载地址
安装步骤
第一步:打开下载的安装包,直接选择运行。
第二步:收到相关条款后,运行安装程序PashanhuV2Setup.exe。安装
第3步:然后继续单击下一步直到完成。
第四步:安装完成后可以看到优采云采集器V2的主界面
常问问题
1、如何采集移动网页数据?
一般情况下,一个网站有电脑版网页和手机版网页。如果电脑版(PC)网页的反爬虫非常严格,我们可以尝试爬取手机网页。
①选择新的编辑任务;
②在新建的【编辑任务】中,选择【第三步,设置】;
③ 将UA(浏览器ID)设置为“手机”。
2、如何手动选择列表数据(自动识别失败时)
在采集列表页面,如果列表自动识别失败,或者识别出的数据不是我们想到的数据,那么我们需要手动选择列表数据。
如何手动选择列表数据?
①点击【全部清除】,清除已有字段。
②点击菜单栏上的【列表数据】,选择【选择列表】
③ 用鼠标单击列表中的任意元素。
④ 单击列表中另一行的相似元素。
一般情况下,此时采集器会自动枚举列表中的所有字段。我们可以对结果进行一些修改。
如果没有列出字段,我们需要手动添加字段。单击[添加字段],然后单击列表中的元素数据。
3、采集文章鼠标不能全选怎么办?
一般情况下,在优采云采集器中,点击鼠标选择要抓取的内容。但是,在某些情况下,比如要抓取一个文章的完整内容时,当内容较长时,鼠标有时会难以定位。
①我们可以通过在网页上右击选择【Inspect Element】来定位内容。
② 点击【向上】按钮,展开选中的内容。
③ 展开到我们全部内容的时候,全选【XPath】,然后复制。
④修改字段的XPath,粘贴刚才复制的XPath,确认。
⑤ 最后修改value属性,如果要HMTL,使用InnerHTML或OuterHTML。