关键字文章采集器(从DOM结构中拿到的规则分析,你知道吗?)
优采云 发布时间: 2021-09-28 11:18关键字文章采集器(从DOM结构中拿到的规则分析,你知道吗?)
到达
, 只有这样,工具才会从上面的区域找到链接。
让我们继续。我们已经知道从哪个区域查找链接。接下来是找什么样的链接。这时候就需要看看所有详情页文章的链接是什么样子的,例如:
将鼠标悬停在列表页的文章标题上就可以看到(原谅我啰嗦),然后你大概扫一扫,发现文章详情页链接在所有列表上页面几乎如下所示
面条是这样的:
http://www.chnrailway.com/news/20090606/0606326101.html
http://www.chnrailway.com/html/18-03-12/23-45-78.shtml
http://www.chnrailway.com/rail/show-9875756/78-78.html
然后你应该能够编写规则:
http://www.chnrailway.com/(*)/(*)/(*).(*)html
这样你也得到了详情页的链接,下一步就是设置获取详情页内容的规则。
2.3采集内容规则(详情页内容规则)
看不知道,这里可以设置标题、内容等数据采集的来源。我们先来看标题:
我放大了右侧:
很明显,这个标题应该是取自DOM结构,具体的判断要根据html。毕竟不同的网站的html样式是不一样的,所以在title里填了这个规则
在获取规则中,文章的内容规则也是如此。给一张图片,然后自己弄清楚。
2.4 测试规则
测试的意思是看你之前写的规则是否可以采集获取网站源数据。
点击任意加号找到详情页面,然后在右侧“测试此页面”:
如果你能得到你想要的数据,那么你之前写的规则就是正确的!!!
2.5 发布内容设置
数据采集好的,当然要发布到目标网站,那么:
这个发布配置可以自定义(我们点击WEB发布配置管理):
这些基于您要发布的 网站。
至于最后一项:文件保存和一些高级设置,您不需要做任何更改。如果有兴趣,请自行研究。
在所有的规则和配置都写好并测试正确后,你的采集任务可以说完成了,接下来就是执行任务了:
三个复选框分别表示:捕获 URL、捕获内容和发布。如果您选择了所有,那么
右键这个任务,启动任务,他会启动采集数据并上传数据。根据数据量,任务的执行时间会有所不同~~~