关键字文章采集器(从DOM结构中拿到的规则分析,你知道吗?)

优采云 发布时间: 2021-09-28 11:18

  关键字文章采集器(从DOM结构中拿到的规则分析,你知道吗?)

  到达

  , 只有这样,工具才会从上面的区域找到链接。

  让我们继续。我们已经知道从哪个区域查找链接。接下来是找什么样的链接。这时候就需要看看所有详情页文章的链接是什么样子的,例如:

  

  将鼠标悬停在列表页的文章标题上就可以看到(原谅我啰嗦),然后你大概扫一扫,发现文章详情页链接在所有列表上页面几乎如下所示

  面条是这样的:

  http://www.chnrailway.com/news/20090606/0606326101.html

http://www.chnrailway.com/html/18-03-12/23-45-78.shtml

http://www.chnrailway.com/rail/show-9875756/78-78.html

  然后你应该能够编写规则:

  http://www.chnrailway.com/(*)/(*)/(*).(*)html

  这样你也得到了详情页的链接,下一步就是设置获取详情页内容的规则。

  2.3采集内容规则(详情页内容规则)

  

  看不知道,这里可以设置标题、内容等数据采集的来源。我们先来看标题:

  

  

  我放大了右侧:

  

  很明显,这个标题应该是取自DOM结构,具体的判断要根据html。毕竟不同的网站的html样式是不一样的,所以在title里填了这个规则

  在获取规则中,文章的内容规则也是如此。给一张图片,然后自己弄清楚。

  

  2.4 测试规则

  测试的意思是看你之前写的规则是否可以采集获取网站源数据。

  

  

  点击任意加号找到详情页面,然后在右侧“测试此页面”:

  

  如果你能得到你想要的数据,那么你之前写的规则就是正确的!!!

  2.5 发布内容设置

  数据采集好的,当然要发布到目标网站,那么:

  

  这个发布配置可以自定义(我们点击WEB发布配置管理):

  

  这些基于您要发布的 网站。

  至于最后一项:文件保存和一些高级设置,您不需要做任何更改。如果有兴趣,请自行研究。

  在所有的规则和配置都写好并测试正确后,你的采集任务可以说完成了,接下来就是执行任务了:

  

  三个复选框分别表示:捕获 URL、捕获内容和发布。如果您选择了所有,那么

  右键这个任务,启动任务,他会启动采集数据并上传数据。根据数据量,任务的执行时间会有所不同~~~

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线