从哪个区域找链接,你的详情页链接长什么样

优采云 发布时间: 2021-07-31 04:14

  从哪个区域找链接,你的详情页链接长什么样

  到

  只有这样,工具才会从上面的区域找到链接。

  让我们继续。我们已经知道从哪个区域找到链接。接下来是找什么样的链接。这时候就得看看文章link的所有详情页是什么样子的,例如:

  

  把鼠标移到列表页的文章标题就可以看到了(不好意思啰嗦),然后你大概扫一扫,发现文章detail页链接在所有的列表页面几乎像下面这样

  这样的脸:

  http://www.chnrailway.com/news/20090606/0606326101.html

http://www.chnrailway.com/html/18-03-12/23-45-78.shtml

http://www.chnrailway.com/rail/show-9875756/78-78.html

  那么你应该能够编写规则:

  http://www.chnrailway.com/(*)/(*)/(*).(*)html

  通过这种方式,您还可以获得详细信息页面的链接。接下来就可以设置获取详情页内容的规则了。

  2.3采集Content rules(详情页内容规则)

  

  我没看到。在这里可以设置数据采集的标题、内容等来源。先说标题:

  

  

  我放大了右侧部分:

  

  显然,这个标题应该是取自DOM结构的,具体的判断要根据html。毕竟不同的网站有不同的html样式,所以这个规则填在标题中

  在获取规则中,文章content 规则也是如此。给一张图片,自己想办法。

  

  2.4 测试规则

  测试就是看你之前写的规则是否可以采集到达source网站数据。

  

  

  点击任意加号找到详细页面,然后在右侧“测试此页面”:

  

  如果你能得到你想要的数据,那么你之前写的规则就是正确的! ! !

  2.5 发布内容设置

  data采集Ok,当然要贴到target网站ah,然后:

  

  这个发布配置可以自定义(我们点击WEB发布配置管理):

  

  这些都是基于你想发的网站。

  至于最后一项:文件保存和一些高级设置,您无需进行任何更改。有兴趣的请自行研究。

  在所有的规则和配置都写好并测试正确后,你的采集任务可以说完成了,接下来就是执行任务了:

  

  三个复选框分别表示:捕获 URL、捕获内容和发布。如果您选择了所有这些,那么

  右击这个任务,启动任务,他会启动采集data并上传数据。根据数据量,任务的执行时间会有所不同~~~

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线