从哪个区域找链接,你的详情页链接长什么样
优采云 发布时间: 2021-07-31 04:14从哪个区域找链接,你的详情页链接长什么样
到
只有这样,工具才会从上面的区域找到链接。
让我们继续。我们已经知道从哪个区域找到链接。接下来是找什么样的链接。这时候就得看看文章link的所有详情页是什么样子的,例如:
把鼠标移到列表页的文章标题就可以看到了(不好意思啰嗦),然后你大概扫一扫,发现文章detail页链接在所有的列表页面几乎像下面这样
这样的脸:
http://www.chnrailway.com/news/20090606/0606326101.html
http://www.chnrailway.com/html/18-03-12/23-45-78.shtml
http://www.chnrailway.com/rail/show-9875756/78-78.html
那么你应该能够编写规则:
http://www.chnrailway.com/(*)/(*)/(*).(*)html
通过这种方式,您还可以获得详细信息页面的链接。接下来就可以设置获取详情页内容的规则了。
2.3采集Content rules(详情页内容规则)
我没看到。在这里可以设置数据采集的标题、内容等来源。先说标题:
我放大了右侧部分:
显然,这个标题应该是取自DOM结构的,具体的判断要根据html。毕竟不同的网站有不同的html样式,所以这个规则填在标题中
在获取规则中,文章content 规则也是如此。给一张图片,自己想办法。
2.4 测试规则
测试就是看你之前写的规则是否可以采集到达source网站数据。
点击任意加号找到详细页面,然后在右侧“测试此页面”:
如果你能得到你想要的数据,那么你之前写的规则就是正确的! ! !
2.5 发布内容设置
data采集Ok,当然要贴到target网站ah,然后:
这个发布配置可以自定义(我们点击WEB发布配置管理):
这些都是基于你想发的网站。
至于最后一项:文件保存和一些高级设置,您无需进行任何更改。有兴趣的请自行研究。
在所有的规则和配置都写好并测试正确后,你的采集任务可以说完成了,接下来就是执行任务了:
三个复选框分别表示:捕获 URL、捕获内容和发布。如果您选择了所有这些,那么
右击这个任务,启动任务,他会启动采集data并上传数据。根据数据量,任务的执行时间会有所不同~~~