采集内容插入词库(采集某一个指定页面的文章包括(标题、图片、描述、内容))
优采云 发布时间: 2021-10-24 11:03采集内容插入词库(采集某一个指定页面的文章包括(标题、图片、描述、内容))
采集指定页面的文章包括(标题、图片、描述、内容)导入到自己的网站数据库对应列(列id为57),数据库字段分别是(标题、拇指、描述、内容)。
页面上的第一张图片用作文章 缩略图。这里一个是获取缩略图名称并将对应的网站路径添加到数据库的thumb字段中,另一个是在本地下载并上传到指定文件。文件夹,(当然也可以直接ftp看软件,我还没弄,以后补上)
1、新组-新任务
2、添加URL + 编辑获取URL的规则
选择ul中li中的链接,注意排除重复地址。可以点击采集下方的测试网址获取。
可以看到有一个从采集到文章的链接。
3、采集内容规则
我需要采集显示下图中的数据(catid是列id,可以把采集的数据放到对应的列中,设置一个固定值即可)
关注内容和图片采集,标题和描述与内容采集一致
内容采集:
打开采集的文章页面查看源码(禁用右键f11或在URL前面添加view-source:):
选择文章开头的一个位置,截取一段,看是不是ctrl+f下的唯一一段。如果是,可以放在下图1所示的位置,结尾和开头一样。
不想抓取带有数据可以处理的链接图片的内容,添加-html标签排除-选择确定-确定
还有需要下载页面图片,勾选并填写以下选项
图片采集:
(1)选择范围与内容相同(文章中的图片)
(2)选择数据处理的第一张图片内容为:
(3)只要aa.jpg,正则过滤,得到内容:aa.jpg
(4) 数据库存放有前缀,添加,upload/xxxxx/
找个页面测试一下,可以看到对应的项目都获取到了。
4、 发布内容设置,这里以发布到数据库的方式为例,编辑完后返回这里查看刚刚定义的模块:
5、我需要将图片保存到本地,并且需要设置保存文件的路径(ftp稍后会尝试使用)。
6、保存,查看新创建的任务,右键启动任务,可以看到这里下载了文字和图片,在数据库中可以看到。
采集指定页面的文章包括(标题、图片、描述、内容)导入到自己的网站数据库对应列(列id为57),数据库字段分别是(标题、拇指、描述、内容)。
页面上的第一张图片用作文章 缩略图。这里一个是获取缩略图名称并将对应的网站路径添加到数据库的thumb字段中,另一个是在本地下载并上传到指定文件。文件夹,(当然也可以直接ftp看软件,我还没弄,以后补上)
1、新组-新任务
2、添加URL + 编辑获取URL的规则
选择ul中li中的链接,注意排除重复地址。可以点击采集下方的测试网址获取。
可以看到有一个从采集到文章的链接。
3、采集内容规则
我需要采集显示下图中的数据(catid是列id,可以把采集的数据放到对应的列中,设置一个固定值即可)
关注内容和图片采集,标题和描述与内容采集一致
内容采集:
打开采集的文章页面查看源码(禁用右键f11或在URL前面添加view-source:):
选择文章开头的一个位置,截取一段,看是不是ctrl+f下的唯一一段。如果是,可以放在下图1所示的位置,结尾和开头一样。
不想抓取带有数据可以处理的链接图片的内容,添加-html标签排除-选择确定-确定
还有需要下载页面图片,勾选并填写以下选项
图片采集:
(1)选择范围与内容相同(文章中的图片)
(2)选择数据处理的第一张图片内容为:
(3)只要aa.jpg,正则过滤,得到内容:aa.jpg
(4) 数据库存放有前缀,添加,upload/xxxxx/
找个页面测试一下,可以看到对应的项目都获取到了。
4、 发布内容设置,这里以发布到数据库的方式为例,编辑完后返回这里查看刚刚定义的模块:
5、我需要将图片保存到本地,并且需要设置保存文件的路径(ftp稍后会尝试使用)。
6、保存,查看新创建的任务,右键启动任务,可以看到这里下载了文字和图片,在数据库中可以看到。