如何文章采集(采集某一个指定页面的文章包括(标题、图片、描述、内容) )
优采云 发布时间: 2022-01-01 18:00如何文章采集(采集某一个指定页面的文章包括(标题、图片、描述、内容)
)
任务:
采集指定页面的文章包括(标题、图片、描述、内容)导入到自己的网站数据库对应列(列id为57), 数据库字段分别是(title, thumb, descrption, content).
页面上的第一张图片用作文章缩略图。这里一个是获取缩略图的名称并将对应的网站路径添加到数据库的thumb字段中,另一个是本地下载并统一上传。进入指定的文件夹,(当然也可以直接ftp看软件,我还没做,以后补充)
1、新组--新任务
2、添加网址+修改获取网址的规则
选择ul中li中的链接,注意排除重复地址,可以点击采集下方的测试网址获取。
可以看到采集有一个到文章的链接。
3、采集内容规则
我需要采集来显示下图中的数据(catid为列id,可以将数据采集放入对应的列并设置固定值)
关注内容和图片采集,标题和描述与内容相同采集
内容采集:
打开采集的文章的一个页面查看源码(f11右键禁用或者view-source:可以在URL前面加):
选择文章开头的一个位置,截取一段,看是不是ctrl+f下的唯一一段。如果是,可以放在下图1所示的位置,结尾和开头一样。
我截取了内容,不想里面有链接图片进行数据处理,添加--html标签排除--选择确定--确定
还有需要下载页面图片,勾选并填写以下选项
图片采集:
(1)选择范围与内容相同(文章内图)
(2)提取第一张图片的数据处理选项。内容为:
(3)只要aa.jpg,常规过滤
获取内容:aa.jpg
(4)数据库存放有前缀,添加,上传/xxxxx/
找一个页面测试一下,可以看到对应的item都获取到了。
4、发布内容设置,这里以发布到数据库的方式为例,编辑完成后返回这里查看刚刚定义的模块:
5、我需要把图片保存到本地,还要设置保存文件的路径(ftp以后会尝试使用)。
6、保存,查看新创建的任务,右键启动任务,可以看到这里下载了文字和图片,在数据库中可以看到。