建站系统采集器(建站系统采集器:chinadepository首先谢邀,我不知道你的每一个产品有多少个页面)
优采云 发布时间: 2022-03-20 02:04建站系统采集器(建站系统采集器:chinadepository首先谢邀,我不知道你的每一个产品有多少个页面)
建站系统采集器:chinadepository
首先谢邀,我不知道你的每一个产品有多少个页面,如果只有三个页面,可以考虑js写三次采集,先将在上家查到的xx信息截取好,然后在根据时间后加载新页面,不管别人的数据是用html还是js写,这是省事的办法;没事可以学一下html5,了解一下nodejs;或者再没事在别人的信息页面抓取一些文章,在自己的需要的页面用这些文章做好爬虫,不管别人的数据是用html还是js写,这是省时间的办法;另外可以用php抓取api,抓取在自己的网站上。
我知道的暂时想起来这么多。没必要依赖别人的开源项目,相信很多项目会提供封装的api(自己抓取的是别人的页面,而抓取别人的页面,技术含量不大,最重要的是有多个页面的时候实现getpost的一体化,爬取实际上不麻烦。
我最近发现,现在大部分互联网公司的信息采集系统都是直接采用js封装页面,抓取代码一般是html+js代码,完成页面爬取。我目前在想,是否可以写个采集server呢,毕竟不是都有react和webpack吗,让这个server可以调用这些js代码,有没有不需要爬虫的同学来做呢?但是好像这个想法还是需要考虑到技术难度和复杂度,因为要实现前后端分离,还有版本统一。
直接抓数据库html不行吗?这个不用爬。