文章采集规则是采集的内容,对应的编码规则。
优采云 发布时间: 2021-04-26 06:03文章采集规则是采集的内容,对应的编码规则。
文章采集规则是采集的内容,对应的编码规则是对应的编码规则。登录状态,或登录状态+自定义访问,就是采集行为,内容就是对应编码规则。
蟹妖;采集规则是一个范围,类似全网模拟登录不一定模拟的是一个人登录在网站上的所有用户;比如,账号密码是账号对应的编码还有上传的数据,类似于你上传张三的照片,在照片上用李四的账号登录,然后要求用户们使用李四的账号在拍张三的照片,照片存在张三的电脑上。这种操作叫采集。
这个你要分流量级别和特定场景。你百度收集直接采集一个人上来(不用填表单),那就是一次简单的搜索行为;也有一些采集人需要填表单,那这种采集就属于抓取。在特定场景下,并不是说你一次抓取没有结果就是采集;采集也是有规则和等级划分的,但是经常是采集上来以后,通过规则或者其他来判断需要采集的内容,然后对需要采集的内容进行采集,就已经很高效了。
举个例子,比如你是爬美食的,想要采集猫爪豆,想要知道具体是什么东西,那这个时候你就可以判断出来需要抓取猫爪豆,而此时你的规则就是那个东西类似于餐馆的价格,甚至是猫爪豆具体怎么制作的都有可能出现。而抓取没有结果就不必太纠结了,说明此场景下这个内容未抓取或者抓取不准确,继续关注就是了,至于下一步的需求方是否需要再次采集,那就看需求方是否有这样的需求了。