火车头采集时 采网址--重复网址的临时解决方式
优采云 发布时间: 2020-04-27 11:00所以下边给出临时的解决方式: 我这儿是用的 火车头采集器2010sp2*敏*感*词*。
商业版用户的采集后的网址都存贮在 PageUrl 目录上面的,一个任务对应一个db3.大家可以从最里面的任务往下数第一个,对应的就是Site_*.db3.这样你们可以先备份一下,然后清空也不怕了,到时候直接还原用户名既可以,如果怕出错,全部保存,一会恢复即可。
如果想更进一步的查看,这个db3虽然就是sqlite数据库格式的文件,可以用db3数据库编辑器 查看更改。根据jobid查看,有同事问不知道jobid怎样办,呵呵,大家可以到 Data 目录查看 3-新浪国外新闻 后面的新浪国外新闻就是你自定义的网站栏目名称。这个跟jobid对应上即可。
最后你们备份好数据库之后就可以(需要备份在 PageUrl 与 Data目录的你的任务名对应的文件夹,最好是全部以防万一,采集完就可以覆盖下。)
后来从网站也看见了如下文件,跟我的这篇大同小异。大家可以参考下。
火车头是一个不错的采集软件,“盗亦有道”,看你怎么借助了。
Linker曾经也时常研究下火车头采集软件,只是仍然没有订购商业版本,想想火车头采集教程,现在的版本远没有曾经的1.x和2.x版本来得爽快。
一位兄弟,昨晚说他的火车头采集软件(企业版本的哦,有钱人!),总是提示任务地址库重复,研究了下,比较简单,告诉了他处理的方式,另外,经过搜索发觉,火车头的3.0 sp1版本有过这个bug火车头采集教程,清除不掉任务地址库,但管理员早已在sp2版本中解决掉这个问题了。
后来那位同学又问火车头采集软件的任务地址库是那个文件?怎么样保存任务地址库?怎么样自动清除任务地址库文件?据Linker所知,编辑任务地址库,需要是商业版本了,如果想自动来处理,可以发觉,手动地址库文件是在火车头根目录下的pageurl目录中,每一个任务对应一个地址库文件,mdb格式的,打开可以发觉,具体地址是被加密了。火车头也有些很商业了,嘿嘿!
既然晓得任务地址库的位置和文件了,手动清除任务地址库,自然就简单了。删除使火车头重复(删除后,编辑该任务,再保存),或者直接删掉该库上面的记录,都可以。想另存为其他任务所用,重命令为其它任务的id就行了。
简单测试通过。