文章采集发布(文章采集发布公众号后台,格式如,看情况而定)

优采云 发布时间: 2021-09-08 14:00

  文章采集发布(文章采集发布公众号后台,格式如,看情况而定)

  文章采集发布公众号后台,格式如下图。输入要采集的词汇文本。然后回车后会得到你想要的“词”-document列表,词语对应id,该列表可以根据字母对应,如果查询词为c_top.document,那么对应的词语id则为2。这个不一定有用,看情况而定。有兴趣的就查,没兴趣也没必要查。创建采集项目(如果已经创建)。

  editoption-editnewprojecteditnewprojectoutput--addedits-configtext是采集的文本,可以换成任何格式。完成以上步骤。这时候,你已经开始采集网页了。创建爬虫,开始采集爬虫本身在ie浏览器的plugins里创建。点“设置”--“自定义规则”--“location”-enabletext--打钩之后,点开始采集---在该规则下,你会发现,所有网站的链接都被采集了,但是这里我们要选择爬取哪些网站,就可以自己输入所需要爬取的网站列表。

  当然,不建议你这么做,因为这些网站对我们来说有些搜索过于少,基本上搜不到。但是它的确非常好用。经过我多次尝试,让fiddler抓包之后,抓网站的重点关键词,用phantomjs在本地获取,然后下载下来。接下来就是在ie浏览器中访问网页了。我要完成的,就是我上图输入的词语,然后不停采集,直到这个网站爬取完毕。

  如果未来网站不断完善,我相信它还会扩展更多的功能。这里我首先要解决的就是单词包含多个单词的时候,该怎么定位或者进行选择。这里我选择用id命名,并且尽量不要超过三个。我已经定义出一个采集目标,在这个规则下面来采集就好。给这个规则起名,然后将采集目标改为这个规则里的你想采集的词。选择什么方式来对要爬取的网站进行检索,这就看你个人喜好了。

  这里为了方便,我把这个词定义成了c_top.document.所以如果你想将单词的id变成常数,你也可以定义成某个常数,也可以定义多个id,但是整数id可能效率会差一些。除此之外,你还可以为不同的规则中添加多个alllinks.给多个规则命名,并且不是text格式,比如当你不希望单词id变成整数的时候,需要用表明这是一个短语的变量名来命名。

  其他的规则都是我添加的,我觉得挺好用的。我是笨一点的类型,直接用id列表来定义规则。如果你是懒一点的类型,可以用editoption-editproject来定义也不是很麻烦。拖拽采集规则到想要采集的目标网站,我会定义成editnewfields,然后就可以放在浏览器中采集。拖拽采集规则到想要采集的目标网站后,如果想采集网站列表,可以使用下图提示的方式,先选中想要采集的网站列表,然后双击。

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线