文章采集发布(文章采集发布公众号后台，格式如，看情况而定)

优采云发布时间: 2021-09-08 14:00

　　文章采集发布公众号后台，格式如下图。输入要采集的词汇文本。然后回车后会得到你想要的“词”-document列表，词语对应id，该列表可以根据字母对应，如果查询词为c_top.document，那么对应的词语id则为2。这个不一定有用，看情况而定。有兴趣的就查，没兴趣也没必要查。创建采集项目（如果已经创建）。

　　editoption-editnewprojecteditnewprojectoutput--addedits-configtext是采集的文本，可以换成任何格式。完成以上步骤。这时候，你已经开始采集网页了。创建爬虫，开始采集爬虫本身在ie浏览器的plugins里创建。点“设置”--“自定义规则”--“location”-enabletext--打钩之后，点开始采集---在该规则下，你会发现，所有网站的链接都被采集了，但是这里我们要选择爬取哪些网站，就可以自己输入所需要爬取的网站列表。

　　当然，不建议你这么做，因为这些网站对我们来说有些搜索过于少，基本上搜不到。但是它的确非常好用。经过我多次尝试，让fiddler抓包之后，抓网站的重点关键词，用phantomjs在本地获取，然后下载下来。接下来就是在ie浏览器中访问网页了。我要完成的，就是我上图输入的词语，然后不停采集，直到这个网站爬取完毕。

　　如果未来网站不断完善，我相信它还会扩展更多的功能。这里我首先要解决的就是单词包含多个单词的时候，该怎么定位或者进行选择。这里我选择用id命名，并且尽量不要超过三个。我已经定义出一个采集目标，在这个规则下面来采集就好。给这个规则起名，然后将采集目标改为这个规则里的你想采集的词。选择什么方式来对要爬取的网站进行检索，这就看你个人喜好了。

　　这里为了方便，我把这个词定义成了c_top.document.所以如果你想将单词的id变成常数，你也可以定义成某个常数，也可以定义多个id，但是整数id可能效率会差一些。除此之外，你还可以为不同的规则中添加多个alllinks.给多个规则命名，并且不是text格式，比如当你不希望单词id变成整数的时候，需要用表明这是一个短语的变量名来命名。

　　其他的规则都是我添加的，我觉得挺好用的。我是笨一点的类型，直接用id列表来定义规则。如果你是懒一点的类型，可以用editoption-editproject来定义也不是很麻烦。拖拽采集规则到想要采集的目标网站,我会定义成editnewfields,然后就可以放在浏览器中采集。拖拽采集规则到想要采集的目标网站后，如果想采集网站列表,可以使用下图提示的方式，先选中想要采集的网站列表，然后双击。

0

2021-09-08

文章采集发布

0 个评论

要回复文章请先登录或注册

AI时代内容工厂

文章采集发布(文章采集发布公众号后台，格式如，看情况而定)

0 个评论

发起人

AI时代内容工厂

文章采集发布(文章采集发布公众号后台，格式如，看情况而定)

0 个评论

发起人

相关问题