采集内容插入词库设置规则抓取特征词、抓取python

优采云 发布时间: 2021-05-03 18:03

  采集内容插入词库设置规则抓取特征词、抓取python

  采集内容插入词库设置规则爬虫抓取特征词、短语抓取python字典生成词库爬虫开始抓取新的文章抓取特征词设置规则如果设置正确,只要有一个匹配的,

  使用正则匹配吧。这类网站是这样的,但是不排除当时人为设置的词库,如果只是在timeline上看到相似的词会收录,可以通过检查timeline上的词库。

  我是markdown写爬虫,

  海外爬虫,scrapy,正则,postman,

  自己写爬虫,

  你要能写出正则表达式。你还不如直接写正则。然后找准了正则里面哪些字符在timeline上出现的比较多就在timeline上匹配就行了。

  看看用了什么工具

  这个网站挺有意思,建议你都抓下来,然后分析自己的样本,

  参见最开始的问题中那个清华的回答,

  可以用正则表达式,找一些简单明了的词或者词组。可以进行分词。

  我提供个思路,首先看网站都会有那些页面,然后逐页去提取.

  可以找timeline上共用的词,比如我喜欢看豆瓣电影小组,按照豆瓣电影小组每周的更新频率,一般在每周二左右,我也不会对豆瓣小组做什么高难度的模拟搜索,只是按照更新频率提取频率就可以了,然后统计该小组当天的文章数量,基本上全小组文章的数量,就能推算出网站的所有文章(正好这三个网站都有,还挺多)其他的就比较灵活了,比如只提取一条信息再用正则等等做一些正则表达式的处理。

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线