自动识别采集内容(自动识别采集内容是怎么采集的?的话推荐)

优采云 发布时间: 2022-03-16 11:00

  自动识别采集内容(自动识别采集内容是怎么采集的?的话推荐)

  自动识别采集内容,我自己是不喜欢手动识别,基本都是python采集的,之前用的爬虫大师和aiscrapy。但是要想获取真实有效的评论,还是要靠程序或者爬虫,aiscrapy是用来做爬虫还可以,如果想在ai里面识别出评论内容,还是要用python和selenium。我现在基本都是直接用爬虫来采集评论,selenium的模拟登录也是有点麻烦,但是找不到解决办法,给不了你什么建议。

  京东评论是怎么采集的

  题主,

  楼主请告诉我,你是因为知乎评论太长了,

  如果说京东所有的评论都按字数出的话,你可以用md5加密算法来比对。比如0代表“6年前”,0-9代表“三星”,10代表“蓝光”,等等。

  个人比较喜欢aiscrapy+正则,

  论采集评论可以用图片或者视频,用python的话可以用requests库,可以试试。

  python的话推荐scrapy。国内多写爬虫,不知道题主在哪个城市,至少我采集过100+网站,对爬虫感兴趣的朋友,可以一起交流。

  题主,这个题目要是让你去爬全球所有评论,多大的代价啊,这么专业的东西其实咱们不太懂的,现在有很多爬虫框架,

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线