自动抓取网页数据,算法神马的暂且不说,光从实现角度来说

优采云 发布时间: 2022-06-15 15:02

  自动抓取网页数据,算法神马的暂且不说,光从实现角度来说

  自动抓取网页数据,算法神马的暂且不说,光从实现的角度来说,它就是比用php要更快的。然而有一个东西叫解析,它通过词典、规则或者用js的ajax来解析网页,比如我这有一个自动抓取的php,

  千万别用php,一定要用前端做,要不连数据读取都成问题。抓取这种东西不是靠框架能解决的,我认为是以浏览器为标准的、各浏览器厂商提供自己的解析规则的网站才能实现抓取功能。mysql那是后端程序的问题。

  抓取完用python进行数据可视化,还有去重,虽然有些问题,但是基本能满足日常的需求了

  抓取一般都是用php程序来实现。具体来说,如果不在乎性能问题,可以用smarty,当然mysql是最好的。如果想性能稍微好一点,就用laravelmysql的web服务器,smarty就不建议用了。最快,也要用httpd,gorilla,ror。各种文档手册比php的多得多。你要的抓取的字段稍微多一点,那可以优化下sql处理。还有就是,性能可以很快,就没必要过度优化了。

  我的博客用的是微信内嵌浏览器的ui组件的自带的功能(具体如下)

  简单实现的话可以用alert.js实现爬虫。如果想要抓取比较复杂的页面的话最好还是用php写抓取框架,这样有利于实现一些特定的功能,而且针对复杂页面提供各种selector。比如geegleorg上有关于ajax网页抓取的文章,

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线