自动采集网站内容(自动采集网站内容一般用zxing,可以直接生成pdf文件阅读)

优采云 发布时间: 2021-08-30 13:00

  自动采集网站内容(自动采集网站内容一般用zxing,可以直接生成pdf文件阅读)

  自动采集网站内容一般用zxing,语法应该是f2f2f2f2这样的,然后正则表达式用xpath,

  用gephi,利用gephi可以很方便做出自己想要的网站内容分析图表。

  如果想要数据通过网页传输,网站也要可以浏览的话,

  快速采集各大门户网站内容,推荐photopaste。采集完成后可以直接生成pdf文件阅读,

  pageminer

  其实我们就用pageminer。可以把其中的页面网站采集下来。可以拖拽采集,也可以gif动图采集。采集完直接保存在csv里,但没有合理的分组,查找页面间的关系,整理起来特别困难。

  采集各大网站内容,推荐pageminer,采集完成后可以直接生成pdf文件阅读,功能很强大,配合spring,可以快速收集大数据量。

  常用的两个是extractor和workmap

  如果是采集国内网站,pageminer很不错。如果是国外网站,推荐nemesis和pagelight,可以采集下载,但是不会在浏览器上显示。

  pagemate,不需要编程,可以采集网页中的内容,

  zxing+gephi

  可以自己搭建一个采集网站源代码的工具。

  快速采集网站内容,强烈推荐zxing!可以提取网站的内容,

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线