asp.net 抓取网页数据(抓取网页数据比起通过java传入html文档来说更麻烦)
优采云 发布时间: 2022-03-30 03:04asp.net 抓取网页数据(抓取网页数据比起通过java传入html文档来说更麻烦)
抓取网页数据比起通过java传入html文档来说更麻烦,数据持久性的问题。(java会全部转为字符串,换一种写法不同的编码不同的内容),所以很容易出现数据重复了。想要抓取网页数据就必须要有一套数据库,一般都是sqlite来实现。如果没有相应的库可以尝试以下方案。首先要实现相应的浏览器插件,例如微信小程序版本。
其次需要懂得相应的php知识并且有配置过正则表达式,第三,将正则表达式转化为php函数的mysql库来处理。
php是最适合干这个的。
node.js
node.js,可以抓取各种网页。
php
node.js一直都是人气最旺的,容易上手,使用方便,并且有超多api,一堆的生态,完全够用。请看我的其他答案,已经详细介绍了。
awk
本身没有java的接口直接抓不起来
phpweb开发java开发
nodejs
java...
php比java容易太多了.
java,这里并不涉及sql连接php
java,fastjson一个异步mysql连接,静态化get类get的字符串,更多的可以理解为mysql_connect("username:password",//用户名,字符串);sqlite连接表格,更多的用字符串存储,
很多人提到php,我也认为php是个非常适合的语言。对于爬虫,一般都有有个后端接口。前端使用java也可以,但写多了爬虫,对sql的处理太烂了。