java从网页抓取数据(java从网页抓取数据不现实,这种情况除非服务器端程序特别叼)
优采云 发布时间: 2022-03-23 23:02java从网页抓取数据(java从网页抓取数据不现实,这种情况除非服务器端程序特别叼)
java从网页抓取数据不现实,这种情况除非服务器端程序特别叼。你猜不到一般的网站会抓取哪些数据,一旦发现抓取的数据和已经提交给服务器的数据不符,那么这个网站就死定了,因为你抓取的数据是无法重用的。前两年我们做java的时候,很多前端的人和他们程序员有仇,都抱怨说我们这网站有一年半载不更新,但数据还总是抓得很准。
这是因为前端有一堆抓取网页相关的业务(各种firebug插件、爬虫、浏览器插件、extension等等),同时前端系统不断在建立。到了晚上只要前端有人就可以爬取到后台java系统的中一个bean的变化,因为他可以拿出java核心对象来影响后端某个bean的整个生命周期。我听的时候就哭笑不得了,差点笑哭,更何况一年半载后后端可能已经成母子了。
java这种网页抓取业务也最好别去学,没必要。前端有一个在线监控,现在技术好的话完全可以做到三秒内抓取网页,到时候你的程序猿就累死在跟服务器对接了。
这个问题很有意思,简单归纳一下,我觉得应该是两个问题:1、java从网页抓取数据不现实。2、从网页抓取数据可以做什么。先回答第一个问题:做什么程序。这个。暂时没想到,需要些什么东西。这里只是假设是web程序,其他类型就不举例了。我觉得要抓取的话,用轮子哥,我觉得不怎么现实。java就更现实了,直接从网站爬,更新后爬,抓了对比就行了。
数据来源问题。oracle数据库不错,postgres数据库很好。java现在还没有像样的数据库,怎么弄?只要爬一个sqlite还不够?是的,网站有自己的数据库。有数据库的话用什么呢?没见有人分析网站的数据库数据(肯定不是爬出来的数据,肯定是后来人扒出来的数据,不然世界和平了,又得出个大新闻来了)。除非爬公司的数据库,这个就另说了。
如果有爬公司数据库,数据一般都经过加密处理,你没法直接爬,有可能你会成为叛徒被勒令封杀掉。所以我觉得解决这个问题的唯一办法是,爬一些不知名的小站,可能要麻烦点。但是可以弄个轮子哥。比如说爬一些c2c的数据,可以扒一些各大中小公司的数据库,他那有或者你有现成的代码。关于轮子哥,更好玩的是他的数据。这个怎么弄呢?可以写个轮子哥爬c2c的数据的脚本,然后带着那些站的后台程序一起上。
没网页,用浏览器的firebug对接了爬虫,然后google直接从robots协议屏蔽掉了。没办法,你能把服务器搞坏也不能把搞坏。于是你只能看别人下单用后台的java程序发给你的消息。另外java应该也可以抓取热销商品,然后卖给你。就这个。网站其实。