java从网页抓取数据(java从网页抓取数据不现实，这种情况除非服务器端程序特别叼)

优采云发布时间: 2022-03-23 23:02

　　java从网页抓取数据不现实，这种情况除非服务器端程序特别叼。你猜不到一般的网站会抓取哪些数据，一旦发现抓取的数据和已经提交给服务器的数据不符，那么这个网站就死定了，因为你抓取的数据是无法重用的。前两年我们做java的时候，很多前端的人和他们程序员有仇，都抱怨说我们这网站有一年半载不更新，但数据还总是抓得很准。

　　这是因为前端有一堆抓取网页相关的业务（各种firebug插件、爬虫、浏览器插件、extension等等），同时前端系统不断在建立。到了晚上只要前端有人就可以爬取到后台java系统的中一个bean的变化，因为他可以拿出java核心对象来影响后端某个bean的整个生命周期。我听的时候就哭笑不得了，差点笑哭，更何况一年半载后后端可能已经成母子了。

　　java这种网页抓取业务也最好别去学，没必要。前端有一个在线监控，现在技术好的话完全可以做到三秒内抓取网页，到时候你的程序猿就累死在跟服务器对接了。

　　这个问题很有意思，简单归纳一下，我觉得应该是两个问题：1、java从网页抓取数据不现实。2、从网页抓取数据可以做什么。先回答第一个问题：做什么程序。这个。暂时没想到，需要些什么东西。这里只是假设是web程序，其他类型就不举例了。我觉得要抓取的话，用轮子哥，我觉得不怎么现实。java就更现实了，直接从网站爬，更新后爬，抓了对比就行了。

　　数据来源问题。oracle数据库不错，postgres数据库很好。java现在还没有像样的数据库，怎么弄？只要爬一个sqlite还不够？是的，网站有自己的数据库。有数据库的话用什么呢？没见有人分析网站的数据库数据（肯定不是爬出来的数据，肯定是后来人扒出来的数据，不然世界和平了，又得出个大新闻来了）。除非爬公司的数据库，这个就另说了。

　　如果有爬公司数据库，数据一般都经过加密处理，你没法直接爬，有可能你会成为叛徒被勒令封杀掉。所以我觉得解决这个问题的唯一办法是，爬一些不知名的小站，可能要麻烦点。但是可以弄个轮子哥。比如说爬一些c2c的数据，可以扒一些各大中小公司的数据库，他那有或者你有现成的代码。关于轮子哥，更好玩的是他的数据。这个怎么弄呢？可以写个轮子哥爬c2c的数据的脚本，然后带着那些站的后台程序一起上。

　　没网页，用浏览器的firebug对接了爬虫，然后google直接从robots协议屏蔽掉了。没办法，你能把服务器搞坏也不能把搞坏。于是你只能看别人下单用后台的java程序发给你的消息。另外java应该也可以抓取热销商品，然后卖给你。就这个。网站其实。

0

2022-03-23

java从网页抓取数据

0 个评论

要回复文章请先登录或注册

AI时代内容工厂

java从网页抓取数据(java从网页抓取数据不现实，这种情况除非服务器端程序特别叼)

0 个评论

发起人