java从网页抓取数据(java从网页抓取数据,需要使用java的spiderapi,可以抓取一个网页)
优采云 发布时间: 2021-10-23 15:03java从网页抓取数据(java从网页抓取数据,需要使用java的spiderapi,可以抓取一个网页)
java从网页抓取数据,需要使用java的spiderapi,其中很重要的一个类contentbrowser可以抓取一个网页,也就是chrome浏览器,并且能够上传到后台数据库,简单来说,用java抓取一个网页时,并不是直接往java服务器发送get请求,而是contentbrowser向浏览器发送get请求,然后返回内容,在下面的代码中通过服务器传输的错误码去匹配数据库是否匹配上,然后返回正确的结果就可以抓取数据了,如果后端服务器数据库没有匹配上的话,则提示“pageerror”(网页未响应)来告诉浏览器,java服务器未能收到正确的请求数据,从而将网页转发给后端服务器,这个时候spider已经将抓取的页面转发给后端的httpserver进行http请求抓取了,但后端服务器还没有响应数据库中的数据。
简单的说是因为cookie是记录的当前url对应的cookie,这段记录是放在服务器的,url改变时记录重新生成,
form表单和oauth认证时都需要使用到cookie,以下代码可以查看cookie设置:$request-cookie='pages_request_id';$request-cookie-path='/pages';$request-cookie-name='pages_cookie_name';$request-cookie-host='cookie_host';$request-cookie-method='post';$request-cookie-timeout='30秒';$request-cookie-invalid='y';$request-cookie-isnotfound='y';$request-cookie-origin='cookie_origin';$request-cookie-setheader='cookie_host';$request-cookie-ignore='y';$request-cookie-ignore-uri='';..具体参考googlecookie设置。