java抓取网页数据(面试时说说思路和想法就行了,还要回去做个东西给他?)
优采云 发布时间: 2022-03-14 08:13java抓取网页数据(面试时说说思路和想法就行了,还要回去做个东西给他?)
关于如何分析和过滤接收到的页面,我的想法不是很新鲜。欢迎大家给我各种建议,提醒我需要注意的地方!
--------解决方案--------
建议楼主找新公司。
这算什么,面试的时候说说自己的想法和想法,还得回去给他做点什么?
--------解决方案--------
你可以做一个中转站,接受客户的请求,然后自己把请求发给百度,然后得到他的回应
然后对响应流进行处理……至于处理方法……
我自己没有太多经验。你问的那位高手在他的网站上有他写的上传文件类的源代码,其中有部分代码是处理这些流的。您可以参考以下内容。
--------解决方案--------
1 次抓取
2 场常规赛
结束
--------解决方案--------
观看乐趣。 也就是说,老子不是有网页爬取系统吗? 或者我错了。 .
--------解决方案--------
我记得有一个竹子。你去他的网站看看。
--------解决方案--------
讨论
1 次抓取
2 场常规赛
结束
--------解决方案--------
正则表达式
--------解决方案--------
我认为这并不难,
首先使用流式传输到网页的内容,
二是设置title为关键字,使用正则title值,,
--------解决方案--------
哈哈,这很有趣,我们的项目经理说那天我们有时间做这样的事情是为了好玩。大部分代码都可以,但只是项目中的代码,没办法暴露出来,呵呵。
--------解决方案--------
我建议你看看车东的网站,
--------解决方案--------
讨论
引用:
1 次抓取
2 场常规赛
结束
哪个效率更高? ? ?
--------解决方案--------
小偷
常规
--------解决方案--------
1.分析百度检索时如何发送请求
2.使用您指定的关键字伪造请求
3.使用apache common-httpclient(我忘了是不是这个)获取百度网页的内容
4.使用正则表达式抓取网页内容
--------解决方案--------
路过。 . 学习了,好像前几天才看到类似的问题,
AJAX 获取结果,用正则化等方法处理结果流,并显示处理结果。结果有多页的情况如何处理?
--------解决方案--------
当有多个页面时,先使用正则表达式获取网页底部页码的url,循环获取,然后反复发送网页请求使用正则表达式获取想要的内容。 Lucene 是个好东西。如果你需要工作,你可以好好看看,但是既然你把关键词发到百度,百度会给你检索工作或者不需要使用它,学习这个东西需要时间
--------解决方案--------
普通~
--------解决方案--------
你用httpclient模拟cookies等,抓取整个数据,然后定时匹配去抓取相关的!我已经做到了!但是验证码有点难!
--------解决方案--------
不知道,楼主解决了吗?建议你看看nutch,它是一个从爬取网页到页面分析、到构建搜索、到查询全实现的搜索引擎,并且是开源的
引用:
引用:
1 次抓取
2 场常规赛
结束
哪个效率更高? ? ?
楼主的思路其实就是对这两个步骤的具体解释,1.爬取,也就是楼主所说的:“网络爬虫”。
我是这样想的:1.做一个jsp页面,在里面输入一段信息,然后转发到百度。
2.然后接收,下载返回的页面。
2、正则匹配指的是楼主所说的:3.将返回的HTML页面一一解析过滤为xml文件。
4.将过滤后的数据整理出来,提取我需要的部分
然后返回自己的jsp页面进行展示!这一步其实是nutch中的查询
上面的东西已经用nutch实现了,可以参考下
--------解决方案--------