java抓取网页数据(面试时说说思路和想法就行了,还要回去做个东西给他?)

优采云 发布时间: 2022-03-14 08:13

  java抓取网页数据(面试时说说思路和想法就行了,还要回去做个东西给他?)

  关于如何分析和过滤接收到的页面,我的想法不是很新鲜。欢迎大家给我各种建议,提醒我需要注意的地方!

  --------解决方案--------

  建议楼主找新公司。

  这算什么,面试的时候说说自己的想法和想法,还得回去给他做点什么?

  --------解决方案--------

  你可以做一个中转站,接受客户的请求,然后自己把请求发给百度,然后得到他的回应

  然后对响应流进行处理……至于处理方法……

  我自己没有太多经验。你问的那位高手在他的网站上有他写的上传文件类的源代码,其中有部分代码是处理这些流的。您可以参考以下内容。

  --------解决方案--------

  1 次抓取

  2 场常规赛

  结束

  --------解决方案--------

  观看乐趣。 也就是说,老子不是有网页爬取系统吗? 或者我错了。 .

  --------解决方案--------

  我记得有一个竹子。你去他的网站看看。

  --------解决方案--------

  讨论

  1 次抓取

  2 场常规赛

  结束

  --------解决方案--------

  正则表达式

  --------解决方案--------

  我认为这并不难,

  首先使用流式传输到网页的内容,

  二是设置title为关键字,使用正则title值,,

  --------解决方案--------

  哈哈,这很有趣,我们的项目经理说那天我们有时间做这样的事情是为了好玩。大部分代码都可以,但只是项目中的代码,没办法暴露出来,呵呵。

  --------解决方案--------

  我建议你看看车东的网站,

  --------解决方案--------

  讨论

  引用:

  1 次抓取

  2 场常规赛

  结束

  哪个效率更高? ? ?

  --------解决方案--------

  小偷

  常规

  --------解决方案--------

  1.分析百度检索时如何发送请求

  2.使用您指定的关键字伪造请求

  3.使用apache common-httpclient(我忘了是不是这个)获取百度网页的内容

  4.使用正则表达式抓取网页内容

  --------解决方案--------

  路过。 . 学习了,好像前几天才看到类似的问题,

  AJAX 获取结果,用正则化等方法处理结果流,并显示处理结果。结果有多页的情况如何处理?

  --------解决方案--------

  当有多个页面时,先使用正则表达式获取网页底部页码的url,循环获取,然后反复发送网页请求使用正则表达式获取想要的内容。 Lucene 是个好东西。如果你需要工作,你可以好好看看,但是既然你把关键词发到百度,百度会给你检索工作或者不需要使用它,学习这个东西需要时间

  --------解决方案--------

  普通~

  --------解决方案--------

  你用httpclient模拟cookies等,抓取整个数据,然后定时匹配去抓取相关的!我已经做到了!但是验证码有点难!

  --------解决方案--------

  不知道,楼主解决了吗?建议你看看nutch,它是一个从爬取网页到页面分析、到构建搜索、到查询全实现的搜索引擎,并且是开源的

  引用:

  引用:

  1 次抓取

  2 场常规赛

  结束

  哪个效率更高? ? ?

  楼主的思路其实就是对这两个步骤的具体解释,1.爬取,也就是楼主所说的:“网络爬虫”。

  我是这样想的:1.做一个jsp页面,在里面输入一段信息,然后转发到百度。

  2.然后接收,下载返回的页面。

  2、正则匹配指的是楼主所说的:3.将返回的HTML页面一一解析过滤为xml文件。

  4.将过滤后的数据整理出来,提取我需要的部分

  然后返回自己的jsp页面进行展示!这一步其实是nutch中的查询

  上面的东西已经用nutch实现了,可以参考下

  --------解决方案--------

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线