java爬虫抓取动态网页( 知乎编辑推荐的爬虫、经验和见解,值得收藏!)

优采云 发布时间: 2022-02-15 05:02

  java爬虫抓取动态网页(

知乎编辑推荐的爬虫、经验和见解,值得收藏!)

  零基础写Java知乎爬虫获取知乎编者推荐

  更新时间:2014-11-07 10:33:33 发布者:hebedic

  在上一篇文章中,我们用百度首页做了一个小测试。今天我们来个复杂的,直接抓取知乎小编推荐的内容。小伙伴们松了口气,终于进入正题。哈哈。

  知乎是一个真正的在线问答社区,社区氛围友好、理性、严肃,连接各行各业的精英。他们分享彼此的专业知识、经验和见解,为中国互联网提供源源不断的优质信息。

  首先,花三五分钟设计一个 Logo=。= 作为程序员,我一直有一颗做艺术家的心!

  

  好吧,这有点临时,所以让我们先做一点。

  接下来,我们开始制作知乎的爬虫。

  首先,确定第一个目标:编辑建议。

  网页链接:

  我们对最后的代码稍作修改,首先实现可以获取到页面的内容:

  import java.io.*;

import java.net.*;

import java.util.regex.*;

public class Main {

 static String SendGet(String url) {

  // 定义一个字符串用来存储网页内容

  String result = "";

  // 定义一个缓冲字符输入流

  BufferedReader in = null;

  try {

   // 将string转成url对象

   URL realUrl = new URL(url);

   // 初始化一个链接到那个url的连接

   URLConnection connection = realUrl.openConnection();

   // 开始实际的连接

   connection.connect();

   // 初始化 BufferedReader输入流来读取URL的响应

   in = new BufferedReader(new InputStreamReader(

     connection.getInputStream()));

   // 用来临时存储抓取到的每一行的数据

   String line;

   while ((line = in.readLine()) != null) {

    // 遍历抓取到的每一行并将其存储到result里面

    result += line;

   }

  } catch (Exception e) {

   System.out.println("发送GET请求出现异常!" + e);

   e.printStackTrace();

  }

  // 使用finally来关闭输入流

  finally {

   try {

    if (in != null) {

     in.close();

    }

   } catch (Exception e2) {

    e2.printStackTrace();

   }

  }

  return result;

 }

 static String RegexString(String targetStr, String patternStr) {

  // 定义一个样式模板,此中使用正则表达式,括号中是要抓的内容

  // 相当于埋好了陷阱匹配的地方就会掉下去

  Pattern pattern = Pattern.compile(patternStr);

  // 定义一个matcher用来做匹配

  Matcher matcher = pattern.matcher(targetStr);

  // 如果找到了

  if (matcher.find()) {

   // 打印出结果

   return matcher.group(1);

  }

  return "Nothing";

 }

 public static void main(String[] args) {

  // 定义即将访问的链接

  String url = "http://www.zhihu.com/explore/recommendations";

  // 访问链接并获取页面内容

  String result = SendGet(url);

  // 使用正则匹配图片的src内容

  //String imgSrc = RegexString(result, "src=\"(.+?)\"");

  // 打印结果

  System.out.println(result);

 }

}

  运行没有问题,然后就是正则匹配的问题。

  首先让我们获取此页面上的所有问题。

  右键单击标题并检查元素:

  

  啊哈,可以看到标题其实是一个a标签,是一个超链接,和其他超链接区别的应该是类,也就是类选择器。

  于是我们的常规语句就出来了:question_link.+?href=\"(.+?)\"

  调用 RegexString 函数并传递参数:

<p> public static void main(String[] args) {

  // 定义即将访问的链接

  String url = "http://www.zhihu.com/explore/recommendations";

  // 访问链接并获取页面内容

  String result = SendGet(url);

  // 使用正则匹配图片的src内容

  String imgSrc = RegexString(result, "question_link.+?>(.+?)(.+?)(.+?)

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线