java爬虫抓取动态网页( 知乎编辑推荐的爬虫、经验和见解，值得收藏！)

优采云发布时间: 2022-02-15 05:02

　　java爬虫抓取动态网页(

知乎编辑推荐的爬虫、经验和见解，值得收藏！)

　　零基础写Java知乎爬虫获取知乎编者推荐

　　更新时间：2014-11-07 10:33:33 发布者：hebedic

　　在上一篇文章中，我们用百度首页做了一个小测试。今天我们来个复杂的，直接抓取知乎小编推荐的内容。小伙伴们松了口气，终于进入正题。哈哈。

　　知乎是一个真正的在线问答社区，社区氛围友好、理性、严肃，连接各行各业的精英。他们分享彼此的专业知识、经验和见解，为中国互联网提供源源不断的优质信息。

　　首先，花三五分钟设计一个 Logo=。= 作为程序员，我一直有一颗做艺术家的心！

　　好吧，这有点临时，所以让我们先做一点。

　　接下来，我们开始制作知乎的爬虫。

　　首先，确定第一个目标：编辑建议。

　　网页链接：

　　我们对最后的代码稍作修改，首先实现可以获取到页面的内容：

　　import java.io.*;

import java.net.*;

import java.util.regex.*;

public class Main {

static String SendGet(String url) {

// 定义一个字符串用来存储网页内容

String result = "";

// 定义一个缓冲字符输入流

BufferedReader in = null;

try {

// 将string转成url对象

URL realUrl = new URL(url);

// 初始化一个链接到那个url的连接

URLConnection connection = realUrl.openConnection();

// 开始实际的连接

connection.connect();

// 初始化 BufferedReader输入流来读取URL的响应

in = new BufferedReader(new InputStreamReader(

connection.getInputStream()));

// 用来临时存储抓取到的每一行的数据

String line;

while ((line = in.readLine()) != null) {

// 遍历抓取到的每一行并将其存储到result里面

result += line;

}

} catch (Exception e) {

System.out.println("发送GET请求出现异常！" + e);

e.printStackTrace();

}

// 使用finally来关闭输入流

finally {

try {

if (in != null) {

in.close();

}

} catch (Exception e2) {

e2.printStackTrace();

}

return result;

}

static String RegexString(String targetStr, String patternStr) {

// 定义一个样式模板，此中使用正则表达式，括号中是要抓的内容

// 相当于埋好了陷阱匹配的地方就会掉下去

Pattern pattern = Pattern.compile(patternStr);

// 定义一个matcher用来做匹配

Matcher matcher = pattern.matcher(targetStr);

// 如果找到了

if (matcher.find()) {

// 打印出结果

return matcher.group(1);

}

return "Nothing";

}

public static void main(String[] args) {

// 定义即将访问的链接

String url = "http://www.zhihu.com/explore/recommendations";

// 访问链接并获取页面内容

String result = SendGet(url);

// 使用正则匹配图片的src内容

//String imgSrc = RegexString(result, "src=\"(.+?)\"");

// 打印结果

System.out.println(result);

}

　　运行没有问题，然后就是正则匹配的问题。

　　首先让我们获取此页面上的所有问题。

　　右键单击标题并检查元素：

　　啊哈，可以看到标题其实是一个a标签，是一个超链接，和其他超链接区别的应该是类，也就是类选择器。

　　于是我们的常规语句就出来了：question_link.+?href=\"(.+?)\"

　　调用 RegexString 函数并传递参数：

<p> public static void main(String[] args) {

// 定义即将访问的链接

String url = "http://www.zhihu.com/explore/recommendations";

// 访问链接并获取页面内容

String result = SendGet(url);

// 使用正则匹配图片的src内容

String imgSrc = RegexString(result, "question_link.+?>(.+?)(.+?)(.+?)

0

2022-02-15

java爬虫抓取动态网页

0 个评论

要回复文章请先登录或注册

AI时代内容工厂

java爬虫抓取动态网页( 知乎编辑推荐的爬虫、经验和见解，值得收藏！)

0 个评论

发起人