内涵吧内涵段子采集入口类Neihan8Crawl实现(1)_社会万象_光明网(组图)

优采云 发布时间: 2021-05-26 05:01

  内涵吧内涵段子采集入口类Neihan8Crawl实现(1)_社会万象_光明网(组图)

  此博客是博客的扩展。建议先阅读上一个博客,然后再阅读此博客。

  以前的博客介绍了笑话集网站的自动采集,本文将对其进行扩展以介绍多内涵栏的自动采集。

  以前的博客详细介绍了几个基本类别,现在仅采用构造子类别来实现内涵段落的内涵采集。

  内涵栏内涵Duanzi 采集这里的入口类Neihan8Crawl不能实现爬行程序采集的周期性,在这里您可以根据需要编写相应的线程。

<p> /**

*@Description:

*/

package cn.lulei.crawl.neihan8;

import java.io.IOException;

import java.util.ArrayList;

import java.util.HashSet;

import cn.lulei.db.neihan8.Neihan8DbOperation;

import cn.lulei.model.Neihan8;

import cn.lulei.util.ParseUtil;

import cn.lulei.util.ThreadUtil;

public class Neihan8Crawl {

//内涵吧更新列表页url格式

private static String listPageUrl = "http://www.neihan8.com/article/list_5_%pno%.html";

//两次访问页面事件间隔,单位ms

private static int sleepTime = 500;

/**

* @param start 起始页

* @param end 终止页

* @throws IOException

* @Date: 2014-2-13

* @Author: lulei

* @Description: 抓取更新列表页上的内容

*/

public void crawlMain(int start, int end) throws IOException{

start = start < 1 ? 1 : start;

Neihan8DbOperation neihan8DbOperation = new Neihan8DbOperation();

for ( ; start

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线