优化的解决方案:02.分布式日志采集ELK+Kafka

优采云发布时间: 2022-09-30 04:11

　　课程名称：

　　1.传统日记有什么缺点采集

　　2.elk+kafka log采集的原理

　　3.基于docker compose安装elk+kafka环境

　　4.基于AOP+并发队列实现日志采集

　　20:25准时开始

　　分布式日志采集生成背景

　　在传统的项目中，如果生产环境中有多个不同的服务器集群，如果生产环境需要通过日志定位项目的Bug，就需要在每个节点上使用传统的命令查询，效率非常低。

　　因此，我们需要一个集中管理日志，ELK应运而生。

　　传统服务器搜索日志命令：tail -200f 日志文件名

　　ELK+Kafka组合

　　Elk E= ElasticSeach（存储日志信息）

　　l Logstash（搬运工）

　　K Kibana 连接到我们的 ElasticSeach GUI 以查询日志

　　Elk+kafka 实现分布式日志采集

　　为什么需要将日志存储在 ElasticSeach 而不是 MySQL？

　　ElasticSeach 底层使用倒排索引来存储数据，在搜索日志方面比 mysql 效率更高。

　　elk+kafka原理

　　. springboot项目会基于aop拦截系统中的日志

　　请求和响应日志消息 - 预先或环绕通知；

全自动文章采集、AI生成、自动发布，网站自媒体全搞定！立即注册

优化的解决方案:02.分布式日志采集ELK+Kafka

优采云发布时间: 2022-09-30 04:11

　　优化的解决方案:02.分布式日志采集ELK+Kafka

　　课程名称：

　　1.传统日记有什么缺点采集

　　2.elk+kafka log采集的原理

　　3.基于docker compose安装elk+kafka环境

　　4.基于AOP+并发队列实现日志采集

　　20:25准时开始

　　分布式日志采集生成背景

　　在传统的项目中，如果生产环境中有多个不同的服务器集群，如果生产环境需要通过日志定位项目的Bug，就需要在每个节点上使用传统的命令查询，效率非常低。

　　因此，我们需要一个集中管理日志，ELK应运而生。

　　传统服务器搜索日志命令：tail -200f 日志文件名

　　ELK+Kafka组合

　　Elk E= ElasticSeach（存储日志信息）

　　l Logstash（搬运工）

　　K Kibana 连接到我们的 ElasticSeach GUI 以查询日志

　　Elk+kafka 实现分布式日志采集

　　为什么需要将日志存储在 ElasticSeach 而不是 MySQL？

　　ElasticSeach 底层使用倒排索引来存储数据，在搜索日志方面比 mysql 效率更高。

　　elk+kafka原理

　　\1. springboot项目会基于aop拦截系统中的日志

　　请求和响应日志消息 - 预先或环绕通知；

　　\2. 将日志传送到我们的 kafka。请注意，该过程必须采用异步形式。如果是同步形式，会影响整体

　　接口的响应速度。

　　\3. Logstash数据源——kafka订阅kafka的topic获取日志消息内容

　　\4. Logstash 将日志消息内容存储在 es 中

　　5.开发者使用 Kibana 连接 ElasticSeach 查询存储日志内容。

　　为什么ELK需要和Kafka结合

　　如果只集成elk而没有kafka，每个服务器节点都会安装Logstash进行读写日志IO操作，可能性能不太好，是多余的。

　　ELK+Kafka 环境搭建 docker compose build ELK+Kafka 环境

　　整个环境使用docker compose搭建

　　注：环境cpu多核内存4GB以上

　　kafka环境的安装：

　　1.使用 docker compose 安装 kafka

　　如果你对 docker compose 不熟悉，可以查看：#

　　docker compose 安装包

　　Docker相关学习文档：

　　\2. 码头工人撰写文件

　　\3. mkdir dockerkakfa

　　4.cd dockerkakfa

　　5.创建 docker-compose.yml

　　version: '2'

services:

zookeeper:

image: wurstmeister/zookeeper

ports:

- "2181:2181"

restart: always

kafka:

image: wurstmeister/kafka:2.12-2.3.0

ports:

- "9092:9092"

environment:

- KAFKA_ZOOKEEPER_CONNECT=zookeeper:2181

- KAFKA_ADVERTISED_LISTENERS=PLAINTEXT://192.168.75.129:9092

- KAFKA_LISTENERS=PLAINTEXT://:9092

volumes:

- /var/run/docker.sock:/var/run/docker.sock

restart: always

kafka-manager:

image: sheepkiller/kafka-manager ## 镜像：开源的web管理kafka集群的界面

environment:

ZK_HOSTS: 192.168.75.129 ## 修改:宿主机IP

ports:

- "9001:9000" ## 暴露端口

elasticsearch:

image: daocloud.io/library/elasticsearch:6.5.4

restart: always

container_name: elasticsearch

environment:

- "ES_JAVA_OPTS=-Xms512m -Xmx512m"

ports:

- 9200:9200

kibana:

image: daocloud.io/library/kibana:6.5.4

restart: always

container_name: kibana

ports:

- 5601:5601

environment:

- elasticsearch_url=http://192.168.75.129:9200

depends_on:

- elasticsearch

　　docker运行动物园管理员容器

　　docker运行kafka容器

　　docker 运行 kafka 容器 ElasticSeach

　　docker 运行 Kibana 容器

　　docker 运行 Logstash 容器

　　使用容器编排技术

　　6.关闭防火墙

　　systemctl 停止防火墙

　　服务 iptables 停止

　　7.docker-compose up 可以执行。

　　没有这个命令需要先安装docker-compose

　　注：elk+kafka环境搭建过程中，需要大量依赖镜像。

　　如果es启动报错：Unable to start 大多数原因是内存不足

　　建议虚拟机内存4G以上

　　es 启动错误: max virtual memory area vm.max_count(65530) is too

　　解决步骤：

　　1.先切换到root用户；

　　2.执行命令：

　　sysctl -w vm.max_map_count=262144

　　结果可以查看：

　　sysctl -a|grep vm.max_map_count

　　将显示以下信息：

　　vm.max_map_count = 262144

　　注意：

　　上面的方法修改后，如果重启虚拟机就失效了，所以：

　　一劳永逸的解决方案：

　　在 /etc/sysctl.conf 文件末尾添加一行代码：

　　vm.max_map_count=262144

　　被永久修改。

　　验证elk+kafka环境

　　码头工人ps

　　访问：zk 192.168.75.143:2181

　　访问：es:9200/

　　访问：kibana

　　安装logstash

　　上传logstash-6.4.3.tar.gz到服务中

tar zxvf logstash-6.4.3.tar.gz

cd logstash-6.4.3

bin/logstash-plugin install logstash-input-kafka

bin/logstash-plugin install logstash-output-elasticsearch

　　注意：安装

　　bin/logstash-plugin 安装 logstash-input-kafka

　　bin/logstash-plugin 安装 logstash-output-elasticsearch

　　本地计算机需要有JDK环境。如果没有JDK环境直接安装logstash-input-kafka或者logstash-output-elasticsearch会报错

　　在 logstash 配置目录中创建 kafka.conf

　　input {

kafka {

bootstrap_servers => "192.168.75.143:9092"

topics => "mayikt-log"

}

filter {

#Only matched data are send to output.

}

output {

elasticsearch {

action => "index" #The operation on ES

hosts => "192.168.75.143:9200" #ElasticSearch host, can be array.

index => "my_logs" #The index to write data to.

}

　　进入logstash bin目录，执行./logstash -f …/config/kafka.conf

　　springboot项目集成elk+kafka maven依赖

org.springframework.boot

spring-boot-starter-web

com.fasterxml.jackson.core

jackson-databind

org.projectlombok

lombok

provided

com.alibaba

fastjson

1.2.66

org.springframework.kafka

spring-kafka

org.springframework.boot

spring-boot-starter-aop

commons-lang

2.6

　　aop 拦截系统日志

　　import java.net.InetAddress;

import java.net.UnknownHostException;

import java.text.SimpleDateFormat;

import java.util.Arrays;

import java.util.Date;

import javax.servlet.http.HttpServletRequest;

import com.alibaba.fastjson.JSONObject;

import com.mayikt.container.LogContainer;

import org.aspectj.lang.JoinPoint;

import org.aspectj.lang.annotation.*;

import org.springframework.beans.factory.annotation.Autowired;

import org.springframework.beans.factory.annotation.Value;

import org.springframework.stereotype.Component;

import org.springframework.util.concurrent.ListenableFuture;

import org.springframework.web.context.request.RequestContextHolder;

import org.springframework.web.context.request.ServletRequestAttributes;

@Aspect

@Component

public class AopLogAspect {

@Value("${server.port}")

private String serverPort;

// 申明一个切点里面是 execution表达式

@Pointcut("execution(* com.mayikt.api.service.*.*(..))")

private void serviceAspect() {

}

//

@Autowired

private LogContainer logContainer;

//

// 请求method前打印内容

@Before(value = "serviceAspect()")

public void methodBefore(JoinPoint joinPoint) {

ServletRequestAttributes requestAttributes = (ServletRequestAttributes) RequestContextHolder

.getRequestAttributes();

HttpServletRequest request = requestAttributes.getRequest();

JSONObject jsonObject = new JSONObject();

SimpleDateFormat df = new SimpleDateFormat("yyyy-MM-dd HH:mm:ss");// 设置日期格式

jsonObject.put("request_time", df.format(new Date()));

jsonObject.put("request_url", request.getRequestURL().toString());

jsonObject.put("request_method", request.getMethod());

jsonObject.put("signature", joinPoint.getSignature());

jsonObject.put("request_args", Arrays.toString(joinPoint.getArgs()));

// IP地址信息

jsonObject.put("ip_addres", getIpAddr(request) + ":" + serverPort);

JSONObject requestJsonObject = new JSONObject();

requestJsonObject.put("request", jsonObject);

jsonObject.put("request_time", df.format(new Date()));

jsonObject.put("log_type", "info");

// 将日志信息投递到kafka中

String log = requestJsonObject.toJSONString();

// ListenableFuture send = kafkaTemplate.send("mayikt-log",ctx);

logContainer.addLog(log);

}

//

// // 在方法执行完结后打印返回内容

// @AfterReturning(returning = "o", pointcut = "serviceAspect()")

// public void methodAfterReturing(Object o) {

// ServletRequestAttributes requestAttributes = (ServletRequestAttributes) RequestContextHolder

// .getRequestAttributes();

// HttpServletRequest request = requestAttributes.getRequest();

// JSONObject respJSONObject = new JSONObject();

// JSONObject jsonObject = new JSONObject();

// SimpleDateFormat df = new SimpleDateFormat("yyyy-MM-dd HH:mm:ss");// 设置日期格式

// jsonObject.put("response_time", df.format(new Date()));

// jsonObject.put("response_content", JSONObject.toJSONString(o));

// // IP地址信息

// jsonObject.put("ip_addres", getIpAddr(request) + ":" + serverPort);

// jsonObject.put("log_type", "info");

// respJSONObject.put("response", jsonObject);

// // 将日志信息投递到kafka中

kafkaTemplate.send("mayikt-log",respJSONObject.toJSONString());

logContainer.put(respJSONObject.toJSONString());

// }

//

/**

* 异常通知

*

* @param point

*/

@AfterThrowing(pointcut = "serviceAspect()", throwing = "e")

public void serviceAspect(JoinPoint point, Exception e) {

ServletRequestAttributes requestAttributes = (ServletRequestAttributes) RequestContextHolder

.getRequestAttributes();

HttpServletRequest request = requestAttributes.getRequest();

JSONObject jsonObject = new JSONObject();

SimpleDateFormat df = new SimpleDateFormat("yyyy-MM-dd HH:mm:ss");// 设置日期格式

jsonObject.put("request_time", df.format(new Date()));

jsonObject.put("request_url", request.getRequestURL().toString());

jsonObject.put("request_method", request.getMethod());

jsonObject.put("signature", point.getSignature());

jsonObject.put("request_args", Arrays.toString(point.getArgs()));

jsonObject.put("error", e.toString());

// IP地址信息

jsonObject.put("ip_addres", getIpAddr(request) + ":" + serverPort);

jsonObject.put("log_type", "info");

JSONObject requestJsonObject = new JSONObject();

requestJsonObject.put("request", jsonObject);

// 将日志信息投递到kafka中

String log = requestJsonObject.toJSONString();

logContainer.addLog(log);

}

//

public static String getIpAddr(HttpServletRequest request) {

//X-Forwarded-For（XFF）是用来识别通过HTTP代理或负载均衡方式连接到Web服务器的客户端最原始的IP地址的HTTP请求头字段。

String ipAddress = request.getHeader("x-forwarded-for");

if (ipAddress == null || ipAddress.length() == 0 || "unknown".equalsIgnoreCase(ipAddress)) {

ipAddress = request.getHeader("Proxy-Client-IP");

}

if (ipAddress == null || ipAddress.length() == 0 || "unknown".equalsIgnoreCase(ipAddress)) {

ipAddress = request.getHeader("WL-Proxy-Client-IP");

}

if (ipAddress == null || ipAddress.length() == 0 || "unknown".equalsIgnoreCase(ipAddress)) {

ipAddress = request.getRemoteAddr();

if (ipAddress.equals("127.0.0.1") || ipAddress.equals("0:0:0:0:0:0:0:1")) {

//根据网卡取本机配置的IP

InetAddress inet = null;

try {

inet = InetAddress.getLocalHost();

} catch (UnknownHostException e) {

e.printStackTrace();

}

ipAddress = inet.getHostAddress();

}

//对于通过多个代理的情况，第一个IP为客户端真实IP,多个IP按照','分割

if (ipAddress != null && ipAddress.length() > 15) { //"***.***.***.***".length() = 15

if (ipAddress.indexOf(",") > 0) {

ipAddress = ipAddress.substring(0, ipAddress.indexOf(","));

}

return ipAddress;

}

　　配置文件内容

　　spring:

application:

###服务的名称

jackson:

date-format: yyyy-MM-dd HH:mm:ss

kafka:

bootstrap-servers: 192.168.75.143:9092 #指定kafka server的地址，集群配多个，中间，逗号隔开

producer:

key-serializer: org.apache.kafka.common.serialization.StringSerializer

value-serializer: org.apache.kafka.common.serialization.StringSerializer

consumer:

group-id: default_consumer_group #群组ID

enable-auto-commit: true

auto-commit-interval: 1000

key-deserializer: org.apache.kafka.common.serialization.StringDeserializer

value-deserializer: org.apache.kafka.common.serialization.StringDeserializer

server:

port: 9000

　　整套解决方案:中文网页自动采集与分类系统设计与实现

　　密级：保密期限：一锨譬工程硕士*敏*感*词*学位论文等垒号：Ｑ鱼Ｂ量兰墨２姓名：王迭这专业：筮鲑王程导师：程堡主学院：筮鲑堂院２０１０年６月本人声明成果。尽我所收录其他人已教育机构的学何贡献均已在申请学位本人签名本人完全校攻读学位期家有关部门或可以公布学位保存、汇编学本学位论本人签名导师签名中文网页自动采集与分类系统设计与实现摘要随着科学技术的飞速发展，我们已经进入了数字信息化时代。Ｉｎｔｅｒｎｅｔ作为当今世界上最大的信息库，也成为人们获取信息的最主要手段。由于网络上的信息资源有着海量、动态、异构、半结构化等特点，且缺乏统一的组织和管理，所以如何快速、准确地从海量的信息资源中寻找到自己所需的信息已经成为网络用户需要迫切解决的一大难题。因而基于ｗｅｂ的网络信息的采集与分类便成为人们研究的热点。传统的ｗｅｂ信息采集的目标就是尽可能多地采集信息页面，甚至是整个ｗｅｂ上的资源，在这一过程中它并不太在意采集的顺序和被采集页面的相关主题。这就使得所采集页面的内容过于杂乱，其中有相当大的一部分利用率很低，大大消耗了系统资源和网络资源。这就需要采用有效的采集方法以减少采集网页的杂乱、重复等情况的发生。

　　同时如何有效地对采集到的网页实现自动分类，以创建更为有效、快捷的搜索引擎也是非常必要的。网页分类是组织和管理信息的有效手段，它可以在较大程度上解决信息杂乱无章的现象，并方便用户准确地定位所需要的信息。传统的操作模式是对其人工分类后进行组织和管理。随着Ｉｎｔｅｒｎｅｔ上各种信息的迅猛增加，仅靠人工的方式来处理是不切实际的。因此，网页自动分类是一项具有较大实用价值的方法，也是组织和管理数据的有效手段。这也是本文研究的一个重要内容。本文首先介绍了课题背景、研究目的和*敏*感*词*的研究现状，阐述了网页采集和网页分类的相关理论、主要技术和算法，包括网页爬虫技术、网页去重技术、信息抽取技术、中文分词技术、特征提取技术、网页分类技术等。在综合比较了几种典型的算法之后，本文选取了主题爬虫的方法和分类方面表现出色的ＫＮＮ方法，同时结合去重、分词和特征提取等相关技术的配合，并对中文网页的结构和特点进行了分析后，提出中文网页采集和分类的设计与实现方法，最后通过程序设计语言来实现，在本文最后对系统进行了测试。测试结果达到了系统设计的要求，应用效果显著。

　　关键词：Ｗｅｂ信息采集网页分类信息抽取分词特征提取卜●、▲。＿ＤＥＳＩＧＮＡＮＤＩＭＰＬＥ Ⅳ匝Ｎ１：ＡＴＩＯＮＯＦＣＨＩＮＥＳＥｗＥＢＰＡＧＥＡＵＴ０～ＩＡＴＩＣＣＯＬＬＥＣＴＩＯＮＡＮＤＣＬＡＳＳＩＦＩＣＡＴＩＯＮＡＢＳＴＲＡＣＴＷｉｔｈｔｈｅｒａｐｉｄｄｅｖｅｌｏｐｍｅｎｔｏｆｓｃｉｅｎｃｅａｎｄｔｅｃｈｎｏｌｏｇｙ，ｗｅｈａｖｅｅｎｔｅｒｅｄｔｈｅｄｉｇｉｔａｌｉｎｆｏｒｍａｔｉｏｎａｇｅ．Ｉｎｔｅｍｅｔ，ｗｈｉｃｈｉＳｓｅｅｎａｓｔｈｅｗｏｒｌｄ ’ Ｓｌａｒｇｅｓｔｉｎｆｏｒｍａｔｉｏｎｄａｔａｂａｓｅ．ｂｅｃｏｍｅｓｔｈｅｍａｉｎｔ００１ｏｆｏｂｔａｉｎｉｎｇｉｎｆｏｒｍａｔｉｏｎ．ＩｔｉＳａｍａｊｏｒｐｒｏｂｌｅｍｔｏｂｅｓｏｌｖｅｄｕｒｇｅｎｔｌｙｈｏｗｔｏｑｕｉｃｋｌｙａｎｄａｃｃｕｒａｔｅｌｙｆｒｏｍｔｈｅｍａｓｓｏｆｉｎｆｏｒｍａｔｉｏｎｒｅｓｏｕｒｃｅｓｔｏｆｉｎｄｔｈｅｉｎｆｏｒｍａｔｉｏｎｔｈａｔｕｓｅｒｓｎｅｅｄｂｅｃａｕｓｅｔｈｅｎｅｔｗｏｒｋｏｆｉｎｆｏｒｍａｔｉｏｎｒｅｓｏｕｒｃｅｓｈａｓａｍａｓｓｉｖｅ，ｄｙｎａｍｉｃ，ｈｅｔｅｒｏｇｅｎｅｏｕｓ，ｓｅｍｉ—ｓｔｒｕｃｔｕｒｅｄｃｈａｒａｃｔｅｒｉｓｔｉｃｓ，ａｎｄｔｈｅｌａｃｋｏｆａｕｎｉｆｉｅｄｏｒｇａｎｉｚａｔｉｏｎａｎｄｍａｎａｇｅｍｅｎｔｐｒｅｓｅｎｔｓ．Ｊ朊６ｉｎｆｏｒｍａｔｉｏｎ－ｂａｓｅｄｃｏｌｌｅｃｔｉｏｎａｎｄｃｌａｓｓｉｆｉｃａｔｉｏｎｂｅｃｏｍｅｓｔｈｅｒｅｓｅａｒｃｈｈｏｔｓｐｏｔ．ＴｈｅｇｏａｌｏｆｔｒａｄｉｔｉｏｎａｌＷ曲ｉｎｆｏｒｍａｔｉｏｎｃｏｌｌｅｃｔｉｏｎｉｓｔｏｇａｔｈｅｒｉｎｆｏｒｍａｔｉｏｎａｓｍｕｃｈａｓｐｏｓｓｉｂｌｅ，ｏｒｅｖｅｎｔｈｅｗｈｏｌｅｒｅｓｏｕｒｃｅｓｏｎｔｈｅ∥ 如功ｅｏｒｄｅｒａｎｄｔｏｐｉｃｐａｇｅｓａｒｅｎｏｔｃａｒｅｄａｂｏｕｔｉｎｔｈｅｐｒｏｃｅｓｓｏｆｃｏｌｌｅｃｔｉｎｇ．ｔｈｅｐａｇｅｃｏｎｔｅｎｔｓｉＳｔｏｏｃｌｕｔｔｅｒｅｄ，ａｎｄａｌａｒｇｅｐａｒｔｏｆｔｈｅｍｉｓｓｐａｒｉｎｇｌｙｕｓｅｄＳＯｔｈａｔｓｙｓｔｅｍｒｅｓｏｕｒｃｅｓａｎｄｎｅｔｗｏｒｋｒｅｓｏｕｒｃｅｓａｒｅｗａｓｔｅｄ．ＴＩｌｉＳｒｅｑｕｉｒｅｓｅｆｆｅｃｔｉｖｅｃｏｌｌｅｃｔｉｏｎｍｅｔｈｏｄｕｓｅｄｔｏｒｅｄｕｃｅｔｈｅｃｏｌｌｅｃｔｅｄｐａｇｅｃｌｕｔｔｅｒａｎｄｄｕｐｌｉｃａｔｉｏｎ．Ｔｈｅｗｅｂｐａｇｅｓａｒｅａｕｔｏｍａｔｉｃａｌｙｃｌａｓｓｉｆｉｃａｔｅｄｔｏｃｒｅａｔｅｅｆｆｅｃｔｉｖｅａｎｄｅ伍ｃｉｅｎｔｓｅａｒｃｈｅｎｇｉｎｅ．ＯｒｇａｎｉｚａｔｉｏｎａｎｄｍａｎａｇｅｍｅｎｔｏｆｗｅｂｐａｇｅｃｌａｓｓｉｆｉｃａｔｉｏｎｉＳａｎｅｆｆｅｃｔｉｖｅｍｅａｌｌＳｏｆｉｎｆｏｒｍａｔｉｏｎ，ｗｈｉｃｈＣａｎｓｏｌｖｅａｌａｒｇｅｅｘｔｅｎｔｔｈｅｐｈｅｎｏｍｅｎｏｎｏｆｉｎｆｏｒｍａｔｉｏｎｃｌｕｔｔｅｒａｎｄｆａｃｉｌｉｔａｔｅｕｓｅｒｓｔｏａｃｃｕｒａｔｅｌｙｌｏｃａｔｅｔｈｅｉｎｆｏｒｍａｔｉｏｎｔｈｅｙｎｅｅｄ．Ｈｏｗｅｖｅｒ，ｔｈｅｔｒａｄｉｔｉｏｎａｌｍｏｄｅｏｆｏｐｅｒａｔｉｏｎｉＳｍａｎｕａｌ．ＷｉｔｈｔｈｅｒａｐｉｄｉｎｃｒｅａｓｉｎｇｏｆａｌｌｋｉｎｄｓｏｆｉｎｆｏｒｎｌａｔｉｏｎｉｎｔｈｅＩｎｔｅｍｅｔ，ｍａｎｕａｌｗａｙｔｏｈａｎｄｌｅａｌｏｎｅｉＳｕｎｒｅａｌｉｓｔｉｃ．Ｔｈｅｒｅｆｏｒｅ．Ｗｅｂｃｌａｓｓｉｆｉｃａｔｉｏｎｉｓｎｏｔａｍｅｔｈｏｄｗｉｔｈｇｒｅａｔｐｒａｃｔｉｃａｌｖａｌｕｅ，ｂｕｔａｌｓｏｉｓａｎｅｆｆｅｃｔｉｖｅｍｅａｎｓｏｆｏｒｇａｎｉｚｉｎｇａｎｄｍａｎａｇｉｎｇｄａｔａ．Ｔｔｉｓａｎｉｍｐｏｒｔａｎｔｒｅｓｅａｒｃｈｐａｒｔｏｆｔｈｉｓｐａｐｅｒ．Ｆｉｒｓｔｌｙ，ｔｈｅｔｏｐｉｃｂａｃｋｇｒｏｕｎｄ，ｐｕｒｐｏｓｅａｎｄｒｅｓｅａｒｃｈｓｔａｔｕｓａｒｅｉｎｔｒｏｄｕｃｅｄ，ａｎｄｔｈｅｔｈｅｏｒｉｅｓ，ｔｅｃｈｎｉｑｕｅｓａｎｄａｌｇｏｒｉｔｈｍｓｏｆｗｅｂｐａｇｅｃｏｌｌｅｃｔｉｏｎａｎｄｃｌａｓｓｉｆｉｃａｔｉｏｎａｒｅｄｅｓｃｒｉｂｅｄ，ｗｈｉｃｈｉｎｃｌｕｄｓｗｅｂｃｒａｗｌｅｒｔｅｃｈｎｏｌｏｇｙ，ｄｕｐｌｉｃａｔｅｄｗｅｂｐａｇｅｓｄｅｌｅｔｃｉｏｎｔｅｃｈｎｏｌｏｇｙ，ｉｎｆｏｒｍａｔｉｏｎｅｘｔｒａｃｔｉｏｎｔｅｃｈｎｏｌｏｇｙ，Ｃｈｉｎｅｓｅｗｏｒｄｓｅｇｍｅｎｔａｔｉｏｎ，ｆｅａｔｕｒｅｅｘｔｒａｃｔｉｏｎｔｅｃｈｎｉｑｕｅｓａｎｄｗｅｂｐａｇｅｃｌａｓｓｉｆｉｃａｔｉｏｎｔｅｃｈｎｏｌｏｇｙ．Ａｃｏｍｐｒｅｈｅｎｓｉｖｅｃｏｍｐａｒｉｓｏｎｏｆｓｅｖｅｒａｌｔｙｐｉｃａｌａｌｇｏｒｉｔｈｍｓｃｌａｓｓｉｆｉｃａｔｉｏｎｉｓｓｅｌｅｃｔｅｄｂｅｃａｕｓｅｔｈｅｙｈａｖｅｏｕｔｓｔａｎｄｉｎｇｐｅｒｆｏｒｍａｎｃｅ．１１１ｅｐｒｏｐｏｓｅｄａｃｑｕｉｓｉｔｉｏｎａｎｄｃｌａｓｓｉｆｉｃａｔｉｏｎｏｆＣｈｉｎｅｓｅｗｅｂａｒｅｄｅｓｉｇｎｅｄａｎｄｉｍｐｌｅｍｅｎｔａｔｅｄａｆｔｅｒｔｈｅｓｅｔｅｃｈｎｏｌｏｇｉｅｓａｒｅｃｏｍｂｉｎｅｄａｎｄｔｈｅｓｔｒｕｃｔｕｒｅａｎｄｃｈａｒａｃｔｅｒｉｓｔｉｃｓｏｆＣｈｉｎｅｓｅｌａｎｇｕａｇｅｗｅｂｐａｇｅａｒｅａｎａｌｙｚｅｄ．Ｆｉｎａｌｌｙ，ｉｔｉｓｃｏｄｅｄａｎｄｒｅａｌｉｚｅｄｂｙｔｈｅｐｒｏｇｒａｍｍｉｎｇｌａｎｇｕａｇｅ．Ｔｅｓｔｒｅｓｕｌｔｓｔｈａｔｔｈｅｓｙｓｔｅｍｍｅｔｔｈｅｄｅｓｉｇｎｒｅｑｕｉｒｅｍｅｎｔｓ，ａｎｄａｐｐｌｉｃａｔｉｏｎａｒｅｄｏｎｅｉｎｍａｎｙｆｅｉｌｄｓ．ｉＳｍａｄｅ，ｔｏｐｉｃａｌｃｒａｗｌｅｒａｎｄＫＮＮＫｅｙｗｏｒｄｓ：ｗｅｂｉｎｆｏｒｍａｔｉｏｎｃｏｌｌｅｃｔｉｏｎ，ｗｅｂｐａｇｅｃｌａｓｓｉｆｉｃａｔｉｏｎ，ｉｎｆｏｒｍａｔｉｏｎｅｘｔｒａｃｔｉｏｎ，ｓｅｇｍｅｎｔａｔｉｏｎ，ｃｈａｒａｃｔｅｒｅｘｔｒａｃｔｉｏｎ目录第一章引言……………………………………………………………………………．．． ……………１１．１课题背景及研究现状…………………………………………………………．１１．１．１课题的背景及研究目的…………………………………………………．．１１．１．２课题的*敏*感*词*研究现状……………………………………………………２１．２课题任务………………………………………………………………………．４１．３论文结构………………………………………………………………………．４第二章网页采集与分类相关技术介绍……………………………………………………６２．１网页爬虫技术…………………………………………………………………．６２．１．１通用网络爬虫………………………………………………………………６２．１．２聚焦网络爬虫……………………………………………………………。

　　８２．１．３深度网络爬虫……………………………………………………………ｌＯ２．２中文网页信息抽取技术………………………………………………………．１１２．２．１中文网页特点分析………………………………………………………．１１２．２．２信息抽取关键技术………………………………………………………１２２．２．３信息抽取评价标准………………………………………………………．１３２．３网页去重技术…………………………………………………………………１３２．４中文文本分词技术……………………………………………………………．１５２．４．１中文分词概述……………………………………………………………ｌ５２．４．２中文分词方法……………………………………………………………。１６２．５特征提取技术…………………………………………………………………１９２．５．１特征提取概述……………………………………………………………．１９２．５．２特征提取方法……………………………………………………………２０２．６网页分类技术概述……………………………………………………………２２２．７本章小结………………………………………………………………………２２第三章网页采集与分类系统设计……………………………………………………………．２３３．１系统需求分析…………………………………………………………………２３３．２系统概要设计…………………………………………………………………２４３．２．１系统总体框架设计………………………………………………………２４３．２．２采集系统结构设计………………………………………………………２４３．２．３分类系统结构设计………………………………………………………２５３．３系统功能模块设计……………………………………………………………２６３．３．１系统总体模块设计………………………………………………………２６３．３．２模块功能介绍……………………………………………………………２７３．４系统流程设计…………………………………………………………………２８３．４．１采集系统流程设计设计…………………………………………………２８３．４．２分类系统流程设计………………………………………………………２９３．５系统逻辑设计…………………………………………………………………３０３．５．１采集系统类图……………………………………………………………．．３０３．５．２分类系统类图……………………………………………………………３１３．５．３分类处理时序图…………………………………………………………３１３．５系统数据库设计………………………………………………………………３．６本章小结………………………………………………………………………第四章网页采集与分类系统实现……………………………………………………………．４．１页面采集模块实现……………………………………………………………４．２网页信息抽取模块实现………………………………………………………４．３网页去重模块实现……………………………………………………………．４．４中文分词模块实现……………………………………………………………４．５特征向量提取模块实现………………………………………………………４．６训练语料库模块实现…………………………………………………………４７４．７分类模块实现…………………………………………………………………４８４．７．１几种典型的分类算法……………………………………………………．４８４．７．２ＫＮＮ算法实现分类模块…………………………………………………．５０４．８系统开发环境配置……………………………………………………………．５２４．９本章小结………………………………………………………………………５２第五章网页采集与分类系统测试………………厶ｏｏｏｏｏｏｏｏｏｏｏｏｏｏｏｏｏｏｏｏｏｏｏｏｏｏｏｏｏｏｏｏｏｏｏｏｏｏｏｏｏｏｏｏｏｏｏｏｏｏｏ５３５．１系统运行界面…………………………………………………………………５３５．２实验评测标准…………………………………………………………………５６５．３实验结果分析…………………………………………………………………５７５．４本章小结………………………………………………………………………５９第六章结束语………………………………………………………………………………６０６．１论文工作总结…………………………………………………………………６０６．２问题和展望……………………………………………………………………６０参考文献………………………………………………………………………………………。

　　６１鸳Ｉ［谢…………………………………………………．． ……………………………………………………。６３北京邮电大学软件工程硕上论文１．１课题背景及研究现状第一章引言１．１．１课题的背景及研究目的随着互联网的普及和网络技术的飞速发展，网络上的信息资源呈指数级增长，我们已经进入了信息化时代。信息技术渗透到社会生活的方方面面，人们可以从互联网上获得越来越多的包括文本、数字、图形、图像、声音、视频等信息。然而，随着ｗｅｂ信息的急速膨胀，如何快速、准确地从浩瀚的信息资源中找到自己所需的信息却成为广大网络用户的一大难题。因而基于互联网上的信息采集和分类日益成为人们关注的焦点。．为了解决信息检索的难题，人们先后开发了如Ａｒｃｈｉｖｅ、Ｇｏｏｇｌｅ、Ｙａｈｏｏ等搜索引擎。这些搜索引擎通常使用一个或多个采集器从Ｉｎｔｅｍｅｔ（如ＷＷＷ、ＦＴＰ、Ｅｍａｉｌ、Ｎｅｗｓ）上采集各种数据，然后在本地服务器上为这些数据建立索引，当用户检索时根据用户提交的检索条件从索引库中迅速查找到所需的信息。Ｗｅｂ信息采集作为这些搜索引擎的基础和组成部分，发挥着举足轻重的作用。

　　ｗｅｂ信息采集是指通过Ｗｅｂ页面之间的链接关系，从Ｗｅｂ上自动地获取页面信息，并且随着链接不断的向所需要的ｗｅｂ页面扩展的过程。传统的Ｗ曲信息采集的目标就是尽可能多地采集信息页面，甚至是整个ｗｅｂ上的资源，在这一过程中它并不太在意采集的顺序和被采集页面的相关主题。这样做的一个极大好处是能够集中精力在采集的速度和数量上，并且实现起来也相对简单。但是，这种传统的采集方法存在着很多缺陷。因为基于整个Ｗｅｂ的信息采集需要采集的页面数量十分浩大，这需要消耗非常大的系统资源和网络资源，但是它们中有相当大的一部分利用率很低。用户往往只关心其中极少量的页面，而采集器采集的大部分页面对于他们来说是没有用的。这显然是对系统资源和网络资源的一个巨大浪费。随着ｗｅｂ网页数量的迅猛增长，即使是采用了定题采集技术来构建定题搜索引擎，同一主题的网页数量仍然是海量的。那么如何有效地对网页实现自动分类，以创建更为有效、快捷的搜索引擎是非常必要的。传统的操作模式是对其人工分类后进行组织和管理。这种分类方法分类比较准确，分类质量也较高。随着Ｉｎｔｅｒｎｅｔ上各种信息的迅速增加，仅靠人工的方式来处理是不切实际的。

　　对网页进行分类可以在很大程度上解决网页上信息杂乱的现象，并方便用户准确地定位所需要的信息，因此，网页自动分类是一项具有较大实用价值的方法，也是组织和管理数据的有效手段。这也是本文研究的一个重要内容。北京邮电大学软件工程硕士论文１．１．２课题的*敏*感*词*研究现状●网页采集技术发展现状网络正在不断地改变着我们的生活，Ｉｎｔｅｍｅｔ已经成为当今世晃上最大的信息资源库，如何快速、准确地从浩瀚的信息资源库中寻找到所需的信息已经成为网络用户的一大难题。无论是一些通用搜索引擎（如谷歌、百度等），或是一些特定主题的专用网页采集系统，都离不开网页采集，因而基于Ｗｅｂ的网页信息采集和*敏*感*词*ＩＧｏｏｇｌｅ、Ｙａｈｏｏ等各种搜索引擎。这些搜索引擎通常是通过一个或多个采集器从Ｉｎｔｅｒｎｅｔ上采集各种数据，然后在本地服务器上为这些数据建立索引，当用户检索时根据用户提交的检索条件从建立的索引库中迅速查找到所需信息。传统的采集方法存在着很多缺陷。首先，随着网页信息的爆炸式增长，信息采集的速度越来越不能满足实际应用的需要。即使大型的信息...

0

2022-09-30

内容采集系统

0 个评论

要回复文章请先登录或注册

视
频
教
程

在
线
客
服

官方客服QQ群

在
线
客
服

. 将日志传送到我们的 kafka。请注意，该过程必须采用异步形式。如果是同步形式，会影响整体

　　接口的响应速度。

　　. Logstash数据源——kafka订阅kafka的topic获取日志消息内容

　　. Logstash 将日志消息内容存储在 es 中

　　5.开发者使用 Kibana 连接 ElasticSeach 查询存储日志内容。

　　为什么ELK需要和Kafka结合

　　如果只集成elk而没有kafka，每个服务器节点都会安装Logstash进行读写日志IO操作，可能性能不太好，是多余的。

　　ELK+Kafka 环境搭建 docker compose build ELK+Kafka 环境

　　整个环境使用docker compose搭建

　　注：环境cpu多核内存4GB以上

　　kafka环境的安装：

　　1.使用 docker compose 安装 kafka

　　如果你对 docker compose 不熟悉，可以查看：#

　　docker compose 安装包

　　Docker相关学习文档：

全自动文章采集、AI生成、自动发布，网站自媒体全搞定！立即注册

优化的解决方案:02.分布式日志采集ELK+Kafka

优采云发布时间: 2022-09-30 04:11

　　优化的解决方案:02.分布式日志采集ELK+Kafka

　　课程名称：

　　1.传统日记有什么缺点采集

　　2.elk+kafka log采集的原理

　　3.基于docker compose安装elk+kafka环境

　　4.基于AOP+并发队列实现日志采集

　　20:25准时开始

　　分布式日志采集生成背景

　　在传统的项目中，如果生产环境中有多个不同的服务器集群，如果生产环境需要通过日志定位项目的Bug，就需要在每个节点上使用传统的命令查询，效率非常低。

　　因此，我们需要一个集中管理日志，ELK应运而生。

　　传统服务器搜索日志命令：tail -200f 日志文件名

　　ELK+Kafka组合

　　Elk E= ElasticSeach（存储日志信息）

　　l Logstash（搬运工）

　　K Kibana 连接到我们的 ElasticSeach GUI 以查询日志

　　Elk+kafka 实现分布式日志采集

　　为什么需要将日志存储在 ElasticSeach 而不是 MySQL？

　　ElasticSeach 底层使用倒排索引来存储数据，在搜索日志方面比 mysql 效率更高。

　　elk+kafka原理

　　\1. springboot项目会基于aop拦截系统中的日志

　　请求和响应日志消息 - 预先或环绕通知；

　　\2. 将日志传送到我们的 kafka。请注意，该过程必须采用异步形式。如果是同步形式，会影响整体

　　接口的响应速度。

　　\3. Logstash数据源——kafka订阅kafka的topic获取日志消息内容

　　\4. Logstash 将日志消息内容存储在 es 中

　　5.开发者使用 Kibana 连接 ElasticSeach 查询存储日志内容。

　　为什么ELK需要和Kafka结合

　　如果只集成elk而没有kafka，每个服务器节点都会安装Logstash进行读写日志IO操作，可能性能不太好，是多余的。

　　ELK+Kafka 环境搭建 docker compose build ELK+Kafka 环境

　　整个环境使用docker compose搭建

　　注：环境cpu多核内存4GB以上

　　kafka环境的安装：

　　1.使用 docker compose 安装 kafka

　　如果你对 docker compose 不熟悉，可以查看：#

　　docker compose 安装包

　　Docker相关学习文档：

　　\2. 码头工人撰写文件

　　\3. mkdir dockerkakfa

　　4.cd dockerkakfa

　　5.创建 docker-compose.yml

　　version: '2'

services:

zookeeper:

image: wurstmeister/zookeeper

ports:

- "2181:2181"

restart: always

kafka:

image: wurstmeister/kafka:2.12-2.3.0

ports:

- "9092:9092"

environment:

- KAFKA_ZOOKEEPER_CONNECT=zookeeper:2181

- KAFKA_ADVERTISED_LISTENERS=PLAINTEXT://192.168.75.129:9092

- KAFKA_LISTENERS=PLAINTEXT://:9092

volumes:

- /var/run/docker.sock:/var/run/docker.sock

restart: always

kafka-manager:

image: sheepkiller/kafka-manager ## 镜像：开源的web管理kafka集群的界面

environment:

ZK_HOSTS: 192.168.75.129 ## 修改:宿主机IP

ports:

- "9001:9000" ## 暴露端口

elasticsearch:

image: daocloud.io/library/elasticsearch:6.5.4

restart: always

container_name: elasticsearch

environment:

- "ES_JAVA_OPTS=-Xms512m -Xmx512m"

ports:

- 9200:9200

kibana:

image: daocloud.io/library/kibana:6.5.4

restart: always

container_name: kibana

ports:

- 5601:5601

environment:

- elasticsearch_url=http://192.168.75.129:9200

depends_on:

- elasticsearch

　　docker运行动物园管理员容器

　　docker运行kafka容器

　　docker 运行 kafka 容器 ElasticSeach

　　docker 运行 Kibana 容器

　　docker 运行 Logstash 容器

　　使用容器编排技术

　　6.关闭防火墙

　　systemctl 停止防火墙

　　服务 iptables 停止

　　7.docker-compose up 可以执行。

　　没有这个命令需要先安装docker-compose

　　注：elk+kafka环境搭建过程中，需要大量依赖镜像。

　　如果es启动报错：Unable to start 大多数原因是内存不足

　　建议虚拟机内存4G以上

　　es 启动错误: max virtual memory area vm.max_count(65530) is too

　　解决步骤：

　　1.先切换到root用户；

　　2.执行命令：

　　sysctl -w vm.max_map_count=262144

　　结果可以查看：

　　sysctl -a|grep vm.max_map_count

　　将显示以下信息：

　　vm.max_map_count = 262144

　　注意：

　　上面的方法修改后，如果重启虚拟机就失效了，所以：

　　一劳永逸的解决方案：

　　在 /etc/sysctl.conf 文件末尾添加一行代码：

　　vm.max_map_count=262144

　　被永久修改。

　　验证elk+kafka环境

　　码头工人ps

　　访问：zk 192.168.75.143:2181

　　访问：es:9200/

　　访问：kibana

　　安装logstash

　　上传logstash-6.4.3.tar.gz到服务中

tar zxvf logstash-6.4.3.tar.gz

cd logstash-6.4.3

bin/logstash-plugin install logstash-input-kafka

bin/logstash-plugin install logstash-output-elasticsearch

　　注意：安装

　　bin/logstash-plugin 安装 logstash-input-kafka

　　bin/logstash-plugin 安装 logstash-output-elasticsearch

　　本地计算机需要有JDK环境。如果没有JDK环境直接安装logstash-input-kafka或者logstash-output-elasticsearch会报错

　　在 logstash 配置目录中创建 kafka.conf

　　input {

kafka {

bootstrap_servers => "192.168.75.143:9092"

topics => "mayikt-log"

}

filter {

#Only matched data are send to output.

}

output {

elasticsearch {

action => "index" #The operation on ES

hosts => "192.168.75.143:9200" #ElasticSearch host, can be array.

index => "my_logs" #The index to write data to.

}

　　进入logstash bin目录，执行./logstash -f …/config/kafka.conf

　　springboot项目集成elk+kafka maven依赖

org.springframework.boot

spring-boot-starter-web

com.fasterxml.jackson.core

jackson-databind

org.projectlombok

lombok

provided

com.alibaba

fastjson

1.2.66

org.springframework.kafka

spring-kafka

org.springframework.boot

spring-boot-starter-aop

commons-lang

2.6

　　aop 拦截系统日志

　　import java.net.InetAddress;

import java.net.UnknownHostException;

import java.text.SimpleDateFormat;

import java.util.Arrays;

import java.util.Date;

import javax.servlet.http.HttpServletRequest;

import com.alibaba.fastjson.JSONObject;

import com.mayikt.container.LogContainer;

import org.aspectj.lang.JoinPoint;

import org.aspectj.lang.annotation.*;

import org.springframework.beans.factory.annotation.Autowired;

import org.springframework.beans.factory.annotation.Value;

import org.springframework.stereotype.Component;

import org.springframework.util.concurrent.ListenableFuture;

import org.springframework.web.context.request.RequestContextHolder;

import org.springframework.web.context.request.ServletRequestAttributes;

@Aspect

@Component

public class AopLogAspect {

@Value("${server.port}")

private String serverPort;

// 申明一个切点里面是 execution表达式

@Pointcut("execution(* com.mayikt.api.service.*.*(..))")

private void serviceAspect() {

}

//

@Autowired

private LogContainer logContainer;

//

// 请求method前打印内容

@Before(value = "serviceAspect()")

public void methodBefore(JoinPoint joinPoint) {

ServletRequestAttributes requestAttributes = (ServletRequestAttributes) RequestContextHolder

.getRequestAttributes();

HttpServletRequest request = requestAttributes.getRequest();

JSONObject jsonObject = new JSONObject();

SimpleDateFormat df = new SimpleDateFormat("yyyy-MM-dd HH:mm:ss");// 设置日期格式

jsonObject.put("request_time", df.format(new Date()));

jsonObject.put("request_url", request.getRequestURL().toString());

jsonObject.put("request_method", request.getMethod());

jsonObject.put("signature", joinPoint.getSignature());

jsonObject.put("request_args", Arrays.toString(joinPoint.getArgs()));

// IP地址信息

jsonObject.put("ip_addres", getIpAddr(request) + ":" + serverPort);

JSONObject requestJsonObject = new JSONObject();

requestJsonObject.put("request", jsonObject);

jsonObject.put("request_time", df.format(new Date()));

jsonObject.put("log_type", "info");

// 将日志信息投递到kafka中

String log = requestJsonObject.toJSONString();

// ListenableFuture send = kafkaTemplate.send("mayikt-log",ctx);

logContainer.addLog(log);

}

//

// // 在方法执行完结后打印返回内容

// @AfterReturning(returning = "o", pointcut = "serviceAspect()")

// public void methodAfterReturing(Object o) {

// ServletRequestAttributes requestAttributes = (ServletRequestAttributes) RequestContextHolder

// .getRequestAttributes();

// HttpServletRequest request = requestAttributes.getRequest();

// JSONObject respJSONObject = new JSONObject();

// JSONObject jsonObject = new JSONObject();

// SimpleDateFormat df = new SimpleDateFormat("yyyy-MM-dd HH:mm:ss");// 设置日期格式

// jsonObject.put("response_time", df.format(new Date()));

// jsonObject.put("response_content", JSONObject.toJSONString(o));

// // IP地址信息

// jsonObject.put("ip_addres", getIpAddr(request) + ":" + serverPort);

// jsonObject.put("log_type", "info");

// respJSONObject.put("response", jsonObject);

// // 将日志信息投递到kafka中

kafkaTemplate.send("mayikt-log",respJSONObject.toJSONString());

logContainer.put(respJSONObject.toJSONString());

// }

//

/**

* 异常通知

*

* @param point

*/

@AfterThrowing(pointcut = "serviceAspect()", throwing = "e")

public void serviceAspect(JoinPoint point, Exception e) {

ServletRequestAttributes requestAttributes = (ServletRequestAttributes) RequestContextHolder

.getRequestAttributes();

HttpServletRequest request = requestAttributes.getRequest();

JSONObject jsonObject = new JSONObject();

SimpleDateFormat df = new SimpleDateFormat("yyyy-MM-dd HH:mm:ss");// 设置日期格式

jsonObject.put("request_time", df.format(new Date()));

jsonObject.put("request_url", request.getRequestURL().toString());

jsonObject.put("request_method", request.getMethod());

jsonObject.put("signature", point.getSignature());

jsonObject.put("request_args", Arrays.toString(point.getArgs()));

jsonObject.put("error", e.toString());

// IP地址信息

jsonObject.put("ip_addres", getIpAddr(request) + ":" + serverPort);

jsonObject.put("log_type", "info");

JSONObject requestJsonObject = new JSONObject();

requestJsonObject.put("request", jsonObject);

// 将日志信息投递到kafka中

String log = requestJsonObject.toJSONString();

logContainer.addLog(log);

}

//

public static String getIpAddr(HttpServletRequest request) {

//X-Forwarded-For（XFF）是用来识别通过HTTP代理或负载均衡方式连接到Web服务器的客户端最原始的IP地址的HTTP请求头字段。

String ipAddress = request.getHeader("x-forwarded-for");

if (ipAddress == null || ipAddress.length() == 0 || "unknown".equalsIgnoreCase(ipAddress)) {

ipAddress = request.getHeader("Proxy-Client-IP");

}

if (ipAddress == null || ipAddress.length() == 0 || "unknown".equalsIgnoreCase(ipAddress)) {

ipAddress = request.getHeader("WL-Proxy-Client-IP");

}

if (ipAddress == null || ipAddress.length() == 0 || "unknown".equalsIgnoreCase(ipAddress)) {

ipAddress = request.getRemoteAddr();

if (ipAddress.equals("127.0.0.1") || ipAddress.equals("0:0:0:0:0:0:0:1")) {

//根据网卡取本机配置的IP

InetAddress inet = null;

try {

inet = InetAddress.getLocalHost();

} catch (UnknownHostException e) {

e.printStackTrace();

}

ipAddress = inet.getHostAddress();

}

//对于通过多个代理的情况，第一个IP为客户端真实IP,多个IP按照','分割

if (ipAddress != null && ipAddress.length() > 15) { //"***.***.***.***".length() = 15

if (ipAddress.indexOf(",") > 0) {

ipAddress = ipAddress.substring(0, ipAddress.indexOf(","));

}

return ipAddress;

}

　　配置文件内容

　　spring:

application:

###服务的名称

jackson:

date-format: yyyy-MM-dd HH:mm:ss

kafka:

bootstrap-servers: 192.168.75.143:9092 #指定kafka server的地址，集群配多个，中间，逗号隔开

producer:

key-serializer: org.apache.kafka.common.serialization.StringSerializer

value-serializer: org.apache.kafka.common.serialization.StringSerializer

consumer:

group-id: default_consumer_group #群组ID

enable-auto-commit: true

auto-commit-interval: 1000

key-deserializer: org.apache.kafka.common.serialization.StringDeserializer

value-deserializer: org.apache.kafka.common.serialization.StringDeserializer

server:

port: 9000

　　整套解决方案:中文网页自动采集与分类系统设计与实现

　　密级：保密期限：一锨譬工程硕士*敏*感*词*学位论文等垒号：Ｑ鱼Ｂ量兰墨２姓名：王迭这专业：筮鲑王程导师：程堡主学院：筮鲑堂院２０１０年６月本人声明成果。尽我所收录其他人已教育机构的学何贡献均已在申请学位本人签名本人完全校攻读学位期家有关部门或可以公布学位保存、汇编学本学位论本人签名导师签名中文网页自动采集与分类系统设计与实现摘要随着科学技术的飞速发展，我们已经进入了数字信息化时代。Ｉｎｔｅｒｎｅｔ作为当今世界上最大的信息库，也成为人们获取信息的最主要手段。由于网络上的信息资源有着海量、动态、异构、半结构化等特点，且缺乏统一的组织和管理，所以如何快速、准确地从海量的信息资源中寻找到自己所需的信息已经成为网络用户需要迫切解决的一大难题。因而基于ｗｅｂ的网络信息的采集与分类便成为人们研究的热点。传统的ｗｅｂ信息采集的目标就是尽可能多地采集信息页面，甚至是整个ｗｅｂ上的资源，在这一过程中它并不太在意采集的顺序和被采集页面的相关主题。这就使得所采集页面的内容过于杂乱，其中有相当大的一部分利用率很低，大大消耗了系统资源和网络资源。这就需要采用有效的采集方法以减少采集网页的杂乱、重复等情况的发生。

　　同时如何有效地对采集到的网页实现自动分类，以创建更为有效、快捷的搜索引擎也是非常必要的。网页分类是组织和管理信息的有效手段，它可以在较大程度上解决信息杂乱无章的现象，并方便用户准确地定位所需要的信息。传统的操作模式是对其人工分类后进行组织和管理。随着Ｉｎｔｅｒｎｅｔ上各种信息的迅猛增加，仅靠人工的方式来处理是不切实际的。因此，网页自动分类是一项具有较大实用价值的方法，也是组织和管理数据的有效手段。这也是本文研究的一个重要内容。本文首先介绍了课题背景、研究目的和*敏*感*词*的研究现状，阐述了网页采集和网页分类的相关理论、主要技术和算法，包括网页爬虫技术、网页去重技术、信息抽取技术、中文分词技术、特征提取技术、网页分类技术等。在综合比较了几种典型的算法之后，本文选取了主题爬虫的方法和分类方面表现出色的ＫＮＮ方法，同时结合去重、分词和特征提取等相关技术的配合，并对中文网页的结构和特点进行了分析后，提出中文网页采集和分类的设计与实现方法，最后通过程序设计语言来实现，在本文最后对系统进行了测试。测试结果达到了系统设计的要求，应用效果显著。

　　关键词：Ｗｅｂ信息采集网页分类信息抽取分词特征提取卜●、▲。＿ＤＥＳＩＧＮＡＮＤＩＭＰＬＥ Ⅳ匝Ｎ１：ＡＴＩＯＮＯＦＣＨＩＮＥＳＥｗＥＢＰＡＧＥＡＵＴ０～ＩＡＴＩＣＣＯＬＬＥＣＴＩＯＮＡＮＤＣＬＡＳＳＩＦＩＣＡＴＩＯＮＡＢＳＴＲＡＣＴＷｉｔｈｔｈｅｒａｐｉｄｄｅｖｅｌｏｐｍｅｎｔｏｆｓｃｉｅｎｃｅａｎｄｔｅｃｈｎｏｌｏｇｙ，ｗｅｈａｖｅｅｎｔｅｒｅｄｔｈｅｄｉｇｉｔａｌｉｎｆｏｒｍａｔｉｏｎａｇｅ．Ｉｎｔｅｍｅｔ，ｗｈｉｃｈｉＳｓｅｅｎａｓｔｈｅｗｏｒｌｄ ’ Ｓｌａｒｇｅｓｔｉｎｆｏｒｍａｔｉｏｎｄａｔａｂａｓｅ．ｂｅｃｏｍｅｓｔｈｅｍａｉｎｔ００１ｏｆｏｂｔａｉｎｉｎｇｉｎｆｏｒｍａｔｉｏｎ．ＩｔｉＳａｍａｊｏｒｐｒｏｂｌｅｍｔｏｂｅｓｏｌｖｅｄｕｒｇｅｎｔｌｙｈｏｗｔｏｑｕｉｃｋｌｙａｎｄａｃｃｕｒａｔｅｌｙｆｒｏｍｔｈｅｍａｓｓｏｆｉｎｆｏｒｍａｔｉｏｎｒｅｓｏｕｒｃｅｓｔｏｆｉｎｄｔｈｅｉｎｆｏｒｍａｔｉｏｎｔｈａｔｕｓｅｒｓｎｅｅｄｂｅｃａｕｓｅｔｈｅｎｅｔｗｏｒｋｏｆｉｎｆｏｒｍａｔｉｏｎｒｅｓｏｕｒｃｅｓｈａｓａｍａｓｓｉｖｅ，ｄｙｎａｍｉｃ，ｈｅｔｅｒｏｇｅｎｅｏｕｓ，ｓｅｍｉ—ｓｔｒｕｃｔｕｒｅｄｃｈａｒａｃｔｅｒｉｓｔｉｃｓ，ａｎｄｔｈｅｌａｃｋｏｆａｕｎｉｆｉｅｄｏｒｇａｎｉｚａｔｉｏｎａｎｄｍａｎａｇｅｍｅｎｔｐｒｅｓｅｎｔｓ．Ｊ朊６ｉｎｆｏｒｍａｔｉｏｎ－ｂａｓｅｄｃｏｌｌｅｃｔｉｏｎａｎｄｃｌａｓｓｉｆｉｃａｔｉｏｎｂｅｃｏｍｅｓｔｈｅｒｅｓｅａｒｃｈｈｏｔｓｐｏｔ．ＴｈｅｇｏａｌｏｆｔｒａｄｉｔｉｏｎａｌＷ曲ｉｎｆｏｒｍａｔｉｏｎｃｏｌｌｅｃｔｉｏｎｉｓｔｏｇａｔｈｅｒｉｎｆｏｒｍａｔｉｏｎａｓｍｕｃｈａｓｐｏｓｓｉｂｌｅ，ｏｒｅｖｅｎｔｈｅｗｈｏｌｅｒｅｓｏｕｒｃｅｓｏｎｔｈｅ∥ 如功ｅｏｒｄｅｒａｎｄｔｏｐｉｃｐａｇｅｓａｒｅｎｏｔｃａｒｅｄａｂｏｕｔｉｎｔｈｅｐｒｏｃｅｓｓｏｆｃｏｌｌｅｃｔｉｎｇ．ｔｈｅｐａｇｅｃｏｎｔｅｎｔｓｉＳｔｏｏｃｌｕｔｔｅｒｅｄ，ａｎｄａｌａｒｇｅｐａｒｔｏｆｔｈｅｍｉｓｓｐａｒｉｎｇｌｙｕｓｅｄＳＯｔｈａｔｓｙｓｔｅｍｒｅｓｏｕｒｃｅｓａｎｄｎｅｔｗｏｒｋｒｅｓｏｕｒｃｅｓａｒｅｗａｓｔｅｄ．ＴＩｌｉＳｒｅｑｕｉｒｅｓｅｆｆｅｃｔｉｖｅｃｏｌｌｅｃｔｉｏｎｍｅｔｈｏｄｕｓｅｄｔｏｒｅｄｕｃｅｔｈｅｃｏｌｌｅｃｔｅｄｐａｇｅｃｌｕｔｔｅｒａｎｄｄｕｐｌｉｃａｔｉｏｎ．Ｔｈｅｗｅｂｐａｇｅｓａｒｅａｕｔｏｍａｔｉｃａｌｙｃｌａｓｓｉｆｉｃａｔｅｄｔｏｃｒｅａｔｅｅｆｆｅｃｔｉｖｅａｎｄｅ伍ｃｉｅｎｔｓｅａｒｃｈｅｎｇｉｎｅ．ＯｒｇａｎｉｚａｔｉｏｎａｎｄｍａｎａｇｅｍｅｎｔｏｆｗｅｂｐａｇｅｃｌａｓｓｉｆｉｃａｔｉｏｎｉＳａｎｅｆｆｅｃｔｉｖｅｍｅａｌｌＳｏｆｉｎｆｏｒｍａｔｉｏｎ，ｗｈｉｃｈＣａｎｓｏｌｖｅａｌａｒｇｅｅｘｔｅｎｔｔｈｅｐｈｅｎｏｍｅｎｏｎｏｆｉｎｆｏｒｍａｔｉｏｎｃｌｕｔｔｅｒａｎｄｆａｃｉｌｉｔａｔｅｕｓｅｒｓｔｏａｃｃｕｒａｔｅｌｙｌｏｃａｔｅｔｈｅｉｎｆｏｒｍａｔｉｏｎｔｈｅｙｎｅｅｄ．Ｈｏｗｅｖｅｒ，ｔｈｅｔｒａｄｉｔｉｏｎａｌｍｏｄｅｏｆｏｐｅｒａｔｉｏｎｉＳｍａｎｕａｌ．ＷｉｔｈｔｈｅｒａｐｉｄｉｎｃｒｅａｓｉｎｇｏｆａｌｌｋｉｎｄｓｏｆｉｎｆｏｒｎｌａｔｉｏｎｉｎｔｈｅＩｎｔｅｍｅｔ，ｍａｎｕａｌｗａｙｔｏｈａｎｄｌｅａｌｏｎｅｉＳｕｎｒｅａｌｉｓｔｉｃ．Ｔｈｅｒｅｆｏｒｅ．Ｗｅｂｃｌａｓｓｉｆｉｃａｔｉｏｎｉｓｎｏｔａｍｅｔｈｏｄｗｉｔｈｇｒｅａｔｐｒａｃｔｉｃａｌｖａｌｕｅ，ｂｕｔａｌｓｏｉｓａｎｅｆｆｅｃｔｉｖｅｍｅａｎｓｏｆｏｒｇａｎｉｚｉｎｇａｎｄｍａｎａｇｉｎｇｄａｔａ．Ｔｔｉｓａｎｉｍｐｏｒｔａｎｔｒｅｓｅａｒｃｈｐａｒｔｏｆｔｈｉｓｐａｐｅｒ．Ｆｉｒｓｔｌｙ，ｔｈｅｔｏｐｉｃｂａｃｋｇｒｏｕｎｄ，ｐｕｒｐｏｓｅａｎｄｒｅｓｅａｒｃｈｓｔａｔｕｓａｒｅｉｎｔｒｏｄｕｃｅｄ，ａｎｄｔｈｅｔｈｅｏｒｉｅｓ，ｔｅｃｈｎｉｑｕｅｓａｎｄａｌｇｏｒｉｔｈｍｓｏｆｗｅｂｐａｇｅｃｏｌｌｅｃｔｉｏｎａｎｄｃｌａｓｓｉｆｉｃａｔｉｏｎａｒｅｄｅｓｃｒｉｂｅｄ，ｗｈｉｃｈｉｎｃｌｕｄｓｗｅｂｃｒａｗｌｅｒｔｅｃｈｎｏｌｏｇｙ，ｄｕｐｌｉｃａｔｅｄｗｅｂｐａｇｅｓｄｅｌｅｔｃｉｏｎｔｅｃｈｎｏｌｏｇｙ，ｉｎｆｏｒｍａｔｉｏｎｅｘｔｒａｃｔｉｏｎｔｅｃｈｎｏｌｏｇｙ，Ｃｈｉｎｅｓｅｗｏｒｄｓｅｇｍｅｎｔａｔｉｏｎ，ｆｅａｔｕｒｅｅｘｔｒａｃｔｉｏｎｔｅｃｈｎｉｑｕｅｓａｎｄｗｅｂｐａｇｅｃｌａｓｓｉｆｉｃａｔｉｏｎｔｅｃｈｎｏｌｏｇｙ．Ａｃｏｍｐｒｅｈｅｎｓｉｖｅｃｏｍｐａｒｉｓｏｎｏｆｓｅｖｅｒａｌｔｙｐｉｃａｌａｌｇｏｒｉｔｈｍｓｃｌａｓｓｉｆｉｃａｔｉｏｎｉｓｓｅｌｅｃｔｅｄｂｅｃａｕｓｅｔｈｅｙｈａｖｅｏｕｔｓｔａｎｄｉｎｇｐｅｒｆｏｒｍａｎｃｅ．１１１ｅｐｒｏｐｏｓｅｄａｃｑｕｉｓｉｔｉｏｎａｎｄｃｌａｓｓｉｆｉｃａｔｉｏｎｏｆＣｈｉｎｅｓｅｗｅｂａｒｅｄｅｓｉｇｎｅｄａｎｄｉｍｐｌｅｍｅｎｔａｔｅｄａｆｔｅｒｔｈｅｓｅｔｅｃｈｎｏｌｏｇｉｅｓａｒｅｃｏｍｂｉｎｅｄａｎｄｔｈｅｓｔｒｕｃｔｕｒｅａｎｄｃｈａｒａｃｔｅｒｉｓｔｉｃｓｏｆＣｈｉｎｅｓｅｌａｎｇｕａｇｅｗｅｂｐａｇｅａｒｅａｎａｌｙｚｅｄ．Ｆｉｎａｌｌｙ，ｉｔｉｓｃｏｄｅｄａｎｄｒｅａｌｉｚｅｄｂｙｔｈｅｐｒｏｇｒａｍｍｉｎｇｌａｎｇｕａｇｅ．Ｔｅｓｔｒｅｓｕｌｔｓｔｈａｔｔｈｅｓｙｓｔｅｍｍｅｔｔｈｅｄｅｓｉｇｎｒｅｑｕｉｒｅｍｅｎｔｓ，ａｎｄａｐｐｌｉｃａｔｉｏｎａｒｅｄｏｎｅｉｎｍａｎｙｆｅｉｌｄｓ．ｉＳｍａｄｅ，ｔｏｐｉｃａｌｃｒａｗｌｅｒａｎｄＫＮＮＫｅｙｗｏｒｄｓ：ｗｅｂｉｎｆｏｒｍａｔｉｏｎｃｏｌｌｅｃｔｉｏｎ，ｗｅｂｐａｇｅｃｌａｓｓｉｆｉｃａｔｉｏｎ，ｉｎｆｏｒｍａｔｉｏｎｅｘｔｒａｃｔｉｏｎ，ｓｅｇｍｅｎｔａｔｉｏｎ，ｃｈａｒａｃｔｅｒｅｘｔｒａｃｔｉｏｎ目录第一章引言……………………………………………………………………………．．． ……………１１．１课题背景及研究现状…………………………………………………………．１１．１．１课题的背景及研究目的…………………………………………………．．１１．１．２课题的*敏*感*词*研究现状……………………………………………………２１．２课题任务………………………………………………………………………．４１．３论文结构………………………………………………………………………．４第二章网页采集与分类相关技术介绍……………………………………………………６２．１网页爬虫技术…………………………………………………………………．６２．１．１通用网络爬虫………………………………………………………………６２．１．２聚焦网络爬虫……………………………………………………………。

　　８２．１．３深度网络爬虫……………………………………………………………ｌＯ２．２中文网页信息抽取技术………………………………………………………．１１２．２．１中文网页特点分析………………………………………………………．１１２．２．２信息抽取关键技术………………………………………………………１２２．２．３信息抽取评价标准………………………………………………………．１３２．３网页去重技术…………………………………………………………………１３２．４中文文本分词技术……………………………………………………………．１５２．４．１中文分词概述……………………………………………………………ｌ５２．４．２中文分词方法……………………………………………………………。１６２．５特征提取技术…………………………………………………………………１９２．５．１特征提取概述……………………………………………………………．１９２．５．２特征提取方法……………………………………………………………２０２．６网页分类技术概述……………………………………………………………２２２．７本章小结………………………………………………………………………２２第三章网页采集与分类系统设计……………………………………………………………．２３３．１系统需求分析…………………………………………………………………２３３．２系统概要设计…………………………………………………………………２４３．２．１系统总体框架设计………………………………………………………２４３．２．２采集系统结构设计………………………………………………………２４３．２．３分类系统结构设计………………………………………………………２５３．３系统功能模块设计……………………………………………………………２６３．３．１系统总体模块设计………………………………………………………２６３．３．２模块功能介绍……………………………………………………………２７３．４系统流程设计…………………………………………………………………２８３．４．１采集系统流程设计设计…………………………………………………２８３．４．２分类系统流程设计………………………………………………………２９３．５系统逻辑设计…………………………………………………………………３０３．５．１采集系统类图……………………………………………………………．．３０３．５．２分类系统类图……………………………………………………………３１３．５．３分类处理时序图…………………………………………………………３１３．５系统数据库设计………………………………………………………………３．６本章小结………………………………………………………………………第四章网页采集与分类系统实现……………………………………………………………．４．１页面采集模块实现……………………………………………………………４．２网页信息抽取模块实现………………………………………………………４．３网页去重模块实现……………………………………………………………．４．４中文分词模块实现……………………………………………………………４．５特征向量提取模块实现………………………………………………………４．６训练语料库模块实现…………………………………………………………４７４．７分类模块实现…………………………………………………………………４８４．７．１几种典型的分类算法……………………………………………………．４８４．７．２ＫＮＮ算法实现分类模块…………………………………………………．５０４．８系统开发环境配置……………………………………………………………．５２４．９本章小结………………………………………………………………………５２第五章网页采集与分类系统测试………………厶ｏｏｏｏｏｏｏｏｏｏｏｏｏｏｏｏｏｏｏｏｏｏｏｏｏｏｏｏｏｏｏｏｏｏｏｏｏｏｏｏｏｏｏｏｏｏｏｏｏｏｏ５３５．１系统运行界面…………………………………………………………………５３５．２实验评测标准…………………………………………………………………５６５．３实验结果分析…………………………………………………………………５７５．４本章小结………………………………………………………………………５９第六章结束语………………………………………………………………………………６０６．１论文工作总结…………………………………………………………………６０６．２问题和展望……………………………………………………………………６０参考文献………………………………………………………………………………………。

　　６１鸳Ｉ［谢…………………………………………………．． ……………………………………………………。６３北京邮电大学软件工程硕上论文１．１课题背景及研究现状第一章引言１．１．１课题的背景及研究目的随着互联网的普及和网络技术的飞速发展，网络上的信息资源呈指数级增长，我们已经进入了信息化时代。信息技术渗透到社会生活的方方面面，人们可以从互联网上获得越来越多的包括文本、数字、图形、图像、声音、视频等信息。然而，随着ｗｅｂ信息的急速膨胀，如何快速、准确地从浩瀚的信息资源中找到自己所需的信息却成为广大网络用户的一大难题。因而基于互联网上的信息采集和分类日益成为人们关注的焦点。．为了解决信息检索的难题，人们先后开发了如Ａｒｃｈｉｖｅ、Ｇｏｏｇｌｅ、Ｙａｈｏｏ等搜索引擎。这些搜索引擎通常使用一个或多个采集器从Ｉｎｔｅｍｅｔ（如ＷＷＷ、ＦＴＰ、Ｅｍａｉｌ、Ｎｅｗｓ）上采集各种数据，然后在本地服务器上为这些数据建立索引，当用户检索时根据用户提交的检索条件从索引库中迅速查找到所需的信息。Ｗｅｂ信息采集作为这些搜索引擎的基础和组成部分，发挥着举足轻重的作用。

　　ｗｅｂ信息采集是指通过Ｗｅｂ页面之间的链接关系，从Ｗｅｂ上自动地获取页面信息，并且随着链接不断的向所需要的ｗｅｂ页面扩展的过程。传统的Ｗ曲信息采集的目标就是尽可能多地采集信息页面，甚至是整个ｗｅｂ上的资源，在这一过程中它并不太在意采集的顺序和被采集页面的相关主题。这样做的一个极大好处是能够集中精力在采集的速度和数量上，并且实现起来也相对简单。但是，这种传统的采集方法存在着很多缺陷。因为基于整个Ｗｅｂ的信息采集需要采集的页面数量十分浩大，这需要消耗非常大的系统资源和网络资源，但是它们中有相当大的一部分利用率很低。用户往往只关心其中极少量的页面，而采集器采集的大部分页面对于他们来说是没有用的。这显然是对系统资源和网络资源的一个巨大浪费。随着ｗｅｂ网页数量的迅猛增长，即使是采用了定题采集技术来构建定题搜索引擎，同一主题的网页数量仍然是海量的。那么如何有效地对网页实现自动分类，以创建更为有效、快捷的搜索引擎是非常必要的。传统的操作模式是对其人工分类后进行组织和管理。这种分类方法分类比较准确，分类质量也较高。随着Ｉｎｔｅｒｎｅｔ上各种信息的迅速增加，仅靠人工的方式来处理是不切实际的。

　　对网页进行分类可以在很大程度上解决网页上信息杂乱的现象，并方便用户准确地定位所需要的信息，因此，网页自动分类是一项具有较大实用价值的方法，也是组织和管理数据的有效手段。这也是本文研究的一个重要内容。北京邮电大学软件工程硕士论文１．１．２课题的*敏*感*词*研究现状●网页采集技术发展现状网络正在不断地改变着我们的生活，Ｉｎｔｅｍｅｔ已经成为当今世晃上最大的信息资源库，如何快速、准确地从浩瀚的信息资源库中寻找到所需的信息已经成为网络用户的一大难题。无论是一些通用搜索引擎（如谷歌、百度等），或是一些特定主题的专用网页采集系统，都离不开网页采集，因而基于Ｗｅｂ的网页信息采集和*敏*感*词*ＩＧｏｏｇｌｅ、Ｙａｈｏｏ等各种搜索引擎。这些搜索引擎通常是通过一个或多个采集器从Ｉｎｔｅｒｎｅｔ上采集各种数据，然后在本地服务器上为这些数据建立索引，当用户检索时根据用户提交的检索条件从建立的索引库中迅速查找到所需信息。传统的采集方法存在着很多缺陷。首先，随着网页信息的爆炸式增长，信息采集的速度越来越不能满足实际应用的需要。即使大型的信息...

0

2022-09-30

内容采集系统

0 个评论

要回复文章请先登录或注册

视
频
教
程

在
线
客
服

官方客服QQ群

在
线
客
服

. 码头工人撰写文件

　　. mkdir dockerkakfa

　　4.cd dockerkakfa

　　5.创建 docker-compose.yml

　　version: '2'

services:

zookeeper:

image: wurstmeister/zookeeper

ports:

- "2181:2181"

restart: always

kafka:

image: wurstmeister/kafka:2.12-2.3.0

ports:

- "9092:9092"

environment:

- KAFKA_ZOOKEEPER_CONNECT=zookeeper:2181

- KAFKA_ADVERTISED_LISTENERS=PLAINTEXT://192.168.75.129:9092

- KAFKA_LISTENERS=PLAINTEXT://:9092

volumes:

- /var/run/docker.sock:/var/run/docker.sock

restart: always

kafka-manager:

image: sheepkiller/kafka-manager ## 镜像：开源的web管理kafka集群的界面

environment:

ZK_HOSTS: 192.168.75.129 ## 修改:宿主机IP

ports:

- "9001:9000" ## 暴露端口

elasticsearch:

image: daocloud.io/library/elasticsearch:6.5.4

restart: always

container_name: elasticsearch

environment:

- "ES_JAVA_OPTS=-Xms512m -Xmx512m"

ports:

- 9200:9200

kibana:

image: daocloud.io/library/kibana:6.5.4

restart: always

container_name: kibana

ports:

- 5601:5601

environment:

- elasticsearch_url=http://192.168.75.129:9200

depends_on:

- elasticsearch

　　docker运行动物园管理员容器

　　docker运行kafka容器

　　docker 运行 kafka 容器 ElasticSeach

　　docker 运行 Kibana 容器

　　docker 运行 Logstash 容器

　　使用容器编排技术

　　6.关闭防火墙

　　systemctl 停止防火墙

　　服务 iptables 停止

　　7.docker-compose up 可以执行。

　　没有这个命令需要先安装docker-compose

　　注：elk+kafka环境搭建过程中，需要大量依赖镜像。

　　如果es启动报错：Unable to start 大多数原因是内存不足

　　建议虚拟机内存4G以上

　　es 启动错误: max virtual memory area vm.max_count(65530) is too

　　解决步骤：

　　1.先切换到root用户；

　　2.执行命令：

　　sysctl -w vm.max_map_count=262144

　　结果可以查看：

　　sysctl -a|grep vm.max_map_count

　　将显示以下信息：

　　vm.max_map_count = 262144

　　注意：

　　上面的方法修改后，如果重启虚拟机就失效了，所以：

　　一劳永逸的解决方案：

　　在 /etc/sysctl.conf 文件末尾添加一行代码：

　　vm.max_map_count=262144

　　被永久修改。

　　验证elk+kafka环境

　　码头工人ps

　　访问：zk 192.168.75.143:2181

　　访问：es:9200/

　　访问：kibana

　　安装logstash

　　上传logstash-6.4.3.tar.gz到服务中

tar zxvf logstash-6.4.3.tar.gz

cd logstash-6.4.3

bin/logstash-plugin install logstash-input-kafka

bin/logstash-plugin install logstash-output-elasticsearch

　　注意：安装

　　bin/logstash-plugin 安装 logstash-input-kafka

　　bin/logstash-plugin 安装 logstash-output-elasticsearch

　　本地计算机需要有JDK环境。如果没有JDK环境直接安装logstash-input-kafka或者logstash-output-elasticsearch会报错

　　在 logstash 配置目录中创建 kafka.conf

　　input {

kafka {

bootstrap_servers => "192.168.75.143:9092"

topics => "mayikt-log"

}

filter {

#Only matched data are send to output.

}

output {

elasticsearch {

action => "index" #The operation on ES

hosts => "192.168.75.143:9200" #ElasticSearch host, can be array.

index => "my_logs" #The index to write data to.

}

　　进入logstash bin目录，执行./logstash -f …/config/kafka.conf

　　springboot项目集成elk+kafka maven依赖

org.springframework.boot

spring-boot-starter-web

com.fasterxml.jackson.core

jackson-databind

org.projectlombok

lombok

provided

com.alibaba

fastjson

1.2.66

org.springframework.kafka

spring-kafka

org.springframework.boot

spring-boot-starter-aop

commons-lang

2.6

　　aop 拦截系统日志

　　import java.net.InetAddress;

import java.net.UnknownHostException;

import java.text.SimpleDateFormat;

import java.util.Arrays;

import java.util.Date;

import javax.servlet.http.HttpServletRequest;

import com.alibaba.fastjson.JSONObject;

import com.mayikt.container.LogContainer;

import org.aspectj.lang.JoinPoint;

import org.aspectj.lang.annotation.*;

import org.springframework.beans.factory.annotation.Autowired;

import org.springframework.beans.factory.annotation.Value;

import org.springframework.stereotype.Component;

import org.springframework.util.concurrent.ListenableFuture;

import org.springframework.web.context.request.RequestContextHolder;

import org.springframework.web.context.request.ServletRequestAttributes;

@Aspect

@Component

public class AopLogAspect {

@Value("${server.port}")

private String serverPort;

// 申明一个切点里面是 execution表达式

@Pointcut("execution(* com.mayikt.api.service.*.*(..))")

private void serviceAspect() {

}

//

@Autowired

private LogContainer logContainer;

//

// 请求method前打印内容

@Before(value = "serviceAspect()")

public void methodBefore(JoinPoint joinPoint) {

ServletRequestAttributes requestAttributes = (ServletRequestAttributes) RequestContextHolder

.getRequestAttributes();

HttpServletRequest request = requestAttributes.getRequest();

JSONObject jsonObject = new JSONObject();

SimpleDateFormat df = new SimpleDateFormat("yyyy-MM-dd HH:mm:ss");// 设置日期格式

jsonObject.put("request_time", df.format(new Date()));

jsonObject.put("request_url", request.getRequestURL().toString());

jsonObject.put("request_method", request.getMethod());

jsonObject.put("signature", joinPoint.getSignature());

jsonObject.put("request_args", Arrays.toString(joinPoint.getArgs()));

// IP地址信息

jsonObject.put("ip_addres", getIpAddr(request) + ":" + serverPort);

JSONObject requestJsonObject = new JSONObject();

requestJsonObject.put("request", jsonObject);

jsonObject.put("request_time", df.format(new Date()));

jsonObject.put("log_type", "info");

// 将日志信息投递到kafka中

String log = requestJsonObject.toJSONString();

// ListenableFuture send = kafkaTemplate.send("mayikt-log",ctx);

logContainer.addLog(log);

}

//

// // 在方法执行完结后打印返回内容

// @AfterReturning(returning = "o", pointcut = "serviceAspect()")

// public void methodAfterReturing(Object o) {

// ServletRequestAttributes requestAttributes = (ServletRequestAttributes) RequestContextHolder

// .getRequestAttributes();

// HttpServletRequest request = requestAttributes.getRequest();

// JSONObject respJSONObject = new JSONObject();

// JSONObject jsonObject = new JSONObject();

// SimpleDateFormat df = new SimpleDateFormat("yyyy-MM-dd HH:mm:ss");// 设置日期格式

// jsonObject.put("response_time", df.format(new Date()));

// jsonObject.put("response_content", JSONObject.toJSONString(o));

// // IP地址信息

// jsonObject.put("ip_addres", getIpAddr(request) + ":" + serverPort);

// jsonObject.put("log_type", "info");

// respJSONObject.put("response", jsonObject);

// // 将日志信息投递到kafka中

kafkaTemplate.send("mayikt-log",respJSONObject.toJSONString());

logContainer.put(respJSONObject.toJSONString());

// }

//

/**

* 异常通知

*

* @param point

*/

@AfterThrowing(pointcut = "serviceAspect()", throwing = "e")

public void serviceAspect(JoinPoint point, Exception e) {

ServletRequestAttributes requestAttributes = (ServletRequestAttributes) RequestContextHolder

.getRequestAttributes();

HttpServletRequest request = requestAttributes.getRequest();

JSONObject jsonObject = new JSONObject();

SimpleDateFormat df = new SimpleDateFormat("yyyy-MM-dd HH:mm:ss");// 设置日期格式

jsonObject.put("request_time", df.format(new Date()));

jsonObject.put("request_url", request.getRequestURL().toString());

jsonObject.put("request_method", request.getMethod());

jsonObject.put("signature", point.getSignature());

jsonObject.put("request_args", Arrays.toString(point.getArgs()));

jsonObject.put("error", e.toString());

// IP地址信息

jsonObject.put("ip_addres", getIpAddr(request) + ":" + serverPort);

jsonObject.put("log_type", "info");

JSONObject requestJsonObject = new JSONObject();

requestJsonObject.put("request", jsonObject);

// 将日志信息投递到kafka中

String log = requestJsonObject.toJSONString();

logContainer.addLog(log);

}

//

public static String getIpAddr(HttpServletRequest request) {

//X-Forwarded-For（XFF）是用来识别通过HTTP代理或负载均衡方式连接到Web服务器的客户端最原始的IP地址的HTTP请求头字段。

String ipAddress = request.getHeader("x-forwarded-for");

if (ipAddress == null || ipAddress.length() == 0 || "unknown".equalsIgnoreCase(ipAddress)) {

ipAddress = request.getHeader("Proxy-Client-IP");

}

if (ipAddress == null || ipAddress.length() == 0 || "unknown".equalsIgnoreCase(ipAddress)) {

ipAddress = request.getHeader("WL-Proxy-Client-IP");

}

if (ipAddress == null || ipAddress.length() == 0 || "unknown".equalsIgnoreCase(ipAddress)) {

ipAddress = request.getRemoteAddr();

if (ipAddress.equals("127.0.0.1") || ipAddress.equals("0:0:0:0:0:0:0:1")) {

//根据网卡取本机配置的IP

InetAddress inet = null;

try {

inet = InetAddress.getLocalHost();

} catch (UnknownHostException e) {

e.printStackTrace();

}

ipAddress = inet.getHostAddress();

}

//对于通过多个代理的情况，第一个IP为客户端真实IP,多个IP按照','分割

if (ipAddress != null && ipAddress.length() > 15) { //"***.***.***.***".length() = 15

if (ipAddress.indexOf(",") > 0) {

ipAddress = ipAddress.substring(0, ipAddress.indexOf(","));

}

return ipAddress;

}

　　配置文件内容

　　spring:

application:

###服务的名称

jackson:

date-format: yyyy-MM-dd HH:mm:ss

kafka:

bootstrap-servers: 192.168.75.143:9092 #指定kafka server的地址，集群配多个，中间，逗号隔开

producer:

key-serializer: org.apache.kafka.common.serialization.StringSerializer

value-serializer: org.apache.kafka.common.serialization.StringSerializer

consumer:

group-id: default_consumer_group #群组ID

enable-auto-commit: true

auto-commit-interval: 1000

key-deserializer: org.apache.kafka.common.serialization.StringDeserializer

value-deserializer: org.apache.kafka.common.serialization.StringDeserializer

server:

port: 9000

　　整套解决方案:中文网页自动采集与分类系统设计与实现

　　密级：保密期限：一锨譬工程硕士*敏*感*词*学位论文等垒号：Ｑ鱼Ｂ量兰墨２姓名：王迭这专业：筮鲑王程导师：程堡主学院：筮鲑堂院２０１０年６月本人声明成果。尽我所收录其他人已教育机构的学何贡献均已在申请学位本人签名本人完全校攻读学位期家有关部门或可以公布学位保存、汇编学本学位论本人签名导师签名中文网页自动采集与分类系统设计与实现摘要随着科学技术的飞速发展，我们已经进入了数字信息化时代。Ｉｎｔｅｒｎｅｔ作为当今世界上最大的信息库，也成为人们获取信息的最主要手段。由于网络上的信息资源有着海量、动态、异构、半结构化等特点，且缺乏统一的组织和管理，所以如何快速、准确地从海量的信息资源中寻找到自己所需的信息已经成为网络用户需要迫切解决的一大难题。因而基于ｗｅｂ的网络信息的采集与分类便成为人们研究的热点。传统的ｗｅｂ信息采集的目标就是尽可能多地采集信息页面，甚至是整个ｗｅｂ上的资源，在这一过程中它并不太在意采集的顺序和被采集页面的相关主题。这就使得所采集页面的内容过于杂乱，其中有相当大的一部分利用率很低，大大消耗了系统资源和网络资源。这就需要采用有效的采集方法以减少采集网页的杂乱、重复等情况的发生。

　　同时如何有效地对采集到的网页实现自动分类，以创建更为有效、快捷的搜索引擎也是非常必要的。网页分类是组织和管理信息的有效手段，它可以在较大程度上解决信息杂乱无章的现象，并方便用户准确地定位所需要的信息。传统的操作模式是对其人工分类后进行组织和管理。随着Ｉｎｔｅｒｎｅｔ上各种信息的迅猛增加，仅靠人工的方式来处理是不切实际的。因此，网页自动分类是一项具有较大实用价值的方法，也是组织和管理数据的有效手段。这也是本文研究的一个重要内容。本文首先介绍了课题背景、研究目的和*敏*感*词*的研究现状，阐述了网页采集和网页分类的相关理论、主要技术和算法，包括网页爬虫技术、网页去重技术、信息抽取技术、中文分词技术、特征提取技术、网页分类技术等。在综合比较了几种典型的算法之后，本文选取了主题爬虫的方法和分类方面表现出色的ＫＮＮ方法，同时结合去重、分词和特征提取等相关技术的配合，并对中文网页的结构和特点进行了分析后，提出中文网页采集和分类的设计与实现方法，最后通过程序设计语言来实现，在本文最后对系统进行了测试。测试结果达到了系统设计的要求，应用效果显著。

　　关键词：Ｗｅｂ信息采集网页分类信息抽取分词特征提取卜●、▲。＿ＤＥＳＩＧＮＡＮＤＩＭＰＬＥ Ⅳ匝Ｎ１：ＡＴＩＯＮＯＦＣＨＩＮＥＳＥｗＥＢＰＡＧＥＡＵＴ０～ＩＡＴＩＣＣＯＬＬＥＣＴＩＯＮＡＮＤＣＬＡＳＳＩＦＩＣＡＴＩＯＮＡＢＳＴＲＡＣＴＷｉｔｈｔｈｅｒａｐｉｄｄｅｖｅｌｏｐｍｅｎｔｏｆｓｃｉｅｎｃｅａｎｄｔｅｃｈｎｏｌｏｇｙ，ｗｅｈａｖｅｅｎｔｅｒｅｄｔｈｅｄｉｇｉｔａｌｉｎｆｏｒｍａｔｉｏｎａｇｅ．Ｉｎｔｅｍｅｔ，ｗｈｉｃｈｉＳｓｅｅｎａｓｔｈｅｗｏｒｌｄ ’ Ｓｌａｒｇｅｓｔｉｎｆｏｒｍａｔｉｏｎｄａｔａｂａｓｅ．ｂｅｃｏｍｅｓｔｈｅｍａｉｎｔ００１ｏｆｏｂｔａｉｎｉｎｇｉｎｆｏｒｍａｔｉｏｎ．ＩｔｉＳａｍａｊｏｒｐｒｏｂｌｅｍｔｏｂｅｓｏｌｖｅｄｕｒｇｅｎｔｌｙｈｏｗｔｏｑｕｉｃｋｌｙａｎｄａｃｃｕｒａｔｅｌｙｆｒｏｍｔｈｅｍａｓｓｏｆｉｎｆｏｒｍａｔｉｏｎｒｅｓｏｕｒｃｅｓｔｏｆｉｎｄｔｈｅｉｎｆｏｒｍａｔｉｏｎｔｈａｔｕｓｅｒｓｎｅｅｄｂｅｃａｕｓｅｔｈｅｎｅｔｗｏｒｋｏｆｉｎｆｏｒｍａｔｉｏｎｒｅｓｏｕｒｃｅｓｈａｓａｍａｓｓｉｖｅ，ｄｙｎａｍｉｃ，ｈｅｔｅｒｏｇｅｎｅｏｕｓ，ｓｅｍｉ—ｓｔｒｕｃｔｕｒｅｄｃｈａｒａｃｔｅｒｉｓｔｉｃｓ，ａｎｄｔｈｅｌａｃｋｏｆａｕｎｉｆｉｅｄｏｒｇａｎｉｚａｔｉｏｎａｎｄｍａｎａｇｅｍｅｎｔｐｒｅｓｅｎｔｓ．Ｊ朊６ｉｎｆｏｒｍａｔｉｏｎ－ｂａｓｅｄｃｏｌｌｅｃｔｉｏｎａｎｄｃｌａｓｓｉｆｉｃａｔｉｏｎｂｅｃｏｍｅｓｔｈｅｒｅｓｅａｒｃｈｈｏｔｓｐｏｔ．ＴｈｅｇｏａｌｏｆｔｒａｄｉｔｉｏｎａｌＷ曲ｉｎｆｏｒｍａｔｉｏｎｃｏｌｌｅｃｔｉｏｎｉｓｔｏｇａｔｈｅｒｉｎｆｏｒｍａｔｉｏｎａｓｍｕｃｈａｓｐｏｓｓｉｂｌｅ，ｏｒｅｖｅｎｔｈｅｗｈｏｌｅｒｅｓｏｕｒｃｅｓｏｎｔｈｅ∥ 如功ｅｏｒｄｅｒａｎｄｔｏｐｉｃｐａｇｅｓａｒｅｎｏｔｃａｒｅｄａｂｏｕｔｉｎｔｈｅｐｒｏｃｅｓｓｏｆｃｏｌｌｅｃｔｉｎｇ．ｔｈｅｐａｇｅｃｏｎｔｅｎｔｓｉＳｔｏｏｃｌｕｔｔｅｒｅｄ，ａｎｄａｌａｒｇｅｐａｒｔｏｆｔｈｅｍｉｓｓｐａｒｉｎｇｌｙｕｓｅｄＳＯｔｈａｔｓｙｓｔｅｍｒｅｓｏｕｒｃｅｓａｎｄｎｅｔｗｏｒｋｒｅｓｏｕｒｃｅｓａｒｅｗａｓｔｅｄ．ＴＩｌｉＳｒｅｑｕｉｒｅｓｅｆｆｅｃｔｉｖｅｃｏｌｌｅｃｔｉｏｎｍｅｔｈｏｄｕｓｅｄｔｏｒｅｄｕｃｅｔｈｅｃｏｌｌｅｃｔｅｄｐａｇｅｃｌｕｔｔｅｒａｎｄｄｕｐｌｉｃａｔｉｏｎ．Ｔｈｅｗｅｂｐａｇｅｓａｒｅａｕｔｏｍａｔｉｃａｌｙｃｌａｓｓｉｆｉｃａｔｅｄｔｏｃｒｅａｔｅｅｆｆｅｃｔｉｖｅａｎｄｅ伍ｃｉｅｎｔｓｅａｒｃｈｅｎｇｉｎｅ．ＯｒｇａｎｉｚａｔｉｏｎａｎｄｍａｎａｇｅｍｅｎｔｏｆｗｅｂｐａｇｅｃｌａｓｓｉｆｉｃａｔｉｏｎｉＳａｎｅｆｆｅｃｔｉｖｅｍｅａｌｌＳｏｆｉｎｆｏｒｍａｔｉｏｎ，ｗｈｉｃｈＣａｎｓｏｌｖｅａｌａｒｇｅｅｘｔｅｎｔｔｈｅｐｈｅｎｏｍｅｎｏｎｏｆｉｎｆｏｒｍａｔｉｏｎｃｌｕｔｔｅｒａｎｄｆａｃｉｌｉｔａｔｅｕｓｅｒｓｔｏａｃｃｕｒａｔｅｌｙｌｏｃａｔｅｔｈｅｉｎｆｏｒｍａｔｉｏｎｔｈｅｙｎｅｅｄ．Ｈｏｗｅｖｅｒ，ｔｈｅｔｒａｄｉｔｉｏｎａｌｍｏｄｅｏｆｏｐｅｒａｔｉｏｎｉＳｍａｎｕａｌ．ＷｉｔｈｔｈｅｒａｐｉｄｉｎｃｒｅａｓｉｎｇｏｆａｌｌｋｉｎｄｓｏｆｉｎｆｏｒｎｌａｔｉｏｎｉｎｔｈｅＩｎｔｅｍｅｔ，ｍａｎｕａｌｗａｙｔｏｈａｎｄｌｅａｌｏｎｅｉＳｕｎｒｅａｌｉｓｔｉｃ．Ｔｈｅｒｅｆｏｒｅ．Ｗｅｂｃｌａｓｓｉｆｉｃａｔｉｏｎｉｓｎｏｔａｍｅｔｈｏｄｗｉｔｈｇｒｅａｔｐｒａｃｔｉｃａｌｖａｌｕｅ，ｂｕｔａｌｓｏｉｓａｎｅｆｆｅｃｔｉｖｅｍｅａｎｓｏｆｏｒｇａｎｉｚｉｎｇａｎｄｍａｎａｇｉｎｇｄａｔａ．Ｔｔｉｓａｎｉｍｐｏｒｔａｎｔｒｅｓｅａｒｃｈｐａｒｔｏｆｔｈｉｓｐａｐｅｒ．Ｆｉｒｓｔｌｙ，ｔｈｅｔｏｐｉｃｂａｃｋｇｒｏｕｎｄ，ｐｕｒｐｏｓｅａｎｄｒｅｓｅａｒｃｈｓｔａｔｕｓａｒｅｉｎｔｒｏｄｕｃｅｄ，ａｎｄｔｈｅｔｈｅｏｒｉｅｓ，ｔｅｃｈｎｉｑｕｅｓａｎｄａｌｇｏｒｉｔｈｍｓｏｆｗｅｂｐａｇｅｃｏｌｌｅｃｔｉｏｎａｎｄｃｌａｓｓｉｆｉｃａｔｉｏｎａｒｅｄｅｓｃｒｉｂｅｄ，ｗｈｉｃｈｉｎｃｌｕｄｓｗｅｂｃｒａｗｌｅｒｔｅｃｈｎｏｌｏｇｙ，ｄｕｐｌｉｃａｔｅｄｗｅｂｐａｇｅｓｄｅｌｅｔｃｉｏｎｔｅｃｈｎｏｌｏｇｙ，ｉｎｆｏｒｍａｔｉｏｎｅｘｔｒａｃｔｉｏｎｔｅｃｈｎｏｌｏｇｙ，Ｃｈｉｎｅｓｅｗｏｒｄｓｅｇｍｅｎｔａｔｉｏｎ，ｆｅａｔｕｒｅｅｘｔｒａｃｔｉｏｎｔｅｃｈｎｉｑｕｅｓａｎｄｗｅｂｐａｇｅｃｌａｓｓｉｆｉｃａｔｉｏｎｔｅｃｈｎｏｌｏｇｙ．Ａｃｏｍｐｒｅｈｅｎｓｉｖｅｃｏｍｐａｒｉｓｏｎｏｆｓｅｖｅｒａｌｔｙｐｉｃａｌａｌｇｏｒｉｔｈｍｓｃｌａｓｓｉｆｉｃａｔｉｏｎｉｓｓｅｌｅｃｔｅｄｂｅｃａｕｓｅｔｈｅｙｈａｖｅｏｕｔｓｔａｎｄｉｎｇｐｅｒｆｏｒｍａｎｃｅ．１１１ｅｐｒｏｐｏｓｅｄａｃｑｕｉｓｉｔｉｏｎａｎｄｃｌａｓｓｉｆｉｃａｔｉｏｎｏｆＣｈｉｎｅｓｅｗｅｂａｒｅｄｅｓｉｇｎｅｄａｎｄｉｍｐｌｅｍｅｎｔａｔｅｄａｆｔｅｒｔｈｅｓｅｔｅｃｈｎｏｌｏｇｉｅｓａｒｅｃｏｍｂｉｎｅｄａｎｄｔｈｅｓｔｒｕｃｔｕｒｅａｎｄｃｈａｒａｃｔｅｒｉｓｔｉｃｓｏｆＣｈｉｎｅｓｅｌａｎｇｕａｇｅｗｅｂｐａｇｅａｒｅａｎａｌｙｚｅｄ．Ｆｉｎａｌｌｙ，ｉｔｉｓｃｏｄｅｄａｎｄｒｅａｌｉｚｅｄｂｙｔｈｅｐｒｏｇｒａｍｍｉｎｇｌａｎｇｕａｇｅ．Ｔｅｓｔｒｅｓｕｌｔｓｔｈａｔｔｈｅｓｙｓｔｅｍｍｅｔｔｈｅｄｅｓｉｇｎｒｅｑｕｉｒｅｍｅｎｔｓ，ａｎｄａｐｐｌｉｃａｔｉｏｎａｒｅｄｏｎｅｉｎｍａｎｙｆｅｉｌｄｓ．ｉＳｍａｄｅ，ｔｏｐｉｃａｌｃｒａｗｌｅｒａｎｄＫＮＮＫｅｙｗｏｒｄｓ：ｗｅｂｉｎｆｏｒｍａｔｉｏｎｃｏｌｌｅｃｔｉｏｎ，ｗｅｂｐａｇｅｃｌａｓｓｉｆｉｃａｔｉｏｎ，ｉｎｆｏｒｍａｔｉｏｎｅｘｔｒａｃｔｉｏｎ，ｓｅｇｍｅｎｔａｔｉｏｎ，ｃｈａｒａｃｔｅｒｅｘｔｒａｃｔｉｏｎ目录第一章引言……………………………………………………………………………．．． ……………１１．１课题背景及研究现状…………………………………………………………．１１．１．１课题的背景及研究目的…………………………………………………．．１１．１．２课题的*敏*感*词*研究现状……………………………………………………２１．２课题任务………………………………………………………………………．４１．３论文结构………………………………………………………………………．４第二章网页采集与分类相关技术介绍……………………………………………………６２．１网页爬虫技术…………………………………………………………………．６２．１．１通用网络爬虫………………………………………………………………６２．１．２聚焦网络爬虫……………………………………………………………。

　　８２．１．３深度网络爬虫……………………………………………………………ｌＯ２．２中文网页信息抽取技术………………………………………………………．１１２．２．１中文网页特点分析………………………………………………………．１１２．２．２信息抽取关键技术………………………………………………………１２２．２．３信息抽取评价标准………………………………………………………．１３２．３网页去重技术…………………………………………………………………１３２．４中文文本分词技术……………………………………………………………．１５２．４．１中文分词概述……………………………………………………………ｌ５２．４．２中文分词方法……………………………………………………………。１６２．５特征提取技术…………………………………………………………………１９２．５．１特征提取概述……………………………………………………………．１９２．５．２特征提取方法……………………………………………………………２０２．６网页分类技术概述……………………………………………………………２２２．７本章小结………………………………………………………………………２２第三章网页采集与分类系统设计……………………………………………………………．２３３．１系统需求分析…………………………………………………………………２３３．２系统概要设计…………………………………………………………………２４３．２．１系统总体框架设计………………………………………………………２４３．２．２采集系统结构设计………………………………………………………２４３．２．３分类系统结构设计………………………………………………………２５３．３系统功能模块设计……………………………………………………………２６３．３．１系统总体模块设计………………………………………………………２６３．３．２模块功能介绍……………………………………………………………２７３．４系统流程设计…………………………………………………………………２８３．４．１采集系统流程设计设计…………………………………………………２８３．４．２分类系统流程设计………………………………………………………２９３．５系统逻辑设计…………………………………………………………………３０３．５．１采集系统类图……………………………………………………………．．３０３．５．２分类系统类图……………………………………………………………３１３．５．３分类处理时序图…………………………………………………………３１３．５系统数据库设计………………………………………………………………３．６本章小结………………………………………………………………………第四章网页采集与分类系统实现……………………………………………………………．４．１页面采集模块实现……………………………………………………………４．２网页信息抽取模块实现………………………………………………………４．３网页去重模块实现……………………………………………………………．４．４中文分词模块实现……………………………………………………………４．５特征向量提取模块实现………………………………………………………４．６训练语料库模块实现…………………………………………………………４７４．７分类模块实现…………………………………………………………………４８４．７．１几种典型的分类算法……………………………………………………．４８４．７．２ＫＮＮ算法实现分类模块…………………………………………………．５０４．８系统开发环境配置……………………………………………………………．５２４．９本章小结………………………………………………………………………５２第五章网页采集与分类系统测试………………厶ｏｏｏｏｏｏｏｏｏｏｏｏｏｏｏｏｏｏｏｏｏｏｏｏｏｏｏｏｏｏｏｏｏｏｏｏｏｏｏｏｏｏｏｏｏｏｏｏｏｏｏ５３５．１系统运行界面…………………………………………………………………５３５．２实验评测标准…………………………………………………………………５６５．３实验结果分析…………………………………………………………………５７５．４本章小结………………………………………………………………………５９第六章结束语………………………………………………………………………………６０６．１论文工作总结…………………………………………………………………６０６．２问题和展望……………………………………………………………………６０参考文献………………………………………………………………………………………。

　　６１鸳Ｉ［谢…………………………………………………．． ……………………………………………………。６３北京邮电大学软件工程硕上论文１．１课题背景及研究现状第一章引言１．１．１课题的背景及研究目的随着互联网的普及和网络技术的飞速发展，网络上的信息资源呈指数级增长，我们已经进入了信息化时代。信息技术渗透到社会生活的方方面面，人们可以从互联网上获得越来越多的包括文本、数字、图形、图像、声音、视频等信息。然而，随着ｗｅｂ信息的急速膨胀，如何快速、准确地从浩瀚的信息资源中找到自己所需的信息却成为广大网络用户的一大难题。因而基于互联网上的信息采集和分类日益成为人们关注的焦点。．为了解决信息检索的难题，人们先后开发了如Ａｒｃｈｉｖｅ、Ｇｏｏｇｌｅ、Ｙａｈｏｏ等搜索引擎。这些搜索引擎通常使用一个或多个采集器从Ｉｎｔｅｍｅｔ（如ＷＷＷ、ＦＴＰ、Ｅｍａｉｌ、Ｎｅｗｓ）上采集各种数据，然后在本地服务器上为这些数据建立索引，当用户检索时根据用户提交的检索条件从索引库中迅速查找到所需的信息。Ｗｅｂ信息采集作为这些搜索引擎的基础和组成部分，发挥着举足轻重的作用。

　　ｗｅｂ信息采集是指通过Ｗｅｂ页面之间的链接关系，从Ｗｅｂ上自动地获取页面信息，并且随着链接不断的向所需要的ｗｅｂ页面扩展的过程。传统的Ｗ曲信息采集的目标就是尽可能多地采集信息页面，甚至是整个ｗｅｂ上的资源，在这一过程中它并不太在意采集的顺序和被采集页面的相关主题。这样做的一个极大好处是能够集中精力在采集的速度和数量上，并且实现起来也相对简单。但是，这种传统的采集方法存在着很多缺陷。因为基于整个Ｗｅｂ的信息采集需要采集的页面数量十分浩大，这需要消耗非常大的系统资源和网络资源，但是它们中有相当大的一部分利用率很低。用户往往只关心其中极少量的页面，而采集器采集的大部分页面对于他们来说是没有用的。这显然是对系统资源和网络资源的一个巨大浪费。随着ｗｅｂ网页数量的迅猛增长，即使是采用了定题采集技术来构建定题搜索引擎，同一主题的网页数量仍然是海量的。那么如何有效地对网页实现自动分类，以创建更为有效、快捷的搜索引擎是非常必要的。传统的操作模式是对其人工分类后进行组织和管理。这种分类方法分类比较准确，分类质量也较高。随着Ｉｎｔｅｒｎｅｔ上各种信息的迅速增加，仅靠人工的方式来处理是不切实际的。

　　对网页进行分类可以在很大程度上解决网页上信息杂乱的现象，并方便用户准确地定位所需要的信息，因此，网页自动分类是一项具有较大实用价值的方法，也是组织和管理数据的有效手段。这也是本文研究的一个重要内容。北京邮电大学软件工程硕士论文１．１．２课题的*敏*感*词*研究现状●网页采集技术发展现状网络正在不断地改变着我们的生活，Ｉｎｔｅｍｅｔ已经成为当今世晃上最大的信息资源库，如何快速、准确地从浩瀚的信息资源库中寻找到所需的信息已经成为网络用户的一大难题。无论是一些通用搜索引擎（如谷歌、百度等），或是一些特定主题的专用网页采集系统，都离不开网页采集，因而基于Ｗｅｂ的网页信息采集和*敏*感*词*ＩＧｏｏｇｌｅ、Ｙａｈｏｏ等各种搜索引擎。这些搜索引擎通常是通过一个或多个采集器从Ｉｎｔｅｒｎｅｔ上采集各种数据，然后在本地服务器上为这些数据建立索引，当用户检索时根据用户提交的检索条件从建立的索引库中迅速查找到所需信息。传统的采集方法存在着很多缺陷。首先，随着网页信息的爆炸式增长，信息采集的速度越来越不能满足实际应用的需要。即使大型的信息...

0

2022-09-30

内容采集系统

0 个评论

要回复文章请先登录或注册

AI时代内容工厂

优化的解决方案:02.分布式日志采集ELK+Kafka

AI时代内容工厂

优化的解决方案:02.分布式日志采集ELK+Kafka

0 个评论

发起人

AI时代内容工厂

优化的解决方案:02.分布式日志采集ELK+Kafka

0 个评论

发起人

0 个评论

发起人

AI时代内容工厂

优化的解决方案:02.分布式日志采集ELK+Kafka

AI时代内容工厂

优化的解决方案:02.分布式日志采集ELK+Kafka

0 个评论

发起人

相关问题

AI时代内容工厂

优化的解决方案:02.分布式日志采集ELK+Kafka

0 个评论

发起人

相关问题

0 个评论

发起人

相关问题