解决方案:基于Python实现中文文本关键词抽取的三种方法课程报告+项目源码及数据

优采云发布时间: 2022-11-27 16:24

　　资源下载地址：

　　使用Python提取中文文本关键词三种方法

　　文本关键词提取是高度浓缩文本信息的有效手段，通过3-5个单词准确概括文本主题，帮助读者快速理解文本信息。目前，文本关键词提取主要有四种方法：基于TF-IDF的关键词提取、基于TextRank的关键词提取、基于Word2Vec词聚类的关键词提取和基于多种算法融合的关键词提取。在利用前三种算法进行关键词抽取的学习过程中，笔者发现互联网上有很多使用TF-IDF和TextRank方法进行关键词抽取的例子，代码和步骤也比较简单，但是网上的信息在使用Word2Vec词聚类方法时并没有把过程和步骤表达得很清楚。因此，采用TF-IDF方法、TextRank方法和Word2Vec词聚类方法实现专利文本（也适用于其他类型的文本）的关键词提取，并通过理论与实践的结合，逐步理解、学习和实现中文文本的关键词提取。

　　内容

　　使用Python 1提取文本中文文本关键词的三种方法1

　　概述 12

　　开发环境准备 2

　　2.1 蟒蛇环境 2

　　2.2 第三方模块 23

" />

　　数据准备 3

　　3.1 样本语料库 3

　　3.2 停产词典 4

　　4 基于TF-IDF的文本关键词提取方法 4

　　4.1 TF-IDF算法思路 4

　　4.2 TF-IDF文本关键词提取方法流程 5

　　4.3 代码实现 5

　　5 基于文本等级的文本关键词提取方法 6

　　5.1 页面排名算法思路 6

　　5.2 文本排名算法思路 7

" />

　　5.3 代码实现 8

　　6 基于Word2Vec文本聚类关键词提取方法 8

　　6.1 Word2Vec词向量表示 9

　　6.2 K均值聚类算法 9

　　6.3 Word2Vec词簇文本关键词提取方法流程 10

　　6.4 代码实现 11

　　7 结论 11

　　1 概述

　　文档的关键词是

　　相当于最能表达文档主题的N个单词，即文档最重要的单词，因此可以将文本关键词提取问题转换为单词重要性排序问题，可以选择排名前的TopN单词作为文本关键词。目前主流的文本关键词提取方法主要有以下两大类：

　　知识整理:Python英语单词拼写训练考试系统，单词默写系统，统计易错词，基于Django

　　程序

" target="_blank">采集

了近千个小学生常用词，后台可根据需求增加题库进行测试。基于Django，小学生英语单词记忆测试系统

　　安装教程

　　进入程序目录后安装依赖文件：

　　点安装 -r 要求.txt

　　运行 python3 manage.py 运行服务器

　　后台管理地址：8000/admin/

　　管理员登录：

　　用户名：管理员密码：

　　接待地址：8000/

　　全程序下载地址：Python英文单词记忆测试系统

　　前端截图

　　背景

　　核心代码

　　setting.py

　　# coding=utf-8

import os

# Build paths inside the project like this: os.path.join(BASE_DIR, ...)

BASE_DIR = os.path.dirname(os.path.dirname(os.path.abspath(__file__)))

# Quick-start development settings - unsuitable for production

# See https://docs.djangoproject.com/en/2.2/howto/deployment/checklist/

# SECURITY WARNING: keep the secret key used in production secret!

SECRET_KEY = '=r0dm@=h9@^yo!f-kn^4sg@iiy$ub=t9%xciw0_y%_6!ntq#yw'

# SECURITY WARNING: don't run with debug turned on in production!

DEBUG = True

ALLOWED_HOSTS = ['*']

# Application definition

INSTALLED_APPS = [

'django.contrib.admin',

'django.contrib.auth',

'django.contrib.contenttypes',

<p>

" />

'django.contrib.sessions',

'django.contrib.messages',

'django.contrib.staticfiles',

'app',

]

AUTH_USER_MODEL = 'app.UserProfile'

LOGIN_URL="login" #（视图函数登录权限跳转要用）

MIDDLEWARE = [

'django.middleware.security.SecurityMiddleware',

'django.contrib.sessions.middleware.SessionMiddleware',

'django.middleware.common.CommonMiddleware',

'django.middleware.csrf.CsrfViewMiddleware',

'django.contrib.auth.middleware.AuthenticationMiddleware',

'django.contrib.messages.middleware.MessageMiddleware',

'django.middleware.clickjacking.XFrameOptionsMiddleware',

]

ROOT_URLCONF = 'wordtest.urls'

TEMPLATES = [

{

'BACKEND': 'django.template.backends.django.DjangoTemplates',

'DIRS': [os.path.join(BASE_DIR, 'templates')],#设置网站模板根目录

'APP_DIRS': True,

'OPTIONS': {

'context_processors': [

'django.template.context_processors.debug',

'django.template.context_processors.request',

'django.contrib.auth.context_processors.auth',

'django.contrib.messages.context_processors.messages',

],

},

]

WSGI_APPLICATION = 'wordtest.wsgi.application'

# Database

# https://docs.djangoproject.com/en/2.2/ref/settings/#databases

DATABASES = {

'default': {

'ENGINE': 'django.db.backends.sqlite3',

'NAME': os.path.join(BASE_DIR, 'db.sqlite3'),

" />

}

# Password validation

# https://docs.djangoproject.com/en/2.2/ref/settings/#auth-password-validators

AUTH_PASSWORD_VALIDATORS = [

{

'NAME': 'django.contrib.auth.password_validation.UserAttributeSimilarityValidator',

},

{

'NAME': 'django.contrib.auth.password_validation.MinimumLengthValidator',

},

{

'NAME': 'django.contrib.auth.password_validation.CommonPasswordValidator',

},

{

'NAME': 'django.contrib.auth.password_validation.NumericPasswordValidator',

},

]

# Internationalization

# https://docs.djangoproject.com/en/1.11/topics/i18n/

#修改时区时间设置

LANGUAGE_CODE = 'zh-hans'

TIME_ZONE = 'Asia/Shanghai'

USE_I18N = True

USE_L10N = True

USE_TZ = False

#设置表态文件目录

STATIC_URL = '/static/'

STATICFILES_DIRS = [

os.path.join(BASE_DIR, "static"),

]

</p>

　　全程序下载地址：Python英文单词记忆测试系统

0

2022-11-27

关键词文章采集源码

0 个评论

要回复文章请先登录或注册

AI时代内容工厂

解决方案:基于Python实现中文文本关键词抽取的三种方法课程报告+项目源码及数据

0 个评论

发起人

AI时代内容工厂

解决方案:基于Python实现中文文本关键词抽取的三种方法 课程报告+项目源码及数据

0 个评论

发起人

相关问题

解决方案:基于Python实现中文文本关键词抽取的三种方法课程报告+项目源码及数据