解决方案:基于Python实现中文文本关键词抽取的三种方法 课程报告+项目源码及数据
优采云 发布时间: 2022-11-27 16:24解决方案:基于Python实现中文文本关键词抽取的三种方法 课程报告+项目源码及数据
资源下载地址:
资源下载地址:
使用Python提取中文文本关键词三种方法
文本关键词提取是高度浓缩文本信息的有效手段,通过3-5个单词准确概括文本主题,帮助读者快速理解文本信息。目前,文本关键词提取主要有四种方法:基于TF-IDF的关键词提取、基于TextRank的关键词提取、基于Word2Vec词聚类的关键词提取和基于多种算法融合的关键词提取。在利用前三种算法进行关键词抽取的学习过程中,笔者发现互联网上有很多使用TF-IDF和TextRank方法进行关键词抽取的例子,代码和步骤也比较简单,但是网上的信息在使用Word2Vec词聚类方法时并没有把过程和步骤表达得很清楚。因此,采用TF-IDF方法、TextRank方法和Word2Vec词聚类方法实现专利文本(也适用于其他类型的文本)的关键词提取,并通过理论与实践的结合,逐步理解、学习和实现中文文本的关键词提取。
内容
使用Python 1提取文本中文文本关键词的三种方法1
概述 12
开发环境准备 2
2.1 蟒蛇环境 2
2.2 第三方模块 23
" />
数据准备 3
3.1 样本语料库 3
3.2 停产词典 4
4 基于TF-IDF的文本关键词提取方法 4
4.1 TF-IDF算法思路 4
4.2 TF-IDF文本关键词提取方法流程 5
4.3 代码实现 5
5 基于文本等级的文本关键词提取方法 6
5.1 页面排名算法思路 6
5.2 文本排名算法思路 7
" />
5.3 代码实现 8
6 基于Word2Vec文本聚类关键词提取方法 8
6.1 Word2Vec词向量表示 9
6.2 K均值聚类算法 9
6.3 Word2Vec词簇文本关键词提取方法流程 10
6.4 代码实现 11
7 结论 11
1 概述
文档的关键词是
相当于最能表达文档主题的N个单词,即文档最重要的单词,因此可以将文本关键词提取问题转换为单词重要性排序问题,可以选择排名前的TopN单词作为文本关键词。目前主流的文本关键词提取方法主要有以下两大类:
知识整理:Python英语单词拼写训练考试系统,单词默写系统,统计易错词,基于Django
程序采集
了近千个小学生常用词,后台可根据需求增加题库进行测试。基于Django,小学生英语单词记忆测试系统
安装教程
进入程序目录后安装依赖文件:
点安装 -r 要求.txt
运行 python3 manage.py 运行服务器
后台管理地址:8000/admin/
管理员登录:
用户名: 管理员密码:
接待地址:8000/
全程序下载地址:Python英文单词记忆测试系统
前端截图
背景
核心代码
setting.py
# coding=utf-8
import os
# Build paths inside the project like this: os.path.join(BASE_DIR, ...)
BASE_DIR = os.path.dirname(os.path.dirname(os.path.abspath(__file__)))
# Quick-start development settings - unsuitable for production
# See https://docs.djangoproject.com/en/2.2/howto/deployment/checklist/
# SECURITY WARNING: keep the secret key used in production secret!
SECRET_KEY = '=r0dm@=h9@^yo!f-kn^4sg@iiy$ub=t9%xciw0_y%_6!ntq#yw'
# SECURITY WARNING: don't run with debug turned on in production!
DEBUG = True
ALLOWED_HOSTS = ['*']
# Application definition
INSTALLED_APPS = [
'django.contrib.admin',
'django.contrib.auth',
'django.contrib.contenttypes',
<p>
" />
'django.contrib.sessions',
'django.contrib.messages',
'django.contrib.staticfiles',
'app',
]
AUTH_USER_MODEL = 'app.UserProfile'
LOGIN_URL="login" #(视图函数登录权限跳转要用)
MIDDLEWARE = [
'django.middleware.security.SecurityMiddleware',
'django.contrib.sessions.middleware.SessionMiddleware',
'django.middleware.common.CommonMiddleware',
'django.middleware.csrf.CsrfViewMiddleware',
'django.contrib.auth.middleware.AuthenticationMiddleware',
'django.contrib.messages.middleware.MessageMiddleware',
'django.middleware.clickjacking.XFrameOptionsMiddleware',
]
ROOT_URLCONF = 'wordtest.urls'
TEMPLATES = [
{
'BACKEND': 'django.template.backends.django.DjangoTemplates',
'DIRS': [os.path.join(BASE_DIR, 'templates')],#设置网站模板根目录
'APP_DIRS': True,
'OPTIONS': {
'context_processors': [
'django.template.context_processors.debug',
'django.template.context_processors.request',
'django.contrib.auth.context_processors.auth',
'django.contrib.messages.context_processors.messages',
],
},
},
]
WSGI_APPLICATION = 'wordtest.wsgi.application'
# Database
# https://docs.djangoproject.com/en/2.2/ref/settings/#databases
DATABASES = {
'default': {
'ENGINE': 'django.db.backends.sqlite3',
'NAME': os.path.join(BASE_DIR, 'db.sqlite3'),
" />
}
}
# Password validation
# https://docs.djangoproject.com/en/2.2/ref/settings/#auth-password-validators
AUTH_PASSWORD_VALIDATORS = [
{
'NAME': 'django.contrib.auth.password_validation.UserAttributeSimilarityValidator',
},
{
'NAME': 'django.contrib.auth.password_validation.MinimumLengthValidator',
},
{
'NAME': 'django.contrib.auth.password_validation.CommonPasswordValidator',
},
{
'NAME': 'django.contrib.auth.password_validation.NumericPasswordValidator',
},
]
# Internationalization
# https://docs.djangoproject.com/en/1.11/topics/i18n/
#修改时区时间设置
LANGUAGE_CODE = 'zh-hans'
TIME_ZONE = 'Asia/Shanghai'
USE_I18N = True
USE_L10N = True
USE_TZ = False
#设置表态文件目录
STATIC_URL = '/static/'
STATICFILES_DIRS = [
os.path.join(BASE_DIR, "static"),
]
</p>
全程序下载地址:Python英文单词记忆测试系统