解决方案:基于Python实现中文文本关键词抽取的三种方法 课程报告+项目源码及数据

优采云 发布时间: 2022-11-27 16:24

  解决方案:基于Python实现中文文本关键词抽取的三种方法 课程报告+项目源码及数据

  资源下载地址:

  资源下载地址:

  使用Python提取中文文本关键词三种方法

  文本关键词提取是高度浓缩文本信息的有效手段,通过3-5个单词准确概括文本主题,帮助读者快速理解文本信息。目前,文本关键词提取主要有四种方法:基于TF-IDF的关键词提取、基于TextRank的关键词提取、基于Word2Vec词聚类的关键词提取和基于多种算法融合的关键词提取。在利用前三种算法进行关键词抽取的学习过程中,笔者发现互联网上有很多使用TF-IDF和TextRank方法进行关键词抽取的例子,代码和步骤也比较简单,但是网上的信息在使用Word2Vec词聚类方法时并没有把过程和步骤表达得很清楚。因此,采用TF-IDF方法、TextRank方法和Word2Vec词聚类方法实现专利文本(也适用于其他类型的文本)的关键词提取,并通过理论与实践的结合,逐步理解、学习和实现中文文本的关键词提取。

  内容

  使用Python 1提取文本中文文本关键词的三种方法1

  概述 12

  开发环境准备 2

  2.1 蟒蛇环境 2

  2.2 第三方模块 23

  

" />

  数据准备 3

  3.1 样本语料库 3

  3.2 停产词典 4

  4 基于TF-IDF的文本关键词提取方法 4

  4.1 TF-IDF算法思路 4

  4.2 TF-IDF文本关键词提取方法流程 5

  4.3 代码实现 5

  5 基于文本等级的文本关键词提取方法 6

  5.1 页面排名算法思路 6

  5.2 文本排名算法思路 7

  

" />

  5.3 代码实现 8

  6 基于Word2Vec文本聚类关键词提取方法 8

  6.1 Word2Vec词向量表示 9

  6.2 K均值聚类算法 9

  6.3 Word2Vec词簇文本关键词提取方法流程 10

  6.4 代码实现 11

  7 结论 11

  1 概述

  文档的关键词是

  相当于最能表达文档主题的N个单词,即文档最重要的单词,因此可以将文本关键词提取问题转换为单词重要性排序问题,可以选择排名前的TopN单词作为文本关键词。目前主流的文本关键词提取方法主要有以下两大类:

  知识整理:Python英语单词拼写训练考试系统,单词默写系统,统计易错词,基于Django

  程序采集

了近千个小学生常用词,后台可根据需求增加题库进行测试。基于Django,小学生英语单词记忆测试系统

  安装教程

  进入程序目录后安装依赖文件:

  点安装 -r 要求.txt

  运行 python3 manage.py 运行服务器

  后台管理地址:8000/admin/

  管理员登录:

  用户名: 管理员密码:

  接待地址:8000/

  全程序下载地址:Python英文单词记忆测试系统

  前端截图

  背景

  核心代码

  setting.py

  # coding=utf-8

import os

# Build paths inside the project like this: os.path.join(BASE_DIR, ...)

BASE_DIR = os.path.dirname(os.path.dirname(os.path.abspath(__file__)))

# Quick-start development settings - unsuitable for production

# See https://docs.djangoproject.com/en/2.2/howto/deployment/checklist/

# SECURITY WARNING: keep the secret key used in production secret!

SECRET_KEY = '=r0dm@=h9@^yo!f-kn^4sg@iiy$ub=t9%xciw0_y%_6!ntq#yw'

# SECURITY WARNING: don't run with debug turned on in production!

DEBUG = True

ALLOWED_HOSTS = ['*']

# Application definition

INSTALLED_APPS = [

'django.contrib.admin',

'django.contrib.auth',

'django.contrib.contenttypes',

<p>

" />

&#39;django.contrib.sessions&#39;,

&#39;django.contrib.messages&#39;,

&#39;django.contrib.staticfiles&#39;,

&#39;app&#39;,

]

AUTH_USER_MODEL = &#39;app.UserProfile&#39;

LOGIN_URL="login" #(视图函数登录权限跳转要用)

MIDDLEWARE = [

&#39;django.middleware.security.SecurityMiddleware&#39;,

&#39;django.contrib.sessions.middleware.SessionMiddleware&#39;,

&#39;django.middleware.common.CommonMiddleware&#39;,

&#39;django.middleware.csrf.CsrfViewMiddleware&#39;,

&#39;django.contrib.auth.middleware.AuthenticationMiddleware&#39;,

&#39;django.contrib.messages.middleware.MessageMiddleware&#39;,

&#39;django.middleware.clickjacking.XFrameOptionsMiddleware&#39;,

]

ROOT_URLCONF = &#39;wordtest.urls&#39;

TEMPLATES = [

{

&#39;BACKEND&#39;: &#39;django.template.backends.django.DjangoTemplates&#39;,

&#39;DIRS&#39;: [os.path.join(BASE_DIR, &#39;templates&#39;)],#设置网站模板根目录

&#39;APP_DIRS&#39;: True,

&#39;OPTIONS&#39;: {

&#39;context_processors&#39;: [

&#39;django.template.context_processors.debug&#39;,

&#39;django.template.context_processors.request&#39;,

&#39;django.contrib.auth.context_processors.auth&#39;,

&#39;django.contrib.messages.context_processors.messages&#39;,

],

},

},

]

WSGI_APPLICATION = &#39;wordtest.wsgi.application&#39;

# Database

# https://docs.djangoproject.com/en/2.2/ref/settings/#databases

DATABASES = {

&#39;default&#39;: {

&#39;ENGINE&#39;: &#39;django.db.backends.sqlite3&#39;,

&#39;NAME&#39;: os.path.join(BASE_DIR, &#39;db.sqlite3&#39;),

  

" />

}

}

# Password validation

# https://docs.djangoproject.com/en/2.2/ref/settings/#auth-password-validators

AUTH_PASSWORD_VALIDATORS = [

{

&#39;NAME&#39;: &#39;django.contrib.auth.password_validation.UserAttributeSimilarityValidator&#39;,

},

{

&#39;NAME&#39;: &#39;django.contrib.auth.password_validation.MinimumLengthValidator&#39;,

},

{

&#39;NAME&#39;: &#39;django.contrib.auth.password_validation.CommonPasswordValidator&#39;,

},

{

&#39;NAME&#39;: &#39;django.contrib.auth.password_validation.NumericPasswordValidator&#39;,

},

]

# Internationalization

# https://docs.djangoproject.com/en/1.11/topics/i18n/

#修改时区时间设置

LANGUAGE_CODE = &#39;zh-hans&#39;

TIME_ZONE = &#39;Asia/Shanghai&#39;

USE_I18N = True

USE_L10N = True

USE_TZ = False

#设置表态文件目录

STATIC_URL = &#39;/static/&#39;

STATICFILES_DIRS = [

os.path.join(BASE_DIR, "static"),

]

</p>

  全程序下载地址:Python英文单词记忆测试系统

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线