总结:教你如何使用python快速提取文章关键词（附源码）

优采云发布时间: 2022-10-05 02:12

　　如何给文章起一个接近文章主题的标题？如何为文章提取关键词？哪怕一次能看十行，过目不忘，也比不上一台机器的“一景十景”。接下来介绍一个python项目。经过作者改造后，可以轻松学习和使用。它可以非常快速地提取文章关键词。

　　先喝杯咖啡，开始我们的蟒蛇之旅

　　蟒蛇版本：3.6.0

　　编辑：pycharm

　　项目所需的环境安装包

pip install jieba pip install bs4

# encoding:utf-8 import jieba import jieba.analyse import jieba.posseg as pseg from bs4 import BeautifulSoup

　　jieba：这是一个处理中文分词的工具包。其实它不仅有分词的功能，而且是一个开源框架，提供了很多关于分词的算法，比如关键词提取、词性标注等。可以说是人工智能必备的python包。

　　bs4：它的作用是快速方便地提取网页中的指定内容，给我一个网页字符串，然后用它的接口从网页字符串中生成一个对象，然后通过this的方法提取数据目的。爬虫工程师会经常用到这个包，这里作为数据清洗包使用。

class CONF: stopwords_path = './data/stopwords.txt' mydict_path = './data/mydict.txt' top_n = 10 # 只取10个关键词

　　参数配置类：文件路径、模型存储路径、模型参数统一在一个类中。值得注意的是，在实际项目开发的时候，是存储在一个带后缀的config文本文件中，不会直接写在代码中。这里为了方便演示，一起写，方便运行。这段代码放在代码文件的开头，方便查看和修改。stopwords_path 是停用词数据库的相对路径。mydict_path 是一个字典路径。词典主要存储一些网络名词和一些jieba分词无法识别的生词。

class KeyWordModel: def __init__(self, stopwords_path, mydict_path, top_n): self.stopwords_path = stopwords_path self.mydict_path = mydict_path self.top_n = top_n # 加载停用词特殊词典 jieba.analyse.set_stop_words(self.stopwords_path) jieba.load_userdict(self.mydict_path) """模型初始化""" @classmethod def initialize(cls, config): stopwords_path = config.stopwords_path mydict_path = config.mydict_path top_n = config.top_n return cls(stopwords_path, mydict_path, top_n)

　　initialize()函数和__init__()函数是对象的初始化和实例化，*敏*感*词*成良好的编程习惯，可以把这个模板写下来，以后直接套用，修改一些参数。jieba.analysis.set_stop_words() 和 jieba.load_userdict() 是导入停用词和导入自构词表，放在__init__() 函数中。当类被实例化时，它只被调用一次。

"""获取关键词""" def get_keyword(self, content): text_rank_word = self.__tf_idf_key_word(content) tf_idf_word = self.__textrank_key_word(content) word_list = list(set(text_rank_word).union(set(tf_idf_word))) result = self.__filter_pos_key_word(word_list, content) return result

　　写代码的时候一定要把握主线，也就是代码运行的主流程。因为它是一个完整可靠的项目，它有很多细节需要考虑，很多步骤都写成模块。主要流程是确定各个模块的主体和入口。这样发展，思路会更清晰，不会被细节所吸引。这里的主干只是对函数get_keyword()的调用，其中text_rank_word和tf_idf_word分别由textrank和tfidf算法提取关键词，最后使用词性过滤器__filter_pos_key_word()提取名词关键词。

"""TF-IDF 提取top_n个关键词""" def __tf_idf_key_word(self, content): sp = BeautifulSoup(content, "html.parser") tags = jieba.analyse.extract_tags(sp.text, topK=self.top_n) return tags """TextRank 提取top_n个关键词""" def __textrank_key_word(self, content): sp = BeautifulSoup(content, "html.parser") tags = jieba.analyse.textrank(sp.text, topK=self.top_n) return tags """只获取名词""" def __filter_pos_key_word(self, tag_list, content, pos_list=['n', 'nr', 'ns', 'nt', 'nrt']): sp = BeautifulSoup(content, "html.parser") words = pseg.cut(sp.text) list_tmp = [] for w in words: word = w.word if w.flag in pos_list and len(word) > 1 and word not in list_tmp and word in tag_list: list_tmp.append(word) return list_tm

　　TF-IDF：这是一种常用的提取关键词算法，使用文章中词频越高，重要性越高，反词频（其他文章，更好的代表这个文章）。

　　TextRank：有点像PageRank算法。有兴趣的朋友可以了解一下。在这里，我不会介绍太多高难度的算法。

　　pseg：这是一个词性解析器，分析句子中每个单词的属性，例如：名词、动词、形容词等。

　　用我之前写的“”随机生成一个标题为“标题党”文章的文章，作为程序的输入，运行结果：

　　关键词：['标题党'，'事实'，'劣势'，'思想'，'角度'，'能力'，'梦想']

　　有问题想获取源码，可以后台私信我，回复：python关键词。我会把源代码发给你。最后，感谢您的阅读，祝您工作愉快，生活愉快！

　　长按二维码

　　获得更多精彩

　　IT达人

　　总结:做SEO网站刷关键词排名软件真的有效吗?

　　现在做SEO网站关键词排名很多SEO站长使用各种关键词排名软件对网站指定的关键词进行各种排名，刷指定排名。网站关键词排名；那么SEO使用排名工具刷网站关键词排名真的有效吗？

　　在网站做SEO优化工作的时候，不仅你遇到过这样的问题，而且一开始你的老板让你做指定的关键词排名，结果你花了几个月的功夫做关键词百度首页排名，甚至是百度首页第一，老板汇报的时候，老板问为什么网站关键词排名第一，却没有用户咨询？SEO网站优化真的有效吗？一句话直接问自己；反正我也经历过这样的事情。不知道你有没有经历过。

　　我们在做SEO网站优化的时候，一般有以下几个目的：

　　1. 展示量

　　2. 关键词排名

　　3. 网站重量

　　4. 网站交通

　　5.网站查询量

　　6. 网站音量

　　当你在很多公司工作的时候，当你问老板你需要什么效果时，老板表面上会告诉你网站流量、网站关键词排名、网站的效果权重等等，老板真正想要的是通过网站获得大量的用户查询、交易量。

　　那么，刷关键词排名软件真的有用吗？这主要看你需要通过网站达到什么效果和目的；用软件刷关键词排名本身就是搜索引擎作弊，但是如果被搜索引擎识别，就会面临网站K，被降级，所以排名关键词是不行的长期计划；如果你只是为了短期目的做网站关键词排名，一些排名软件是可以的，但是记住，关键词排名不等于网站查询，交易量.

　　企业之所以要这么做，是因为SEO网站优化主要是通过网站运营和推广，获得一个大的、精准的、长期稳定的搜索引擎精准流量，实现低- 成本客户扩展。

　　所以，为了企业长期稳定的效果，还是建议大家使用常规的白帽SEO网站优化网站优化，优化网站关键词排名相对稳定；如果只是为了网站关键词排名，使用各种刷关键词排名软件来做网站关键词排名，但是做起来并不容易，搜索引擎识别结果导致网站k，会受到降权、限制展示等处罚，得不偿失；

　　因为一旦网站被惩罚，就会从0开始，这对很多企业来说是负担不起的。

0

2022-10-05

关键词文章采集源码

0 个评论

要回复文章请先登录或注册

AI时代内容工厂

总结:教你如何使用python快速提取文章关键词（附源码）

0 个评论

发起人

AI时代内容工厂

总结:教你如何使用python快速提取文章关键词（附源码）

0 个评论

发起人

相关问题