教你如何使用python快速提取文章关键词(附源码)
优采云 发布时间: 2022-06-20 05:35教你如何使用python快速提取文章关键词(附源码)
如何给文章取一个标题,要贴近文章主题那种?如何给文章提取关键词?即使你能一目十行,过目不忘,也比不上机器“一幕十篇”。接下来介绍一个python项目,经过笔者的改造后,可以方便学习和使用,它能很好、很快地提取文章关键词。
先喝杯咖啡,让我们开始python之旅
python版本:3.6.0
编辑器:pycharm
项目所需要的环境安装包
pip install jieba<br />pip install bs4
# encoding:utf-8<br />import jieba<br />import jieba.analyse<br />import jieba.posseg as pseg<br />from bs4 import BeautifulSoup
jieba: 这是一个处理中文分词工具包。其实它并不是只有分词这一个功能,而是一个开源框架,提供了很多在分词之上的算法,如关键词提取、词性标注等。可以说是做人工智能一个必备的python包。
bs4: 它的作用是能够快速方便简单的提取网页中指定的内容,给我一个网页字符串,然后使用它的接口将网页字符串生成一个对象,然后通过这个对象的方法来提取数据。爬虫工程师会经常用到这个包,这里作为一个数据清洗的包使用。
class CONF:<br /> stopwords_path = './data/stopwords.txt'<br /> mydict_path = './data/mydict.txt'<br /> top_n = 10 # 只取10个关键词
参数配置类:文件路径、模型存放路径、模型参数统一放在一个类中。值得注意的是,实际项目开发的时候,是用后缀名为config文本文件存放,不会直接写在代码里。这里为了演示方便,就写在一起,也方便运行。这块代码放在代码文件的开头也方便查看和修改。stopwords_path是一个停用词库的相对路径。mydict_path是一个词典路径,词典里主要存放一些网络名词和一些jieba分词识别不出的新词汇。
class KeyWordModel:<br /> def __init__(self, stopwords_path, mydict_path, top_n):<br /> self.stopwords_path = stopwords_path<br /> self.mydict_path = mydict_path<br /> self.top_n = top_n<br /> # 加载停用词 特殊词典<br /> jieba.analyse.set_stop_words(self.stopwords_path)<br /> jieba.load_userdict(self.mydict_path)<br /><br /><br /> """模型初始化"""<br /> @classmethod<br /> def initialize(cls, config):<br /> stopwords_path = config.stopwords_path<br /> mydict_path = config.mydict_path<br /> top_n = config.top_n<br /> return cls(stopwords_path, mydict_path, top_n)
initialize()函数和__init__()函数 是对象初始化和实例化,其中*敏*感*词*成良好的编程习惯,大家可以把这个模板记下来,后续直接套用,修改部分参数就可以了。jieba.analyse.set_stop_words()和jieba.load_userdict()分别是导入停用词和导入自己构建的词汇,这里放在__init__()函数中,类被实例化的时候,只被调用一次。
"""获取关键词"""<br />def get_keyword(self, content):<br /> text_rank_word = self.__tf_idf_key_word(content)<br /> tf_idf_word = self.__textrank_key_word(content)<br /> word_list = list(set(text_rank_word).union(set(tf_idf_word)))<br /> result = self.__filter_pos_key_word(word_list, content)<br /> return result
在写代码的时候,一定要抓住主线,就是代码运行的主流程。因为一个完整可靠的项目,它是有很多细枝末节考虑,很多步骤是要分模块来写。主流程就是把主心干确定好,各个模块的入口确定好。这样开发的时候,思路会比较清晰,不会被细节吸引住。这里主心干只有个函数get_keyword()的调用,其中text_rank_word、tf_idf_word分别用textrank和tfidf算法提取关键词,最后再用词性过滤器__filter_pos_key_word(), 提取名词关键词。
"""TF-IDF 提取top_n个关键词"""<br />def __tf_idf_key_word(self, content):<br /> sp = BeautifulSoup(content, "html.parser")<br /> tags = jieba.analyse.extract_tags(sp.text, topK=self.top_n)<br /> return tags<br /><br /><br />"""TextRank 提取top_n个关键词"""<br />def __textrank_key_word(self, content):<br /> sp = BeautifulSoup(content, "html.parser")<br /> tags = jieba.analyse.textrank(sp.text, topK=self.top_n)<br /> return tags<br /><br /><br />"""只获取名词"""<br />def __filter_pos_key_word(self, tag_list, content, pos_list=['n', 'nr', 'ns', 'nt', 'nrt']):<br /> sp = BeautifulSoup(content, "html.parser")<br /> words = pseg.cut(sp.text)<br /> list_tmp = []<br /> for w in words:<br /> word = w.word<br /> if w.flag in pos_list and len(word) > 1 and word not in list_tmp and word in tag_list:<br /> list_tmp.append(word)<br /> return list_tm
TF-IDF:这是一个常用的提取关键词算法,利用文章中词频越高重要性越高、和逆词频(该词在其他文章词频越低越能代表本文章)。
TextRank:有点像PageRank 算法,感兴趣的朋友可以了解一下,这里不过多介绍有难度的算法。
pseg: 这是一个词性解析器,它能够分析句子中每个词语的属性,例如:名词、动词、形容词等。
用我之前写的《》,来生成随机一篇文章标题为《标题党》的文章,作为程序的输入,运行结果:
关键词:['标题党', '事实', '缺点', '深思', '角度', '能力', '梦想']
如果有疑问想获取源码, 可以在后台私信我,回复:python关键词。我把源码发你。最后,感谢大家的阅读,祝大家工作生活愉快!
长按二维码
获取更多精彩
IT可达鸭