核心方法:一种用python实现的自动重写文章标题的思路与代码实现

优采云 发布时间: 2022-12-23 04:56

  核心方法:一种用python实现的自动重写文章标题的思路与代码实现

  好几个星期没更新了。 今天给大家分享一个标题改写和代码实现的小思路。

  相信大家可能都用过5118的自动文章标题功能,就是给一个文章内容,然后直接给你写一个标题。 这个功能是去年一个学生给我看的。 现在还不清楚是否完善。 当时它的想法是直接从文章中取一个相关的句子作为文章的新标题。 当然,它有几个句子可供选择。 今天就用python来实现一个类似功能的小脚本吧。 我们一起玩吧。

  先说一下脚本获取原标题并计算标题字数的实现思路。 获取文章的正文内容,根据中文句末标点拆分,为新标题设置阈值。 这里我把原标题的句子拆分成0.5-2倍的筛选内容,只要字数与新标题相符即可。 取出所有临界值,计算出满足要求的句子与原标题的集合相似度。按照相似度高低排序,取相似度最高的作为新标题。 效果如下

  这里还有一些不完善的地方,因为时间关系,我没有做。比如:开头的一些无意义的词应该去掉等等。

  

  下面给出响应码,感兴趣的童鞋可以试试玩,毕竟不花钱。

  代码

  # coding: utf-8<br />"""<br />重写文章标题新方式<br />计算原标题与内容句子的相似度,取相似度最大的作为新标题<br />作者:brooks<br />"""<br />import re<br />import jieba<br /><br />sep = re.compile(r'[;。?!…():\s]')<br /><br /><br />def calculate_similar(wset, wset_len, title):<br /> tset = set(jieba.lcut_for_search(title))<br /> try:<br /> similar = 1 - len(wset - tset) / wset_len<br /> except ZeroDivisionError:<br /> similar = 1.0<br /> return similar<br /><br /><br />def make_new_title(title, content, rmstop):<br /> title_len = len(title)<br /> title_cut = set(jieba.lcut_for_search(title))<br /> max_title_len = title_len * 2<br /> min_title_len = title_len * 0.5<br /> sentences = sep.split(content)<br /> candi_senes = [sen.strip() for sen in sentences if min_title_len < len(sen.strip()) < max_title_len]<br /> good_titles = []<br /> for candi_sen in candi_senes:<br /> similar = calculate_similar(title_cut, title_len, candi_sen)<br /> new_title = rmstop.sub('', candi_sen)<br /> good_titles.append((candi_sen, new_title, similar))<br /> good_titles.sort(key=lambda x: x[-1], reverse=True)<br /> print(good_titles)<br /><br /><br />def test():<br /> # 停止词,本来想着去除掉句子中的停止词的,但是发现效果并不好,可读性很差<br /> res = r'|'.join(w.strip() for w in open("stopwords.txt", encoding="utf-8") if w.strip())<br /> stop_words = re.compile(res)<br /> # test.txt 是测试的内容,纯文本。<br /> with open('test.txt', encoding='utf-8') as f:<br /> content = f.read()<br /> # 原标题<br /> title = "场均净胜43.8分!史上最残暴的球队到底多恐怖?"<br /> make_new_title(title, content, stop_words)<br /><br /><br />if __name__ == '__main__':<br /> test()<br /><br />

  结尾

  这只是为了好玩,为什么要这样做,因为如果很多文章不是根据关键词采集的,用现有的方法很难改写标题,所以我想用一种简单快速的方式改写。

  

  这类文章的主要作用是促进内容收录,用来培养权重。 一般这类文章没有任何特定的关键词,比如散文类文章,大多数情况下很难用关键词来优化一篇文章。 它们都聚合到一个主题中进行优化。 原因是散文作者起的名字太古怪了。

  与此类似的还有一些心灵鸡汤,早安晚安心语等等。 这类文章一般原创度都比较高,拿来做网站维护和收录还是很不错的。

  之前创哥的公众号文章也分享了几个思路。 也可以移步创哥公众号学习。

  都在这里了,关注看就好!

  技巧:常用的SEO伪原创文章的方法有哪些__推广

  

  1.文章段落调整调整文章段落即可。 这种方式的优点是可读性比较高,但是伪原创程度很低。 这种方法现在一般不用了。

  

  2.使用工具,替换同义词,给文章加点词。 这种方法也被大家广泛使用。 如果不是很火,伪原创文章伪原创文章的。 但是现在大家都用同一套软件,文章过去被大量人转载伪原创,导致伪原创文章也很相似。 这也是不包括搜索引擎的原因。 如果只是因为一篇文章不是很火,关于这篇文章的伪原创文章不多,那么这样的伪原创文章还是不错的。 但是现在大家都用同一套软件,文章被很多人转载就是伪原创。 结果就是出现了很多雷同的伪原创文章。 3、开头和结尾手动写,中间的文章用第二种伪原创的方法,然后合并成一篇。 这种方法还是比较有效的,但是对于网站来说也比较费时。 那么看看网站们是如何权衡的。 优缺点比较突出。 4. 首先,用这个软件检查你的伪原创文章和网络文章的相似度。 一般相似度应控制在50%以下。 5、伪原创文章控制好可读性,吸引很多人点击阅读,但跳出率很高,停留时间很短。 搜索引擎也可以直接判断网站内容的可读性很差。 6.提高网站权重。 当网站权重高时,如果你转载一篇文章,它会比那些权重低的网站先被收录。 这句话不是这个身份高的人说的,但我还是选择相信身份高的人。 同样的原理权重高,文章会早点收录。

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线