小技巧:自媒体小白洗稿攻略,学会这7个办法,你也可以爆文

优采云 发布时间: 2022-11-02 23:46

  小技巧:自媒体小白洗稿攻略,学会这7个办法,你也可以爆文

  说到文案,很多人都觉得很难。很多朋友私下问我爆文怎么写比较快?想过整理7种洗稿方法,现在一一告诉大家:

  文章伪原创方法一:更改文章的原标题,标题要新颖,收录关键词。考虑使用数字替换或单词替换。

  文章伪原创方法二:拆分方法将较长的文章的原创内容平均分成若干个文章。在新的 文章 之间创建一个链接。

  

  文章伪原创 方法三:修改第一段文字,文章去除重复时,从头开始审稿,在开头找不到抄袭。

  文章伪原创 方法四:将原来的几个具有相似内容的文章整合成一个文章。这时要注意书写的顺序和逻辑。.

  文章伪原创 方法 5:将 文章 段落倒置。如果重新排列段落不影响 文章 的内容,您可以将段落 Row 的原创顺序打乱。

  

  文章伪原创方法六:关键字标注,大家都知道关键字很重要,所以可以加关键字标注,当然还要考虑关键字出现的频率。

  文章伪原创方法七:省略法用代词/图片替换或省略一些没有实际用途的词,以减少文章的相似度。

  让我们仔细研究这7种方法,相信它们会对你有用。

  干货:《作文精编大全》,Python程序员用爬虫制作的

  文章目录

  ⛳️实战场景

  本篇博客是另一个Python爬虫实战。目标站点是作文,一个充满作文的网站,因为它的网站有一点付费需求,所以一个父亲级的开发工程师不高兴,决定写一个小爬虫,他要的不多,只是一点点作文一年级。

  就是下面这张图,让程序员们干活~

  打开一年级作文列表页面,页面如下,第一步要完成的是这个列表页面采集的数据。

  ⛳️ 采集列表页面

  在 Python 中编写简单的爬虫时,requests + lxml 是最简单的方法。

  import requests

import json

headers = {

"User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/106.0.0.0 Safari/537.36"

}

res = requests.get('https://www.zuowen8.com/xiaoxue/yinianjizuowen/', headers=headers)

print(res.text)

  如果直接运行代码,会得到一个中文乱码界面,如下图。

  设置响应对象的编码,代码如下:

  res = requests.get('https://www.zuowen8.com/xiaoxue/yinianjizuowen/', headers=headers)

res.encoding = 'utf-8' # 编码错误

print(res.text)

<p>

</p>

  结果设置了utf-8后,编码还是不对。这时候需要查看网页源码中具体的编码设置,打开开发者工具,查看源码编码,发现网站使用的是gb2312,参考这个值进行设置向上。

  res = requests.get(&#39;https://www.zuowen8.com/xiaoxue/yinianjizuowen/&#39;, headers=headers)

res.encoding = &#39;gb2312&#39;

print(res.text)

  ⛳️ 提取列表组成地址

  获取到页面源码后,可以提取出作文详情页面的地址,即下图中红框区域的链接。

  res.encoding = &#39;gb2312&#39;

e = etree.HTML(res.text)

h3_list = e.xpath("//h3/a/@href")

print(h3_list)

  获取到链接后,需要拼接在一起才能得到详情页的完整地址,可以使用f-strings来完成。

  base_domain = &#39;https://www.zuowen8.com&#39;

for url in h3_list:

url = base_domain+url

print(url)

  详情页地址拼接后,再次使用requests模块捕获详情页源码。

  for url in h3_list:

url = base_domain+url

<p>

detail = requests.get(url,headers=headers)

detail.encoding = &#39;gb2312&#39;

print(detail.text)

</p>

  获取作文详情页面的源码,提取作文内容,即下图红框区域显示的信息。

  ⛳️提取成分8内容

  看上图可以看到,合成内容都在class等于content的div中,所以可以解析。

  for url in h3_list:

url = base_domain+url

detail = requests.get(url,headers=headers)

detail.encoding = &#39;gb2312&#39;

d = etree.HTML(detail.text)

content = d.xpath(&#39;//div[@class="content"]//p/text()&#39;)

print(content)

  上面的xpath表达式只提取了div元素中子标签p的内部文本,而只是忽略了标签u中的防爬信息,即下图中的绿框数据需要忽略。

  运行代码,得到的内容如下,每篇文章按照段落提取成一个列表。

  [&#39;今天,我和妹妹到楼下去抓蚂蚁。我抓了很多只大蚂蚁,大……&#39;, &#39;后来,我又用棍子挑蚂蚁,&#39;, &#39;谁知蚂……来。&#39;, &#39;地上掉了一只辣椒,我看见很多蚂蚁在啃辣椒,有些蚂蚁被辣得跑掉了,有些蚂蚁在津津有味地啃着辣椒,还有几只蚂蚁想拖动辣椒,但是拖了半天都没拖动。&#39;]

  最后,您只需将列表中的内容进行拼接,即可完成您的“论文集”。

  您正在阅读[梦橡皮擦]的博客

  看完可以点个赞

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线