小技巧:自媒体小白洗稿攻略，学会这7个办法，你也可以爆文

优采云发布时间: 2022-11-02 23:46

　　说到文案，很多人都觉得很难。很多朋友私下问我爆文怎么写比较快？想过整理7种洗稿方法，现在一一告诉大家：

　　文章伪原创方法一：更改文章的原标题，标题要新颖，收录关键词。考虑使用数字替换或单词替换。

　　文章伪原创方法二：拆分方法将较长的文章的原创内容平均分成若干个文章。在新的文章之间创建一个链接。

　　文章伪原创方法三：修改第一段文字，文章去除重复时，从头开始审稿，在开头找不到抄袭。

　　文章伪原创方法四：将原来的几个具有相似内容的文章整合成一个文章。这时要注意书写的顺序和逻辑。.

　　文章伪原创方法 5：将文章段落倒置。如果重新排列段落不影响文章的内容，您可以将段落 Row 的原创顺序打乱。

　　文章伪原创方法六：关键字标注，大家都知道关键字很重要，所以可以加关键字标注，当然还要考虑关键字出现的频率。

　　文章伪原创方法七：省略法用代词/图片替换或省略一些没有实际用途的词，以减少文章的相似度。

　　让我们仔细研究这7种方法，相信它们会对你有用。

　　干货:《作文精编大全》，Python程序员用爬虫制作的

　　文章目录

　　⛳️实战场景

　　本篇博客是另一个Python爬虫实战。目标站点是作文，一个充满作文的网站，因为它的网站有一点付费需求，所以一个父亲级的开发工程师不高兴，决定写一个小爬虫，他要的不多，只是一点点作文一年级。

　　就是下面这张图，让程序员们干活~

　　打开一年级作文列表页面，页面如下，第一步要完成的是这个列表页面采集的数据。

　　⛳️ 采集列表页面

　　在 Python 中编写简单的爬虫时，requests + lxml 是最简单的方法。

　　import requests

import json

headers = {

"User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/106.0.0.0 Safari/537.36"

}

res = requests.get('https://www.zuowen8.com/xiaoxue/yinianjizuowen/', headers=headers)

print(res.text)

　　如果直接运行代码，会得到一个中文乱码界面，如下图。

　　设置响应对象的编码，代码如下：

　　res = requests.get('https://www.zuowen8.com/xiaoxue/yinianjizuowen/', headers=headers)

res.encoding = 'utf-8' # 编码错误

print(res.text)

<p>

</p>

　　结果设置了utf-8后，编码还是不对。这时候需要查看网页源码中具体的编码设置，打开开发者工具，查看源码编码，发现网站使用的是gb2312，参考这个值进行设置向上。

　　res = requests.get('https://www.zuowen8.com/xiaoxue/yinianjizuowen/', headers=headers)

res.encoding = 'gb2312'

print(res.text)

　　⛳️ 提取列表组成地址

　　获取到页面源码后，可以提取出作文详情页面的地址，即下图中红框区域的链接。

　　res.encoding = 'gb2312'

e = etree.HTML(res.text)

h3_list = e.xpath("//h3/a/@href")

print(h3_list)

　　获取到链接后，需要拼接在一起才能得到详情页的完整地址，可以使用f-strings来完成。

　　base_domain = 'https://www.zuowen8.com'

for url in h3_list:

url = base_domain+url

print(url)

　　详情页地址拼接后，再次使用requests模块捕获详情页源码。

　　for url in h3_list:

url = base_domain+url

<p>

detail = requests.get(url,headers=headers)

detail.encoding = 'gb2312'

print(detail.text)

</p>

　　获取作文详情页面的源码，提取作文内容，即下图红框区域显示的信息。

　　⛳️提取成分8内容

　　看上图可以看到，合成内容都在class等于content的div中，所以可以解析。

　　for url in h3_list:

url = base_domain+url

detail = requests.get(url,headers=headers)

detail.encoding = 'gb2312'

d = etree.HTML(detail.text)

content = d.xpath('//div[@class="content"]//p/text()')

print(content)

　　上面的xpath表达式只提取了div元素中子标签p的内部文本，而只是忽略了标签u中的防爬信息，即下图中的绿框数据需要忽略。

　　运行代码，得到的内容如下，每篇文章按照段落提取成一个列表。

　　['今天，我和妹妹到楼下去抓蚂蚁。我抓了很多只大蚂蚁，大……', '后来，我又用棍子挑蚂蚁，', '谁知蚂……来。', '地上掉了一只辣椒，我看见很多蚂蚁在啃辣椒，有些蚂蚁被辣得跑掉了，有些蚂蚁在津津有味地啃着辣椒，还有几只蚂蚁想拖动辣椒，但是拖了半天都没拖动。']

　　最后，您只需将列表中的内容进行拼接，即可完成您的“论文集”。

　　您正在阅读[梦橡皮擦]的博客

　　看完可以点个赞

0

2022-11-02

伪原创相似度查询

0 个评论

要回复文章请先登录或注册

AI时代内容工厂

小技巧:自媒体小白洗稿攻略，学会这7个办法，你也可以爆文

0 个评论

发起人