内容分享:文章采集文字替换工具(文章资源采集)
优采云 发布时间: 2022-12-02 12:25内容分享:文章采集文字替换工具(文章资源采集)
目录:
1. 文章文字采集软件
如何批量替换文章中的文字内容?对于需要发布到网站的文章,如果临时出错,需要替换多篇文章中的文字,如何批量替换文章中的文字和图片?我们更原创
的方式是打开原文替换文章中的文字。这种方式比较慢,不适合需要rewrite次数过多的情况。
2. 文章正文采集方法
3. 如何采集
文章
我们也可以使用SEO工具,通过在SEO模板中设置我们需要替换的文字,比如我们需要将原文章中的“ship”替换为“yacht”,只需输入“Ship####yacht”即可完成模板的配置。
4.网页文字采集
最后就是利用SEO工具监控我们需要替换文字的文件夹,让文件夹中的文档通过SEO模板进行编辑,然后导出我们输出的文档,我们就可以完成替换文字内容的工作了文章分批次。
" />
五、文本信息的采集
方法
通过SEO工具,我们可以很方便的替换大量文档的文字。我们也可以在挂机操作后改变被替换文档的格式。支持word、TXT、excel、html等主流文档格式,方便我们进行其他更多的操作。
6.文章采集
应用
批量替换文章文字的技巧分享到此结束。通过SEO工具,我们不仅可以替换原文档中的文字,还可以替换源文档中的图片,设置敏感词删除,按频率插入关键词。
教程:再也不用手动复制粘贴收集Taptap游戏评论了,还可以制作好看的热词词云图~
Taptap播放器测评内容集合比较简单,其测评页面变化规律非常明确,主要由应用id、测评排序类型、页码三部分组成。
“130630/review?order=default&page=1#review-list”
其中130630为应用id,这里是手游天涯明月刀;默认为评论排序类型,如最新、最热等;1为页码,即当前选择的排序类型下评论内容的页码(每页20条评论)。
我们直接通过requests库的get方法请求网页数据,然后使用bs4分析数据找到我们需要的评论文字内容。之前介绍过类似的方法,这里不再详细介绍代码逻辑。可以直接看下面的代码:
def tapReview(appid,num,order):
'''
Parameters
----------
appid : int
你需要查询应用的数字id.
num : int
你需要爬取的评论页数.
num : str
你需要爬取的评论列表类型
默认:default
最新:update
最热:hot
游戏时长:spent.
Returns
-------
contents : list
评论内容列表.
'''
print('开始爬取数据...')
contents = []
n = 0
for i in range(1,num+1):
# 评价内容页(每页20条评价,不采集评价下面的回复内容)
url = f'https://www.taptap.com/app/{appid}/review?order={order}&page={i}#review-list'
html = requests.get(url)
text = html.text
soup = BeautifulSoup(text,'html.parser')
text_body = soup.find_all(class_="taptap-review-item collapse in")
for j in range(len(text_body)):
<p>
" />
text_html = text_body[j]
content = text_html.find(class_="item-text-body").text.strip()
n =n +1
contents.append(content)
print(f'\r已爬取{n}条评价内容',end=' ')
return contents
</p>
复制
以下是截取的部分评测内容
天道部分测评内容
3.热词词云制作
到的评论,我们可以使用jieba作为基础分词;如果我们需要去除一些词,比如“我们,认为”等,我们可以添加停用词stopwords;如果我们需要添加自定义词,比如“氪金、国服、手游”等,可以使用jieba.add_word方法。对于生成的词云图,引入一些参数如下:
"mask:词云的背景图(词云的表现可以依赖背景图) background_color:词云的背景色 font_path:词云文本的字体 max_words:最大显示的词数在词云中”
def ciYun(data,addWords,stopWords):
'''
Parameters
----------
data : list
需要用于制作词云的文本内容列表.
addWords : list
自定义词典列表.
stopWords : list
停用词列表.
Returns
-------
None.
'''
print('\n正在作图...')
comment_data = []
for item in data:
if pd.isnull(item) == False:
comment_data.append(item)
# 添加自定义词典
for addWord in addWords:
jieba.add_word(addWord)
<p>
" />
comment_after_split = jieba.cut(str(comment_data), cut_all=False)
words = ' '.join(comment_after_split)
# 词云停用词
stopwords = STOPWORDS.copy()
for stopWord in stopWords:
stopwords.add(stopWord)
# bg=np.array(Image.open(r"C:\Users\gongdc\Desktop\sgyx.png"))
# mask=bg
wc = WordCloud(width=1080, height=960, background_color='black', font_path='FZZJ-YGYTKJW.TTF', stopwords=stopwords, max_font_size=400, random_state=50)
wc.generate_from_text(words)
plt.figure(figsize=(15, 12))
plt.imshow(wc)
plt.axis('off')
# plt.savefig(r'F:\词云\9月3日评价词云.png')
plt.show()
print('词云已生成~')
</p>
复制
4.程序运行
因为针对不同的游戏,我们在讨论的时候可能会有一些特殊的词汇,但是不会太多,所以我把它放在外面,让我们以列表的形式自由添加~另外,stop words 如果是的话,我发现本地调用常用的txt文件~
"常用中文停用词:"
if __name__ == "__main__":
# 采集游戏评论
data = tapReview(130630,10,'update')
# 自定义词典
addWords = ['捏脸','手机版',"手游"]
# 添加停用词(读取本地停词文件)
stoptxt = pd.read_table(r'C:\Users\Gdc\Desktop\stop.txt',encoding='utf-8',header=None)
stoptxt.drop_duplicates(inplace=True)
stopWords = stoptxt[0].to_list()
# 运行~
ciYun(data,addWords,stopWords)
复制