教程:编辑的福音——一款用python编写的文字素材采集分析工具

优采云 发布时间: 2022-11-18 08:22

  教程:编辑的福音——一款用python编写的文字素材采集分析工具

  作者宇宇之前是文字编辑,写稿子的时候总觉得文字资料的采集整理会占用很多时间。往往一个话题确定后,就会在百度、各种门户甚至APP内容平台上找到相关资料。找不到很多,很累,就想如果有一个工具可以快速从网上各个地方搜集文本资料下载到本地进行批量分析就好了。如果写稿子的时候有大量的相关文字资料可供选择,岂不是事半功倍!

  百度了半天也没有找到类似的工具。由于之前对python有一定的了解,觉得用python应该可以实现自己想要的功能,所以决定现在学着卖,自己做一个文本分析工具采集。

  经过一番分析,大致的用例描述如下:

  编辑器首先寻找内容来源。比如鱼鱼想做财经类的内容,可以去一些财经类门户网站或者微信公众号找财经相关的内容。最后需要采集的是详情页的内容,但是事先需要从列表页批量获取详情页的url。采集的内容包括:标题、内容、发布时间采集,还提取了每个文章的高频词,以及文章中最具代表性的三个词A句子,也保存在word文件中,最终Word文件的内容格式如下:

  字段说明:

  将采集的文章分批放在一个文件夹(article)中,word文件的标题为{articleId}_{title}:

  以上就认为完成了采集,采集完成后,应该将word中的内容写入到MySQL数据库的article表中。同时将已经写入数据库的word文件移动到另一个文件夹(articleAtDB)。文章表结构如下:

  

  9、article表没有content字段,因为这个表主要是用来分析查找需要的内容。找到需要的内容后,根据articleId打开articleAtDB文件夹中的word文件进行查看。

  10、数据库article表存储的数据,可以直接写SQL查看,也可以用phpMyAdmin导出CSV文件过滤。从关键词字段,基本可以看出一篇文章文章的主要内容是什么。导出的CSV如下:

  11、可能有朋友会问,为什么采集的内容不是直接存入数据库,而是中间存入word文件,再从word文件写入数据库?其中一个原因是将文章文本保存在word文件中,更重要的原因是还有标签功能。

  12. 什么是标签?它是从 采集 到 文章 的。有时我们想对某段内容添加一些评论,希望word中的所有评论最终都能写入数据库。word:中的标签格式,t为标签名,即注释,c为标签对应的内容。

  13. 标签存储在标签表中。表的结构和写入数据后的效果如下:

  14、带有标签功能,可以在浏览内容采集时标记有用的内容,最后所有标记的内容都会存入数据库。写稿时,可以将之前标注的内容全部导出,供参考。当然,如果你觉得打标签麻烦,也可以不用这个功能,直接从采集的内容中复制过来,但是这样的话,你就无法享受long-未来标签内容的术语积累。

  15. 上面的过程画成图大概是这样的:

  

  上面是工具的大致用法,下面是设计

  系统采用面向对象的方式编写,各个模块相互分离。从使用的角度来看,主要分为两部分:

  采集 部分的类图:

  采集 部分序列图:

  解析部分类图:

  解析部分时序图:

  今天发布:石青百科工具发布

  作者邮件:

  网站名称:伪原创工具

  作者网站:

  下载地址:

  软件大小:2.62M

  软件语言:中文

  插件捆绑:无

  许可证:免费(绿色版)。

  应用平台:winnt/win2000/winxp/win2003/vista/win7/win8

  徽标图像:

  软件截图:

  

  2.1.6.10

  1、修复了综合采集中的一些问题;

  2.改进了内存管理;

  3.再次修改标题标题;

  简介:伪原创工具是一种SEO高级工具,专门用于生成原创和伪原创文章,使用伪原创工具可以在互联网上做出独特的伪原创文章

  中英文伪原创。

  本软件是一款免费的专业伪原创文章*敏*感*词*,专为百度和谷歌的爬虫习惯和分词算法而开发,通过本软件的优化文章会更多搜索

  受到SoEngine的青睐。

  伪原创工具具有以下优点:

  1.伪原创工具世界首创:本地和网络2种不同的伪原创方法;

  2.支持中英文伪原创;

  3.采用独特的分词引擎,完全匹配百度和谷歌的习惯。同时,我们提供免费的开发参数接口,使用-help查看

  

  4.唯一同义词和反义词引擎可以适当改变文章语义,唯一算法可控

  5.独特的段落和段落内迁移功能;

  6、伪原创内容支持导入导出为TXT或HTML等格式,方便客户迁移数据;

  7、独家支持在线自能伪原创东亿、信韵、老亚、德德、帝国、PHPcms、zblog等主流大型cms系统;

  8.绿色软件免安装,容量小,软件下载包只有2M多,占系统资源少,是同类软件的1/3;

  9.可以制作收录HTML标签的伪原创文章;

  10、可制作伪原创文章收录图片、Flash等多媒体格式;

  11.在线升级,全部免费,每月为您预定升级程序,保证百度与谷歌更新算法同步;

  12、提供“替换链接”贴心功能,有效增加SEO反向链接;

  13.原生编译代码,吃Win2000以上所有平台,包括WinXP、Win2003、Vista等;

  14.多核系统,做上万字伪原创文章,极快;

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线