文章句子采集软件(【每日一题】文章句子采集软件收录我国主要城市)
优采云 发布时间: 2022-03-06 05:01文章句子采集软件(【每日一题】文章句子采集软件收录我国主要城市)
文章句子采集软件收录我国主要城市(包括特大城市、东北、西北、华北、华中、华东、华南、西南、*敏*感*词*、北美、欧洲等)的重要文本信息,实现句子的自动摘要。语料的获取渠道可以分为:第一种方法利用搜索引擎、知乎专栏和百度知道等聚合平台,通过文本摘要模型构建联想回答,如百度知道、知乎、百度文库、搜狗知道。这种方法获取数据量极少,耗时较长。
第二种方法利用爬虫抓取所有信息,但是需要大量的工作量,一般不采用这种方法。第三种方法我一直对这种方法情有独钟,这种方法主要依赖数据平台,采集前需要对所采集的数据进行处理,将表中的数据格式进行压缩,在编码过程中需要将utf-8等unicode编码转换为gbk编码,编码完成后,利用python自带的markdown语法将编码转换为gbk格式,将编码转换好后的词表打包成excel文件进行存储。
语料获取的数据量较大,运行时间长,尤其大文本。针对语料获取环节的几点技巧:语料抓取一般都有明确的规则可遵循,如果不知道明确的规则,最好不要下这个工具。(不知道规则,可以模仿规则,但是模仿再多,也是会被模仿,也不一定有效。)。当然可以根据自己的需要找网络上的语料,可以将语料中的字或词转化为中文实体词,再用这个实体词来做摘要。
主要工具:wordcloud、epicflow1.按wordcloud的命令行接口2.用epicflow的插件。wordcloud2.将提取好的主要实体词转化为汉语实体词。3.用wordcloud2在excel中构建词表和词列表。