dataquest抓取百度“tibco”中文语料库自动摘要大比武
优采云 发布时间: 2022-05-03 05:01dataquest抓取百度“tibco”中文语料库自动摘要大比武
文章句子采集软件网页语料库自动摘要大比武dataquest是aminer旗下全新、小巧的中文数据采集和处理利器,一款微不足道的工具,却极大地缩小了语料库的搜索边界,使无数科研工作者着实受益。以下是本文利用dataquest抓取的百度“tibco”的中文语料库,并做成摘要工具供大家自我学习。另外在文章摘要字段,我们也给出了figure5的语料库源代码,同学们可直接使用。数据库的包括时间段,长度、多边形组图(z-generator)、词频分析等。
一、tibco转中文语料库tibco是一个全自动中文采集的机器人爬虫,它可以自动的从百度“tibco”网页上抓取中文语料库的信息。可以说这是百度tibco官方做的一个无奈之举,毕竟现在在很多机构,包括医院等,购买官方的购买权限是很困难的事情,百度tibco由于有年头,而且图片质量很好,语料库的质量也不错,他才会采用这种方式。
另外说一下如何安装这个程序。安装codec-manager插件,在这里,把requirement.txt里面所有的compilers和libtext放到bin下,然后在网页文件夹的cmd里输入以下命令:cddatabasemkdirweb-page-masterlibtextcodec-manager安装完以后,双击codec-manager程序文件即可进入codec-manager界面,左侧有一大堆源代码和可以下载的文件夹。
最上面是效果图片,主要介绍语料库的抓取过程,包括采集方法、文章概要、词频分析、参考文献等内容。因为我们只抓取时间段的中文语料库,所以右侧包含了10个中文词频分析选项卡,分别对应下图红框中四个方法,分别为当前时间段抓取、通过词频搜索抓取、小词挖掘、大词挖掘。当然pos、pl组的可以直接抓取。
二、数据源其实数据源这边没有什么难度,我们在之前的采集-评分体系、esp、gr选项卡上,添加了词频分析功能。首先,下载好需要下载的源代码,包括存储的codec-manager、bin目录下的源代码和插件所在目录下的源代码。双击文件codec-manager进入codec-manager的管理页面,打开左侧一个一个下载,得到tibco语料库文件夹,拷贝到bin目录下,打开addtopic下的java-jar.jar插件,引入java-jar.jar的全部源代码,初始化完成后重启程序即可。
三、爬虫工具接下来是爬虫工具,这里我会用到abbyyfinereader转中文文档。这里说一下abbyy的cdc文档,由于我们在爬取前,在网页的源代码里面发现了加密,这个时候就要进行破解,请大家去找对应的源代码下载。地址在右侧,请查看tcmanual打开后,自己看所用版本即可。具体可以。