dataquest抓取百度“tibco”中文语料库自动摘要大比武

优采云发布时间: 2022-05-03 05:01

　　文章句子采集软件网页语料库自动摘要大比武dataquest是aminer旗下全新、小巧的中文数据采集和处理利器，一款微不足道的工具，却极大地缩小了语料库的搜索边界，使无数科研工作者着实受益。以下是本文利用dataquest抓取的百度“tibco”的中文语料库，并做成摘要工具供大家自我学习。另外在文章摘要字段，我们也给出了figure5的语料库源代码，同学们可直接使用。数据库的包括时间段，长度、多边形组图（z-generator）、词频分析等。

　　一、tibco转中文语料库tibco是一个全自动中文采集的机器人爬虫，它可以自动的从百度“tibco”网页上抓取中文语料库的信息。可以说这是百度tibco官方做的一个无奈之举，毕竟现在在很多机构，包括医院等，购买官方的购买权限是很困难的事情，百度tibco由于有年头，而且图片质量很好，语料库的质量也不错，他才会采用这种方式。

　　另外说一下如何安装这个程序。安装codec-manager插件，在这里，把requirement.txt里面所有的compilers和libtext放到bin下，然后在网页文件夹的cmd里输入以下命令：cddatabasemkdirweb-page-masterlibtextcodec-manager安装完以后，双击codec-manager程序文件即可进入codec-manager界面，左侧有一大堆源代码和可以下载的文件夹。

　　最上面是效果图片，主要介绍语料库的抓取过程，包括采集方法、文章概要、词频分析、参考文献等内容。因为我们只抓取时间段的中文语料库，所以右侧包含了10个中文词频分析选项卡，分别对应下图红框中四个方法，分别为当前时间段抓取、通过词频搜索抓取、小词挖掘、大词挖掘。当然pos、pl组的可以直接抓取。

　　二、数据源其实数据源这边没有什么难度，我们在之前的采集-评分体系、esp、gr选项卡上，添加了词频分析功能。首先，下载好需要下载的源代码，包括存储的codec-manager、bin目录下的源代码和插件所在目录下的源代码。双击文件codec-manager进入codec-manager的管理页面，打开左侧一个一个下载，得到tibco语料库文件夹，拷贝到bin目录下，打开addtopic下的java-jar.jar插件，引入java-jar.jar的全部源代码，初始化完成后重启程序即可。

　　三、爬虫工具接下来是爬虫工具，这里我会用到abbyyfinereader转中文文档。这里说一下abbyy的cdc文档，由于我们在爬取前，在网页的源代码里面发现了加密，这个时候就要进行破解，请大家去找对应的源代码下载。地址在右侧，请查看tcmanual打开后，自己看所用版本即可。具体可以。

0

2022-05-03

文章句子采集软件

0 个评论

要回复文章请先登录或注册

AI时代内容工厂

dataquest抓取百度“tibco”中文语料库自动摘要大比武

0 个评论

发起人