自动采集系统(【每日一题】一种汉外双语平行语料自动采集的系统及实现方法)
优采云 发布时间: 2021-10-15 22:15自动采集系统(【每日一题】一种汉外双语平行语料自动采集的系统及实现方法)
一种自动中外双语平行语料库采集的系统及实现方法,包括中外双语平行信息的自动发现、自动提取、自动整理。>分组,通过搜索引擎搜索网站、采集网页得到搜索结果,对搜索结果信息进行过滤过滤后,将过滤后的搜索结果存入搜索结果数据库;其次,通过访问搜索结果数据库中的网页,自动从中外双语平行信息中提取;最后,对自动提取的中外双语平行信息进行数据过滤,将过滤后的中外双语平行数据存入中外双语平行语料库。
下载所有详细的技术数据
【技术实现步骤总结】
这项专利技术涉及计算机应用
,尤其涉及一种中外双语平行语料自动采集的系统及实现方法。
技术介绍
“平行文本”(ParallelTexts)是指用不同语言编写的文本,它们之间存在“翻译关系”。在计算语言学领域,它不同于“ComparableTexts”,后者也是用不同的语言编写的,关注同一主题,但它们之间没有直接的“翻译关系”。人类历史上出现过各种平行语料库。埃及出土的罗塞塔石碑,其铭文用两种语言和三种文字雕刻而成,是著名的古代平行语料库。法国古语言学者尚伯良通过对比碑上的文字,解读了古埃及的象形文字。此外,合同协议、宗教典籍、而不同语言的文学作品也影响了不同时期、不同领域的人们的生活。20世纪50年代末,平行语料库开始出现在机器翻译研究中。由于当时计算机的存储空间和计算能力有限,大量文本数据的输入难度较大,平行语料库的作用并没有受到太多关注。1970 年代后期,XeroxPARC 和 BrighamYoung 等研究中心广泛开展了翻译资源的采集工作。1987 年,Martin Kay 和 Martin Roscheisen 提出了最早的并行语料库自动对齐算法。此后,各种对齐方式层出不穷,对齐后的平行语料也被系统地应用于自然语言处理,
语料库的构建是统计学习方法的重要基础。近年来,语料库资源在自然语言处理研究中的巨大价值越来越得到人们的认可。尤其是双语语料库(Bilingual Corpus)已成为机器翻译、机器辅助翻译、翻译知识获取研究不可或缺的重要资源。一方面,双语语料库的出现直接推动了新机器翻译技术的发展。并行语料库为统计机器翻译模型的构建提供了必要的训练数据(例如,Browntal.1990; Melamed2000; OchandNey2002) ,基于语料库的翻译方法如 Statistic-Based 和 Example-Based 为机器翻译提供了新的思路研究,有效提升翻译质量,在机器翻译研究领域掀起新的高潮。一方面,双语语料库也是翻译知识的重要来源,从中可以挖掘和学习各种细粒度的翻译知识,如翻译词典(如Galeand Church1991;Melamed1997)和翻译模板)此外,双语语料库也是跨语言信息检索(例如,Davisand Dunning 1995;Jian-YunNie,TREC8;)、翻译词典编译、双语术语自动提取、和多语言比较研究。从而改进传统的机器翻译技术。此外,双语语料库还是跨语言信息检索(例如,Davisand Dunning 1995;Jian-YunNie,TREC8;)、翻译词典编译、自动双语术语提取和多语种比较研究的重要基础资源。从而改进传统的机器翻译技术。此外,双语语料库也是跨语言信息检索(例如,Davisand Dunning 1995;Jian-YunNie,TREC8;)、翻译词典编译、自动双语术语提取和多语种比较研究的重要基础资源。
双语平行语料库的构建和获取困难重重。国家投入了大量的人力、物力、财力。但是,双语平行语料的来源主要集中在政府报告、新闻、法律等特定领域,不适合真实文本应用。同时,互联网上的海量双语文本具有良好的时效性和覆盖率,为双语平行语料的获取提供了潜在的解决方案。加拿大蒙特利尔大学研究员聂建云开发的系统PTMiner(ParallelTextMiner,1999)):网站的搜索引擎,带有特定的锚文本,形成双语候选网站,然后依靠预定义语言的前缀和后缀表,提取具有 URL 命名相似性的候选网页,即如果 URL 收录一种语言的后缀,则将这些后缀替换为另一种语言的后缀以构建 URL。如果这样构造 如果 URL 存在,则找到一对候选网页。最后,根据文本长度、网页的HTML标记结构、网页的语言等特征,筛选出候选网页中的非平行网页对。PTMiner系统选择中英文并行网页的文本。数百对中英文平行网页经过人工评估,准确率接近90%。得到的英文文本为137M,中文文本为117M。由 Resnik 开发的 STRAND(结构翻译识别)系统,
与PTMiner相比,STRAND然后利用URL命名相似性,通过删除中英文URL中预定义的语言相关字符串,在网站中寻找候选网页对。如果去掉language 相关字符串后,中英文URL 相等,说明当前中英文URL 是一对候选的双语平行网页。此外,STRAND 对平行网页的结构相似性进行了更详细、深入的研究,并采用了更多基于网页结构的特征来筛选出互不互译的候选平行网页。人工评估了大约 400 个汉英平行网页对,达到了 98% 的准确率和 61% 的召回率。STRAND 系统已经获得了大约 3,500个中英文平行网页对。BITS(BilingualInternetTextSearch, MaandLiberman1999),下载指定域名下的所有网站作为候选网站,定义了一种计算中英文网页内容相似度的计算方法,即互译单词 文本中单词总数的比例用于确定汉英平行网页对。由陈继松开发的PTI(TheParallelTextIdentification System,2004)通过网页采集器)和澳大利亚莫纳什大学的其他人下载了大量双语网页后,通过基于URL命名相似性的文件名比较模型得到双语平行网页对,原理与PTMiner相同。
PTI系统共获得193对中英文平行文本,其中正确180对,正确率93%,召回率96%。WPDE(WebParallelDataExtraction,2006),由微软亚洲研究院吴科等人开发,利用搜索引擎获取候选网站,不仅是锚文本,还有图片的ALT信息。据到 URL 名称相似度 在获取候选双语平行网页对时,将 URL 分为路径名和基名。使用基于之前系统使用的预定义字符串格式,但基于改进的最小编辑距离算法,这种方法已经过测试并证明可以取得更好的效果。候选双语平行网页对除了文本长度、网页html结构等特征外,还引入了一个基于网页内容的特征,即候选双语平行网页文本的对齐方式句子。在与 PTI 相同的测试集上,WPDE 系统实现了 97% 的准确率和 94% 的召回率。随着网络信息时代的飞速发展,网络资源呈爆炸式增长。互联网是现代信息的重要来源。人们可以通过互联网获取大量的信息资源,但互联网混杂着大量的各类信息,如何从互联网海量信息中提取有价值的双语数据,是数据采集人员及相关企业面临的重要课题。基于Web的*敏*感*词*双语平行语料库获取技术的研究有助于解决双语语料获取问题,对于推动相关技术的发展和实用性具有重要意义。目前,中外双语平行语料库采集的工具和方法还很缺乏,能够进行自动采集的工具和方法很少。所以迫切需要一种能够自动采集中外双语平行语料库的方法,以解放语料库采集的繁琐工作
技术实现思路
针对现有技术的不足,该专利技术自动提供中外双语平行语料库采集
【技术保护点】
自动提取中外双语平行信息;(3)自动排序模块:对自动提取的中外双语平行信息进行过滤,将过滤后的中外双语平行数据存储在中外双语平行语料库中。
【技术特点摘要】
1.一种中外双语平行语料自动采集系统,包括中外双语平行信息自动发现模块、自动提取模块、自动排序模块,其特点是:
(1)自动发现模块:实现中外双语平行语料自动发现功能,制定需要采集语料的关键词组,搜索网站, 采集通过搜索引擎@>网页获取搜索结果,对搜索结果的信息进行过滤过滤后,将过滤后的搜索结果存入搜索结果数据库;
(2)自动提取模块:实现中外双语平行语料自动提取功能,通过访问搜索结果库中的网页自动提取中外双语平行信息;
(3)自动排序模块:对自动提取的中外双语平行信息进行过滤,将过滤后的中外双语平行数据存储在中外双语平行语料中。
2.如权利要求1所述的中外双语平行语料自动采集系统,其特征在于,所述自动发现模块的中外双语平行语料自动发现如下: 或多组中文-to-foreign translation 关键词 分组通过搜索引擎获取搜索结果,对搜索结果进行分析,并有针对性地进行数据采集。
3.根据权利要求1所述的中外双语平行语料自动发现采集系统,其特征在于,所述中外双语平行语料自动发现模块的自动发现设计原理为:
一种。所选的关键词组应该是特定领域内的一对中外翻译;
湾 使用的第三方搜索引擎工具是一个开放的搜索服务提供商;
C。通过关键词组搜索得到结果后,只保存前n页信息,n与所选关键词的流行度相关联,保存的内容包括搜索结果URL地址、搜索结果标题和搜索结果摘要。
4.如权利要求1所述的中外双语平行语料自动采集系统,其特征在于,所述自动提取模块的双语平行语料自动提取如下:使用网络机器人定位目标访问网页,使用对应的中外翻译关键词组定位目标页面的内容,从锚点开始,来回遍历,获取页面数据。
5.根据权利要求1所述的中外双语平行语料自动采集系统,其特征在于,所述自动提取模块的网络双语平行语料提取原理:
一种。指定的页面文件类型只能是“html”、“htm”、“shtml”和普通页面文件类型,非指定类型的页面将无法访问;
湾 在访问目标网页之前,网络会检查目标网站的robots.txt文件。如果robots.txt文件中存在目标页面,则不会访问目标网页;
...
【专利技术属性】
技术研发人员:温家凯、农强、刘连芳、邓子贤、卢迪贤、
申请人(专利权):,,
类型:发明
国家省市:广西;45
下载所有详细技术资料 我是此专利的所有者