归纳总结:如何抽取文章特征？

优采云发布时间: 2022-11-25 22:12

　　归纳总结:如何抽取文章特征？

　　信息提取，

　　即从自然语言文本中提取特定事件或事实信息，帮助我们自动分类、提取和重构海量内容。

　　此信息通常包括实体、关系和事件

　　例如，从新闻中提取时间、地点、关键人物

　　或者从技术文档中提取产品名称、开发时间、性能指标等。

　　有时，信息提取也称为事件提取。

　　与自动汇总相比，信息提取的目的性更强，可以将找到的信息呈现在一定的帧内。自动摘要输出是一个完整的自然语言句子，需要考虑语言的连贯性和语法，甚至逻辑。有时信息提取也用于完成自动汇总。

　　由于可以从自然语言中提取用户感兴趣的信息框架和事实信息，因此信息提取广泛应用于信息检索、问答系统、情感分析和文本挖掘。

　　一般来说，为了完成一个信息提取任务，需要提前提供一套规则来直接定义提取目标;或者提供一组带注释的文档来间接限制提取范围，信息提取系统将以此为基础，从其他文档中查找符合用户定义的数据。因此，从抽取技术的角度来看，一般可以分为基于规则的信息抽取技术和基于统计的信息抽取技术：前者是用户提供并由抽取系统匹配的规则抽取，一般在特定领域具有较高的精度;后者是带有用户提供的标注的训练集，提取系统自动学习提取准则，对文本中的噪声具有良好的鲁棒性，召回率相对较高。

　　信息抽取是搜索引擎和自然语言处理领域的核心技术之一，也是舆情分析的重要工程基础。尽管信息提取已经发展了二十年，但在运营效率和*敏*感*词*性方面仍然存在挑战。以下是Java/Python中文信息处理工具，没有计算机知识的人也可以直接使用：

" />

　　NLPIR大数据语义智能分析平台（原ICTCLAS）由北京理工大学大数据搜索与挖掘实验室主任张华平开发，针对大数据内容

" target="_blank">采集、编辑和搜索的综合需求，整合网络精准采集、自然语言理解、文本挖掘和语义搜索的最新研究成果，近20年来一直在不断创新。平台提供客户端工具、云服务、二次开发接口等多种产品使用形式。每个中间件API都可以无缝集成到客户的各种复杂应用系统中，兼容Windows、Linux、Android、Maemo5、FreeBSD等操作系统平台，并可被Java、Python、C、C#等开发语言使用。

　　NLPIR大数据语义智能分析平台十三个功能：

　　NLPIR大数据语义智能分析平台客户端

　　准确采集

：

　　实时精准采集*敏*感*词*互联网海量信息，有两种模式：主题采集（根据信息需求采集主题）和网站采集（针对给定URL列表对网站进行定点采集功能）。

　　文档转换：对DOC、EXCEL、PDF和PPT等多种主流文档格式进行文本信息转换，效率满足大数据处理的要求。新词

　　发现：从文本中挖掘新词、新概念，用户可将其用于专业词典的编纂，并可进一步编辑批注，导入分词词典，提高分词系统的准确性，适应新的语言变化。

　　批量分词：分割原创

语料库，自动识别人名、地名、机构名称、新词注释、词性标记等未注册词。用户定义的字典也可以在分析过程中导入。

　　语言统计：对于分词和标注结果，系统可自动进行单变量词频统计和二进制词迁移概率统计。对于常用术语，将自动给出相应的英文解释。

" />

　　文本聚类：从*敏*感*词*数据中自动分析热点事件，并提供事件主题的关键特征。也适用于短信、微博等长文本和短文本的热点分析。文本分类

　　：根据规则或训练方法对大量文本进行分类，可用于新闻分类、简历分类、邮件分类、办公文档分类、区域分类等诸多方面。摘要

　　实体：针对单篇或多篇文章，自动提取内容摘要，提取人物、地点、机构、时间和主题关键词的名称;方便用户快速浏览文本内容。智能过滤：

　　对文本内容进行智能过滤和审核，内置国内最全的词库，智能识别多种变体：变形、声音变化、复杂简单等变体，语义精准消歧。

　　情绪分析：

　　对于预先指定的分析对象，系统自动分析海量文档的情感倾向：情感极化和情感价值测量，并给出原文中的正负分数和句子示例。

　　文档重复数据删除：快速准确地确定文件或数据库中是否存在相同或相似内容的记录，并查找所有重复记录。

　　全文搜索：支持文本、数字、日期、字符串等数据类型，多字段高效搜索，支持AND/OR/NOT和NEAR邻近查询语法，支持维吾尔语、藏语、蒙古语、阿拉伯语、韩语等少数民族语言搜索。

　　编码转换：自动识别内容的编码，并将编码统一转换为其他编码。

　　以上就是推荐的中文分词工具，希望对您有所帮助，如果您有任何疑问，可以联系我，我会帮忙解答！

　　操作方法:Dedecms

" target="_blank">采集功能的使用方法 — 不含分页的普通文章（一）

　　前言：本文是写给刚接触Dedecms采集功能的朋友的。所选目标站点为Dedecms官网dreameaver栏目中文章内容页不收录

分页的文章。以图文形式详细介绍了如何创建基本的采集规则。本文分为三部分：第一部分主要介绍如何进入采集

界面以及新建采集

节点第一步：设置基本信息和URL索引页面规则；第二节主要介绍新的采集节点第二步：设置字段采集规则；第三节主要介绍如何采集指定节点以及如何导出采集到的内容。输入下面的第一部分。

　　1.1 进入采集节点管理界面

　　如图（图1）所示，在后台管理界面主菜单中点击“采集”，再点击“采集节点管理”，进入采集节点管理界面，如图（图2）。

　　图1-后台管理界面

　　图2-采集节点管理界面

　　1.2. 添加新节点

　　在采集节点管理界面，点击左下角“添加新节点”或右上角“添加新节点”（如图2所示），进入“选择内容模型”界面，如图(图3),

　　图 3 - 选择内容模型界面

　　在“选择内容模型”界面的下拉列表框中，有“普通文章”和“图片集”可供选择。根据需要采集的页面类型，选择相应的内容模型。在本文中选择“普通文章”，点击确定，进入“添加采集

节点：第一步设置基本信息和URL索引页面规则”界面，如图（图4）所示。

　　图4-新建采集节点：第一步设置基本信息和URL索引页面规则

　　1.2.1 设置节点基本信息

　　图 5 - 节点基本信息

　　如图（图5）所示，

　　节点名称：给新建的节点起个名字，这里填写“采集测试(1)”；

　　目标页面编码：设置要采集的目标页面的编码格式，包括GB2312、UTF8、BIG5。在抓取的目标页面上右击选择“查看源文件”即可获取。

　　脚步：

　　(a) 打开采集

到的目标页面：；

　　(b) 右键选择“查看源文件”，找到“charset”，如图（图6），

　　图 6 - 查看源文件

　　等号后面的代码是需要的“编码格式”，这里是“gb2312”。

　　“区域匹配方式”：设置要采集的部分内容如何匹配，可以是字符串，也可以是正则表达式。系统默认模式是字符串。如果你对正则表达式比较了解，可以在这里选择正则表达式的模式。

　　“内容导入顺序”：指定文章列表导入时的顺序，可选择“与目标站一致”或“与目标站相反”。

　　“防盗链模式”：采集的目标站点是否有刷新限制。刚开始很难判断，需要测试才能知道。如果是这样，你需要在这里设置“资源下载超时”。

　　“参考网址”：填写要采集的任意文章内容页面的网址。

　　具体步骤：

　　(a) 在打开的文章列表页面，点击

　　标题“Add Transparency to Inserted Flash in Dreamweaver”打开文章内容页面如图（图7），

" />

　　图 7 - 文章内容页面

　　(b)此时浏览器的URL地址栏中显示的URL就是需要填写“引用URL”的URL，如图8所示，

　　图 8 - 浏览器的 URL 地址栏

　　至此，“节点基本信息”就设置好了。最终结果，如图（图9）所示，

　　图9-设置后节点基本信息

　　检查无误后，进行下一步设置。

　　1.2.2 设置列表URL获取规则

　　如图（图10）所示，

　　图 10 - 列出 URL 获取规则

　　这里是设置采集

文章列表页的匹配规则。如果收录的文章列表页面有一定的规则，可以选择“批量生成列表网址”；如果收录的文章列表页面完全没有规则，可以选择“手动指定列表URL”；如果采集

的站点提供RSS，您可以选择“从RSS获取”。对于特殊情况，例如：有的列表页面是规则的，其余的是不规则的，可以在“匹配URL”中填写规则部分，然后在“手动指定URL”中填写不规则部分。

　　具体步骤：

　　(a) 首先，回到打开的文章列表页面，找到浏览器URL地址栏中显示的URL（图8）和页面下方的换页部分。如图（图11）所示，

　　图 11 - 页面变化

　　(b) 点击“2”，打开文章列表页的第二页。此时浏览器的URL地址栏中显示的URL和页面底部的页面变化部分，如图（图12）和（图13）所示，

　　图 12 - 第二页的 URL

　　图 13 - 第二页的分页符部分

　　(c) 在打开的文章列表页的第二页，点击（1）打开文章列表页的首页。此时页面底部的换页部分与图11相同，浏览器的URL地址栏显示的URL与图8不一样，如图（图14） ,

　　图 14 - 第一页的 URL

　　(d) 由(b)和(c)推断，此处采集的文章列表页面的URL遵循以下规则：

　　(*).html。为了安全起见，请自行测试更多列表页面。确定规则后，在“匹配URL”中填写文章列表页后面的规则。

　　(e) 最后指定要采集的页码或正则号，并设置其递增规则。

　　至此“列表URL获取规则”部分设置完成。最终结果，如图（图15）所示，

　　图 15 - 设置后列出 URL 获取规则

　　确认无误后进入下一步设置。

　　1.2.3 设置文章URL匹配规则

" />

　　如图（图16）所示，

　　图 16 - 文章 URL 匹配规则

　　下面是设置采集

文章列表页的匹配规则。

　　具体步骤：

　　(a) 对于“区域开头的HTML”，可以在打开的文章列表的第一页右击，选择“查看源文件”。在源文件中，找到第一篇文章的标题《在Dreamweaver中为插入的Flash添加透明度》，如图（图17），

　　图 17 - 查看源文件，第一篇文章的标题

　　通过观察，不难看出“

　　”是整个文章列表的开头。因此，在该部分开头的 HTML 中，填写“

　　”。

　　(b) 在源文件中找到最后一篇文章《通过Dreamweaver设计网页时组织CSS的建议》，如图（图18），

　　图 18 - 查看来源，上一篇文章的标题

　　结合开头的文章列表，通过观察，第一个“

　　”是整个文章列表的结尾。因此，在 HTML 中的“段尾”应该填写“

　　”。

　　“如果链接收录

图片”：设置对链接中收录

的图片的处理方式，有不处理和采集

为缩略图选项。可根据实际需要选用。

　　“重新过滤区域网址”：可以使用正则表达式重新过滤区域网站，针对一些需要保留或过滤掉的内容，尤其是混合列表页面，使用“必须收录

”或“不能收录

” contain”过滤掉你想获取或不想获取的文章内容页面的URL。

　　具体步骤：

　　回到正在打开的文章列表首页的源文件，通过观察可以看出，每个文章内容页的地址的扩展名都是.html。因此，您可以在“必须包括”中填写“.html”。

　　至此，“文章网址匹配规则”的设置就结束了。最终结果，如图（图19）所示，

　　图 19 - 设置后的文章 URL 匹配规则

　　通过1.2.1节、1.2.2节和1.2.3节，第一步添加采集节点的设置已经完成。设置后的结果，如图（图20）所示，

　　图20-设置后的新采集节点：第一步设置基本信息和URL索引页面规则

　　一切完成并勾选后，点击“保存信息，进入下一步设置”。如果之前的设置无误，点击后会进入“新增获取节点：测试URL索引页规则设置的基本信息和URL获取规则测试”页面，看到对应的文章列表地址。如图（图21）所示，

　　图 21 - URL 获取规则测试

　　确认无误后，点击“保存信息，进行下一步设置”。否则，单击“返回上一步进行更改”。

　　至此，第一季结束。输入下面的第二部分。. .

2022-11-25

文章采集规则

0 个评论

要回复文章请先登录或注册

AI时代内容工厂

归纳总结:如何抽取文章特征？

0 个评论

发起人

AI时代内容工厂

归纳总结:如何抽取文章特征？

0 个评论

发起人

相关问题