解决方案:php写优采云采集接口,优采云discuz6.1完美采集的php接口文件

优采云发布时间: 2022-12-04 16:24

　　优采云discuz6.1官方提供的PHP接口比较粗糙，基本不能满足需求，我在采集工作中使用的采集接口文件如下：

　　PS：原创文件的修改很大，程序中的注释已经很详细了，所以这里就不多说了。/

　　/header（'Content-Type：text/html; charset=UTF-8'）;/

　　/if（function_exists（“mb_convert_encoding”））{

　　$tmp = 检查和翻译（“请在使用前将文件直接上传到论坛根目录”， 0）;/

　　/header（'Content-Type：text/html; charset=UTF-8'）;

　　打印（$tmp）;/

　　/}else{/

　　/打印（“NO”）;/

　　/}/

　　/exit（“this.line=”.__line__）;

　　/*

　　文件名： locoyonline_for_discuz610.php

　　*使用前请直接上传文件至论坛根目录

　　*此文件为GBK编码;

　　*处理后导入的数据库代码为：UTF-8;

　　*如果需要替换字符，请将替换.txt复制到同一目录;

　　*/

　　使用全局变量/

　　/foreach（$_POST as $key => $value）{/

　　/$$key = $value ;/

　　/print（$key.“ = '.$value.'\n'）;/

　　/}/

　　/var_dump（$_POST）;/

　　/exit（'end-0'）;

　　需要插入的数据表

　　1.cdb_threads

　　2.cdb_rewardlog // OK赏金记录表

　　3.cdb_mythreads

　　4.cdb_posts

　　5.cdb_tags _update

　　6.cdb_threadtags

　　7.cdb_forums _update

　　8.cdb_members _update 可以更改赏金表

　　完成结束！

　　$user_list = file（'./makeuser/username.txt'）;

　　随机发布的用户列表必须已经注册

　　有关批量注册用户名的更多信息，请参阅 Discuz 6.0+ 批量注册用户名

　　$user_list = array_map（“curlAndCopy”， $user_list）;

　　函数 curlAndCopy（$a）{

　　返回修剪（$a）;

　　}

　　$replyusers = implode（“|”，$user_list）;

　　解决方案:一种融合文本分类与词法分析的体检异常项归一化方法与流程

　　本发明涉及自然语言处理中的语义相似度技术领域，具体涉及一种结合文本分类和词法分析的体检异常项归一化方法。

　　背景技术：

　　在智能体检报告分析业务中，健康干预是指根据体检中的各项检查结果，为用户提供针对检查项目的医学解释和健康建议。这个过程的难点在于，不同的体检机构对体检异常结论的书写标准不同，因此很难将异常结论与知识库中的异常结论类型实体联系起来。

　　目前业界常用的实体链接方法有基于语义相似度的实体链接方法和基于图嵌入的实体链接方法。基于语义相似度的实体链接方法是指先通过上下文语义表达每个词，然后通过距离计算确定每个词的相似度。这种方法的优点是充分考虑了每个词的语义信息，但这种方法的前提是有完整的上下文信息。因此不适用于体检中异常项目的归一化场景。基于图嵌入的实体链接方法是指首先根据知识图中实体周围的节点完成中心实体的向量表示，然后通过距离计算确定每个词的相似度。由于该方法需要先构建一个完整的知识图谱，因此不适用于体检中异常项目的归一化场景。

　　鉴于体检异常项目归一化中的归一化文本名称多为无上下文关联的独立词。因此，在计算词汇相似度时使用上下文无关的编辑距离比结合word2vec和欧氏距离计算词汇相似度要好。然而，编辑距离的简单归一化存在以下问题，例如“高白细胞”和“高红细胞”和“异常白细胞”。从编辑距离来看，“高白细胞”和“高红细胞”的相似度更高，但本质上是两种不同的异常项，两者不能归为一类异常项。

　　技术实现要素：

　　为了解决上述技术问题，本发明提供了一种结合文本分类和词法分析的异常体检项目归一化方法，旨在仅根据自身词完成异常体检项目与知识库实体的自动匹配。不依赖上下文信息的特征，从而解决体检报告异常结论与知识库中异常结论类型实体实体之间的实体链接问题。

　　本发明的技术方案是：

　　一种融合文本分类和词法分析的体检异常项目归一化方法。首先，通过文本分类技术对待归一化词和归一化词库中的词进行分类。然后，将分离出来的两类词分别进行根式归一化。注意，退回一词是指体检结论原文中的异常描述，如“高白细胞”。术语规范化是指所有需要规范化的异常描述。归一化词库是指由所有归一化词组成的集合。本发明的具体过程如下

　　1 文本分类

　　体检异常是指体检报告中对异常情况的描述。因此，上文所指的“返返”、“待返返”均属于体检异常项目。体检异常词按结构可分为两类。一类是完整的异常项词，以下统称为“一类词”。另一种是“实质词+程度”词型，以下统称为“二类词”。第二类词包括实体词和程度词。实体词包括标志词、测试索引词和正文部分词。

　　文本分类任务是基于文本分类模型对上述两类文本进行分类，对得到的体检异常术语进行分类。有关模型构建过程的详细信息，请参见 7。

　　2 一类词的归一化

　　在文本分类任务之后，如果一个待归一化的词被分类为一类词，则将其归入一类词归一化过程进行归一化处理。

　　2.1 一类待归一化词和一类归一化词库的解释

　　文本分类任务划分后，进入一类词归一化过程的待返回词称为一类待返回词。一类归一化词库是指在文本分类任务中归为一类的归一化词的集合。

　　2.2 编辑距离对比

　　在文本分类任务之后，如果一个待分类词被分类到一个词类中，即被分类到一个待分类词类别中之后，就可以进入编辑距离比较任务。

　　该任务首先计算一类待归一化词与一类归一化词库中每个词的编辑距离，然后选择一个编辑距离最小的归一化词作为该类归一化词对应的归一化词。输出。

　　3 二类词的归一化

　　在文本分类任务之后，如果待归一化的词是二类词，则将其划分到二类词归一化过程中进行归一化。

　　3.1 二类一字1和二类一字1库说明

　　经过文本分类任务划分后，将进入二类词归一化过程的待分类词称为二类待分类词1。文本分类任务划分后，进入二类词归一化过程的归一化词称为二类归一化词1。二类一词组成的集合是二类一词1库。

　　3.2 词法分析

　　词法分析任务是指通过词法分析模型识别文本分类结果中二类词的实体词部分和程度词部分。模型的输入是文本分类结果的二类词，包括二类一词1和二类一词1数据库中的词。输出为上述输入词的实体词部分和程度词部分，两者之间以“-”隔开。词法分析模型的具体构建方法见7.3节。

　　3.3 二级一字2和二级一字2库说明

　　词法分析任务完成后，将二级待参照词1数据库中的二级待参照词1和二级待参照词1拆分为“实体词” -度词”的模式。其中，待返回的第二类词1在处理过程中转化为第二类待返回词2。第二类词1被转换为第二类词2。两类词2组成的集合是二类一词2库。

　　3.4 实体词编辑距离比较

　　实体词的编辑距离比较过程，首先计算未分类词2中的第二类实体词与一个词2数据库中的第二类词的实体词之间的编辑距离。然后从二值化词2数据库中筛选出编辑距离最小的实体词。

　　3.5 第二类入一字3库的解释

　　比较实体词的编辑距离后，从二类一词库中选取实体词对应的二类一词2构成的库为二类一词三基。二类一字三库中的词也自动改为二类一字三。

　　3.6 度词分类库

　　度词分类数据库目前分为正度词和负度词。正度词是增度词，如“增加”、“高”；负度数词是递减度数词，例如“减少”和“低”。两类词分别编码为“11”和“22”，词库内容如下。

　　度词分类库 {11:['lower','lower','reduction','(lower)','(lower)','lower'], 22:['higher','Higher','increased ','(高)','(高)','增加']}

　　3.7度字编码

　　度词分类是指根据度词分类库，对一字3二类库中一字二二类和一字二二类3库中的部分度词进行编码。负度词编码为11，正度词编码为22。将度词编码后，二类词2和二类词3会被处理成“实体词-11”或“实体词-22"

　　3.8 二级一字3和二级一字4库说明

　　度词编码后的第二类待归词2称为第二类待赋词3。度词编码后的二类单词3称为二类一类词4。二类一词四是二类一词四库。

　　3.9 度词编辑距离比较

　　比较度词的编辑距离，首先逐一计算二类一词3和二类一词4库中每个词的编辑距离。然后从二值化词4库中筛选出编辑距离最小的度词对应的二值化词4。而筛选出的二类归一化词4对应的归一化词库中的归一化词即为最终的归一化词。

　　本发明的有益效果是

　　首先，通过文本分类方法和实体词度词词法分析方法，提高基于编辑距离的相似度计算在体检异常项归一化场景中的匹配精度。其次，该方法的提出解决了知识图谱中异常体检项目与异常体检类别实体之间的实体链接问题。三是基于上述情况，推动了健康干预相关业务的研发。

　　图纸说明

　　图1为本发明的工作流程*敏*感*词*。

　　详细方法

　　为使本发明实施例的目的、技术方案及优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述。显然，所描述的实施例都属于本发明的部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。范围。

　　本发明结合文本分类和词法分析的体检异常项归一化方法的整体实现过程如图2的实现流程图所示。1.

　　1 文本分类任务实现

　　文本分类任务是“实体词+度”和单个异常词的组合，即上述一类词和二类词的分类。该任务是基于文本分类模型的文本分类任务。模型构建及应用过程如下：

　　1) 样品采集。从当前数据库中，随机采集1000个一级词和二级词，对样本进行二类标注。

　　2）模型开发。这里可以使用ernie、bert、fasttext等nlp模型来完成模型构建任务。由于模型算法不是本发明的内容，因此不再详细描述。

　　3）模型应用。通过这个分类模型，可以对待归一化的词和归一化词库中的每个词进行分类。接下来，如果待归一化的词被判断为类词，则与归一化库中的类词一起进入类词归一化的实现过程。如果待归一化词被判断为二类词，则与归一化数据库中的二类词一起进入二类词归一化执行过程。

　　2 一类词的归一化实现

　　该任务首先计算一类待归一化词与一类归一化词库中每个词的编辑距离，然后选择一个编辑距离最小的归一化词作为该类归一化词对应的归一化词。输出。

　　3 二类词的归一化实现

　　在二类词归一化的实现过程中，主要实现部分是词法分析模型的构建、实体词编辑距离的比较、度词的编码、编辑距离的比较程度的话。

　　3.1 词法分析模型的构建与使用

　　词法分析任务只对上一步识别出的二类词进行处理，分为字符分割和词性标注两部分。

　　3.11）分词

　　分词任务可以使用tokenize分词工具，使用bert中的字典完成分词。

　　3.12) 词性标注

　　词性标注任务是指对分离出来的字符进行实体词和度词的生物词性标注。实体词的开头是bs，实体词的中间词是is，度词的开头是bc，度词的中间词是ic，词的另一部分标记为o

　　建模过程如下

　　3.121）样本采集：从当前数据库中随机采集1000个二类词，对样本进行分词和bio词性标注。

　　3.122) 模型构建。这里可以使用ernie、bert、fasttext等nlp模型来完成模型构建任务。由于模型算法不是本发明的内容，因此不再详细描述。

　　3.123) 模型应用

　　模型构建完成后，对上一步识别的二级单词1和二级单词1数据库中的二级词进行分词和词性标注。确定每个词的实体词部分和程度词部分的内容。

　　3.2 实体词编辑距离比较

　　本过程根据上一步的结果，计算识别出的第二类待分类2实体词与第2类class 2数据库中实体词的编辑距离，选择该实体词对应的实体词具有最小的编辑距离。词2被分类为第二类词3，进入下一流程。

　　3.3度字编码

　　根据上一步的结果，根据度词分类库的编码，对一待分类词二二类中的度词2和一词三库二类中的度词进行编码. 负度词编码为11，正度词编码为22。

　　3.4 度词编辑距离比较

　　本过程根据上一步的结果，计算识别出的待分类二类3中的度词与二类归一化4库中度词的编辑距离，选择对应的二类类词最小编辑距离。将词4作为最终选择的归一化词，输出二分类归一化词4对应的归一化词库中的归一化词。

　　以上所述仅为本发明的优选实施例而已，仅用于说明本发明的技术方案，并不用于限定本发明的保护范围。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均收录在本发明的保护范围之内。

0

2022-12-04

文章采集接口

0 个评论

要回复文章请先登录或注册

AI时代内容工厂

解决方案:php写优采云采集接口,优采云discuz6.1完美采集的php接口文件

0 个评论

发起人

AI时代内容工厂

解决方案:php写优采云采集接口,优采云discuz6.1完美采集的php接口文件

0 个评论

发起人

相关问题