采集器的自动识别算法(采集器的自动识别算法可以分成两步(一))

优采云发布时间: 2021-11-01 13:52

　　采集器的自动识别算法可以分成两步来看：第一步是：将已经设定好的比特串匹配起来，完成相似性计算；第二步是：匹配以后，启动分词软件来合并成一个短语或者多个短语。比特串是原始数据。分词软件是分析给定的分析字符串来识别文本的过程。

　　1，整理好比特串2，

　　处理比特串的方法本质上是完全匹配，通过什么算法，显然不是首要考虑因素。比特串匹配必然存在一个假阳性假阴性，这在源代码里面有写的，无法绕过。提供一种方法，就是人肉扫描的形式，当然人的识别速度肯定比机器快不少。但是所需要训练的样本量就比较大，需要花钱找人帮你做。以上。

　　@kevinhuang做autohotkey插件应该对比特串的概念非常了解，算法内部没啥太多可说的，就是通过加载一些数据库进行匹配。

　　autohotkey用户请参考1，

　　完整了解用autohotkeymathjax接口手工打一遍记录用户的原始比特串并进行匹配

　　转一篇用autohotkey自动分词解析一段视频，只需5步，就能自动完成摘要分词、命名实体识别、情感分析等测试需求。摘要分词我们大多数时候都需要在网页中去识别一段视频、一篇文章以及新闻文章的标题，搜索引擎在信息抓取过程中，为了能够提高文章搜索质量，会先抓取文章源码，对文章中标题进行识别后，再去重，从而达到在搜索引擎中显示标题的效果。

　　但有时候，视频中的标题无法精确识别，这时需要对视频进行分词。例如：小米手机4正式发布，全面屏看得出哪款？这是一段需要分词的视频。除了需要识别视频标题外，在给视频加上密码保护，我们还会需要判断这段视频是否是小米公司官方发布的视频。判断时，我们可以对每一段视频中包含的文字进行人工抽取，来判断这段视频是否属于小米官方的视频。

　　如果是，进行手动处理即可。在小米公司官方的视频中，可以在视频中加上以下代码：longlongtextformattextfielddescription=".minimal-lite";此代码的意思是一共有五段视频的标题，每一段视频中的标题的长度都是一样的，按照逗号分割后，就是一段文字。

　　这段文字会经过autohotkey自动分词。文本识别应用场景这样的场景不少，当我们在一段视频中，识别出了视频标题后，可以处理一段文本，就像判断视频是否属于官方发布的视频一样。我们一般采用这样的方法：定义一个文本解析模块，用来解析视频中的文本；用autohotkey的personalkeycards接口，再给这个模块传入视频的标题，模块就可以分析出是不是官方发布的视频；根据识别出的文本进行相应分词，将识别的。

0

2021-11-01

采集器的自动识别算法

0 个评论

要回复文章请先登录或注册

AI时代内容工厂

采集器的自动识别算法(采集器的自动识别算法可以分成两步(一))

0 个评论

发起人

AI时代内容工厂

采集器的自动识别算法(采集器的自动识别算法可以分成两步(一))

0 个评论

发起人

相关问题