话题：自动识别采集内容 - 优采云自动文章采集器

如何创建高质量的机器学习数据集？

采集交流 • 优采云发表了文章 • 0 个评论 • 272 次浏览 • 2020-08-08 06:10 • 来自相关话题

　　这是一个很好的问题，为什么没有多少人回答. . . 无论是进行研究还是解决业务问题，数据集都是不可避免的问题. 但是这个问题有点大，在NLP字段T ^ T
　　中的数据集构建中也有一点点鲜血与泪水
　　许多刚进入该行业的学生都认为发布数据集是最简单的方法. 如果这样做了，您会发现很容易随意生成一个数据集，但是如果您可以解决实际问题或让每个人都为它生成一个可用的，高质量的，中等难度的数据集并不容易. 在上面玩盐的目的. 这是超级耗时，费力的脑力劳动，甚至是昂贵的，好吗？
　　（╯°□°）╯︵┻━┻
　　尽管没有刻意研究如何处理数据集，但是由于项目或研究的需要，鸭子们已经将近10个数据集放在架子上，但是它们只是在问答环节上完成，对话和一些分类问题. ，所以请让小夕去问私人邮箱中的“如何建立知识图谱”╮（￣▽￣“”）╭
　　由于我没有刻意研究此问题，因此我将分别分享一些我认为更重要的观点.
　　什么是高质量的基本工具数据和标签来源？进行预处理以验证可用性，尽早构造数据集，迭代闭环？复杂的NLP任务有什么高品质？
　　一些刚进入维修站的朋友可能会认为“高品质” =“超级干净”，因此他们疯狂地进行了预处理以追求“高品质”，最后哭了╮（╯▽╰）╭.
　　创建数据集通常有两种动机. 一是研究，这是使广大研究人员受益，并促进该领域的进步；
　　必须说SQuAD的发布极大地推动了NLP的这一研究浪潮.
　　另一种方法是使用数据驱动的方法来优化业务指标或解决项目中的实际问题.
　　这两个看似无关的目的背后的“高质量”的定义确实非常相似，即: 解决问题！
　　但是，出于后一个目的，问题通常来自在线系统
　　通常来说，在创建数据集之前通常已经存在一个系统（为了冷启动该系统，通常首先开发一个规则驱动的系统）. 系统上线后，自然会生成日志. 不良情况分析可以知道现有系统无法解决哪些问题，并且可以使用数据驱动的方法解决这些问题，因此需要一个数据集. 解决这些问题是您数据集的首要目标.
　　出于前一个目的，问题通常来自学术研究的现状
　　当前的NLP研究主要由数据驱动，甚至由数据集驱动. 尽管这不是一个好现象，但必须承认，它极大地促进了NLP的发展和研究热潮. 当现有数据集无法涵盖该领域的痛点，无法发挥数学工具的潜力或已被解决时，则需要一个新的数据集，更确切地说，需要一个新的基准.
　　换句话说，行业痛点还有哪些其他问题？还是可以进一步挖掘当前数学工具的潜力？还是现有数学工具的当前开发阶段不能很好地解决这个问题？这应该是制作高质量数据集之前的首要考虑.
　　想想2015年的SNLI [1]，2016年的SQuAD [2]，2018年的GLUE [3]，CoQA [4]，以及现在的SuperGLUE [5]，MRQA，都是由问题驱动的. 不足以覆盖问题的难点或无法满足数学工具的潜力，或者先前的问题几乎已解决，因此将出现一个新的数据集来解决下一个难点.
　　在明确要解决的问题之后，可以保证数据集质量的一半，其余一半取决于数据集的处理方式. 这里最关键的问题是数据和标签来源的选择以及预处理的程度. 此外，迭代的闭环构造和复杂的NLP任务的处理也将对解决问题的效率和质量产生非常重要的影响. 让我们介绍一下（〜￣∇￣）-☆
　　基本工具
　　所谓的“好工作”必须首先磨练自己的工具，只要您不太着急，在制作数据集之前就掌握一些有用的工具和技巧，这样可以大大减少不必要的重复和低效的劳动并提高工作效率. 迭代.
　　数据和标签来源
　　对数据集质量的第二个关键影响是数据和标签来源的选择. 其中，数据可以通过手动构建和写入来生成，也可以从Internet上进行爬网或通过对公共数据集进行二次处理而获得；标签也可以手动标记或通过远程监控获得.
　　手动构造和标签
　　最简单的思考方法是数据和标签都是人为（￣∇￣）不幸的是，小夕没有资金去众包平台来帮助您积累经验（｡́︿）对于许多相对简单的NLP任务，总是可以在Internet上找到数据，但是也有一些任务数据很难在Internet上访问. 通常，只能手动手动构建它（例如自然语言推理，基于任务的对话框中的大多数子任务），分词，NER，提取和一些序列标记任务. 如果您有一个小伙伴想要系统地学习标签，Xiao Xi推荐我之前在图书馆中读过的一本书，叫做《自然语言注释》，中文名称看起来像是《自然语言注释: 用于机器学习》. ”. 这本书非常好，所以我曾经想念一位不太擅长标记\（//∇//）\的PM女士（我希望她不会读它. 我知道……
　　幸运的是，对于大多数nlp任务，可以在Internet上找到合适的数据源，或者可以通过修改现有的公共数据集来生成合适的数据源.
　　爬上
　　如果您想自己进行爬网，可以从甚至Twitter，Quora，Wiki，Reddit等外部网站上爬网甚至直接下载英语语料库. 如果官方数据采集脚本无法满足您的需求，则可以进行搜索在github上基本上，我们总能找到一些奇怪的第三方爬虫来绕过这些限制（emmm感觉像在教别人实施犯罪）. 当然，如果目标数据是中文，则微博，贴吧，豆瓣，百度百科和智虎网站上都有待爬网的地方.
　　当然，Twitter，微博和Tieba这样的网站的缺点是它们的内容太多. 爬完后，记得去github上找到相应的减肥减肥脚本（注意不要使用那些过于夸张的脚本. 清洁度可能有问题，原因将在后面解释）
　　更改
　　说实话，抓取您自己的数据确实是一件很脏的工作，尤其是当您要抓取的数据量非常大或正在抓取一些不太主流的网站时！因此，小溪建议您从现有的数据集开始，并尝试找到一种方法. 取用现成的数据并在饭后进行更改绝对可以节省很多精力！
　　实际上，许多数据集都是像这样“懒惰”的. 例如，在早期的Socher中，只有10,000个样本MR [16]的情感分类数据集使用解析器将MR中的句子分解为短语，从句等，然后分别对其进行标记，因此它成为具有更多内容的SST超过200,000个样本和多个粒度. [17]╮（￣▽￣””）╭我最近刷了一篇论文，以进行文本样式控制[18]，该解析器还用于分解Yelp情感分类数据集[19]和疯狂地处理它，将其转换为一个结构->文本样式化的文本生成数据集（解析器对于制作数据集确实是一件好事）. 简而言之，在玩了一次之后，您会知道更改比爬╮（╯▽╰）╰方便得多
　　远程监管
　　在标记方面，最容易想到的当然是花钱进行众包. 不用说，下一种方法.
　　更经济和可用的方法是远程监视. 该区域的可玩性非常好. 标签的质量将和脑孔一样大！
　　进行远程监管的前提是提供可靠的假设，例如“给出查询-答案对，如果答案串出现在搜索引擎调用的文档中，则该文档可以回答查询”，因此是机器读取理解数据集TriviaQA [6]，searchQA [7]；例如，“ Twitter中收录的表情符号可以反映该Twitter的（细粒度）情绪”，因此存在情感分类数据集TwitterSentiment [8]和情绪可控对话生成数据集Mojitalk [9]. <//p
p如果您不放心，请自己抽样一些样本，然后粗略计算假设为真的样本比例. 只要在大多数情况下是正确的，它就很有希望，然后在假设上添加一些详细的约束条件（例如TriviaQA）. 文档中的答案必须经常出现在文档中；带有mojitalk中收录多媒体信息的Twitter被直接丢弃. 当表情符号很多时，只查看频率最高的表情符号等. 在可靠的假设下，经过几次小的迭代，它通常可以是一个可用数据集./p
p简而言之，充分发挥远程监督作用就是掌握反向思维. 忘记“标签”一词，将您的思维方式改为“持有标签以查找数据”./p
p适当的预处理/p
p实际上，在处理数据集时具有“整洁度”不是一件好事，尤其是在语料库的词汇多样性和语义丰富性相对较强时，似乎使数据集更整洁的正则表达式可能非常/p
p沙雕一些与类别标签相关的有效模式，导致一些最初建立的X-> Y映射关系消失. 这减少了模型学习噪声的机会. 您无法消除所有噪声，但是您消除了许多模型. 找出学习噪音的机会，以适应噪音
　　在这方面，小夕痛苦的流泪. 花了半个下午写了几十条清洁规则. 结果，该模型更难以收敛，并且开发集的性能更差. 最后，我们发现，当数据量和模型不太小时，除了一些常规操作（例如过滤掉HTML标签，URL，脱敏，重复数据删除，截断等），小希通常只处理以下情况:
　　导致“标签泄漏”，在具有简单任务和典型标签的情况下，尤其是在有许多数据源的情况下，很容易发生这种情况. 例如，您任务的目标是让模型通过文本语义来判断情绪，因此不要宽容表情符号和表情符号，并严格控制它们在数据集中的比例. 样本太长. 例如，保留的功能词会出现在相同表情符号，ha，ah等的100个连续样本中（例如BERT中的[UNK]，[PAD]，[CLS]，[SEP]等）
　　当然，如果您的数据集与生成任务有关，请记住要过滤掉黄色counter =，=的内容. 对于某些高频错别字，一堆会使您感到肮脏的东西，如果您没有特殊需要，请放开它们. . . （如果您真的想彻底消除它们，则可以更改数据源. 不要试图与一个人的人争夺热鸡！）
　　验证可用性，尽快构建数据集的迭代闭环
　　无论是手动注释还是远程监督，如果数据集看起来不错，并不表示它可用. 如果注释太嘈杂或标签边界太模糊（许多注释错误，或者注释规则写得太松散和过于模糊，以至于人们无法区分某些类别之间的差异），无论模型多么复杂，它很可能都不会收敛于该数据集；相反，如果数据集中存在“标签泄漏”（例如，您使用表情符号远程监控构建情感分类数据集，最后忘记过滤出表情符号），或者标签和内容具有非常直接的含义映射关系（类别太具体或标签规则写得太废），这将导致非常简单. 模型将轻松地将此数据集刷到几乎完整的标记. 通过该模型学习的知识基本上是没有意义的. 换句话说，这种简单而直接的任务实际上是用一些规则和几行代码完成的，而这完全是不必要的. 进行数据驱动的模型训练.
　　因此，绝对不要抱有一次制作数据集的想法，而是尽快构建一个“生成数据集->运行基准线->不良案例研究->更新策略->重新生成数据集”的闭环. 可能. 请注意，选择基线太麻烦了（应该忘记对各种超参数敏感的模型），最好是使用开放源代码，易于使用且基本上不需要进行一般验证和有效. 调整参数. 其他型号（例如BERT系列）.
　　请注意此处的焦点. 在迭代的早期阶段，第一个目标是使基准线正常收敛在数据集上. 在中期，将重点放在开发集上的基准性能上. 如果性能太好，请注意标签泄漏或数据泄漏（X中出现Y，或者您忘记删除重复项），性能太差，请调整参数，以后再注意情况. 看看不良情况更多地是关于样本问题（标记噪声）还是真实的模型能力还不够.
　　关于复杂的NLP任务
　　当然，以上内容实际上很广泛. 实际上，关于不同的NLP问题的数据集可能会非常不同. 一些简单的NLP任务（例如文本分类）几乎都基于上述基本原理，但是一些复杂的NLP任务（例如，基于任务的对话和知识图相关性）即使完全人工生成并标记，也不容易做到.
　　例如，与基于任务的对话相关的数据集很难使用远程监控来构建，这是一种懒惰的方式. 样本和标签的生成可能很难与人类注释分开. 有兴趣的朋友可以参考此数据集MultiWOZ [10]的论文（在三个基于任务的对话中介绍了DST的子任务，行为到文本的生成以及上下文到文本的生成）. 机器方法（例如M2M [11]），机器人（例如DSTC系列[14]），人（例如ATIS [15]，WOZ系列[10]）这三种方式共同构建基于任务的方法对话数据集该摘要已经准备就绪，使您感到产生高质量的任务完成的对话数据集是一项非常具有挑战性的任务. 如果从一开始就进行探索，您可能会面临尴尬的表情╮（￣▽￣“”）╭
　　因此，在面对一些更复杂的NLP任务时，您必须记住首先阅读最新，最权威的数据集. 您可能找不到关于这种数据集构建经验的几篇文章.
　　参考
　　[1] Bowman S R，Angeli G，Potts C等. 关键词: 大型标注语料库，学习自然语言推理arXiv预印本arXiv: 1508.05326，2015年.
　　[2] Rajpurkar P，Zhang J，Lopyrev K等. 小队: 100,000多个有关文本机器理解的问题[J]. arXiv预印本arXiv: 1606.05250，2016年.
　　[3] Wang A，Singh A，Michael J等. 胶水: 一个用于自然语言理解的多任务基准测试和分析平台[J]. arXiv预印本arXiv: 1804.07461，2018年.
　　[4] Reddy S，Chen D，Manning C D. Coqa: 一种会话式问答题[J]. 计算语言学协会学报，2019，7: 249-266.
　　[5] Wang A，Pruksachatkun Y，Nangia N等. 超级胶水: 通用语言理解系统的粘性基准[J]. arXiv预印本arXiv: 1905.00537，2019.
　　[6] Joshi M，Choi E，Weld D S等. Triviaqa: 一种用于阅读理解的大规模远程监督挑战数据集[J]. 计算机应用，2006,26（6）: 1175-1178 arXiv预印本arXiv: 1705.03551，2017年.
　　[7] Dunn M，Sagun L，Higgins M等. Searchqa: 一个新的问答数据集，其中收录来自搜索引擎的上下文[J]. arXiv预印本arXiv: 1704.05179，2017年.
　　[8]转到A，Bhayani R，Huang L.基于远程监督的Twitter情感分类[J]. CS224N项目报告，斯坦福，2009，1（12）: 2009.
　　[9]周霞，王文彦. Mojitalk: 大规模产生情绪反应[J]. 心理学研究，2003，11（2）: 109-114 arXiv预印本arXiv: 1711.04090，2017年.
　　[10] Budzianowski P，Wen TH，Tseng BH，等. 关键词: Multiwoz，面向任务的对话建模的大规模多域盎司向导[J]. arXiv预印本arXiv: 1810.00278，2018年.
<p>[11] P Shah，D Hakkani-Tur，G Tur，A Rastogi，Bapna，N Nayak和L Heck. 2018年. 通过对话自演，一夜之间建立对话代理. arXiv预印本arXiv: 1801.04871. 查看全部

　　这是一个很好的问题，为什么没有多少人回答. . . 无论是进行研究还是解决业务问题，数据集都是不可避免的问题. 但是这个问题有点大，在NLP字段T ^ T
　　中的数据集构建中也有一点点鲜血与泪水
　　许多刚进入该行业的学生都认为发布数据集是最简单的方法. 如果这样做了，您会发现很容易随意生成一个数据集，但是如果您可以解决实际问题或让每个人都为它生成一个可用的，高质量的，中等难度的数据集并不容易. 在上面玩盐的目的. 这是超级耗时，费力的脑力劳动，甚至是昂贵的，好吗？
　　（╯°□°）╯︵┻━┻
　　尽管没有刻意研究如何处理数据集，但是由于项目或研究的需要，鸭子们已经将近10个数据集放在架子上，但是它们只是在问答环节上完成，对话和一些分类问题. ，所以请让小夕去问私人邮箱中的“如何建立知识图谱”╮（￣▽￣“”）╭
　　由于我没有刻意研究此问题，因此我将分别分享一些我认为更重要的观点.
　　什么是高质量的基本工具数据和标签来源？进行预处理以验证可用性，尽早构造数据集，迭代闭环？复杂的NLP任务有什么高品质？
　　一些刚进入维修站的朋友可能会认为“高品质” =“超级干净”，因此他们疯狂地进行了预处理以追求“高品质”，最后哭了╮（╯▽╰）╭.
　　创建数据集通常有两种动机. 一是研究，这是使广大研究人员受益，并促进该领域的进步；
　　必须说SQuAD的发布极大地推动了NLP的这一研究浪潮.
　　另一种方法是使用数据驱动的方法来优化业务指标或解决项目中的实际问题.
　　这两个看似无关的目的背后的“高质量”的定义确实非常相似，即: 解决问题！
　　但是，出于后一个目的，问题通常来自在线系统
　　通常来说，在创建数据集之前通常已经存在一个系统（为了冷启动该系统，通常首先开发一个规则驱动的系统）. 系统上线后，自然会生成日志. 不良情况分析可以知道现有系统无法解决哪些问题，并且可以使用数据驱动的方法解决这些问题，因此需要一个数据集. 解决这些问题是您数据集的首要目标.
　　出于前一个目的，问题通常来自学术研究的现状
　　当前的NLP研究主要由数据驱动，甚至由数据集驱动. 尽管这不是一个好现象，但必须承认，它极大地促进了NLP的发展和研究热潮. 当现有数据集无法涵盖该领域的痛点，无法发挥数学工具的潜力或已被解决时，则需要一个新的数据集，更确切地说，需要一个新的基准.
　　换句话说，行业痛点还有哪些其他问题？还是可以进一步挖掘当前数学工具的潜力？还是现有数学工具的当前开发阶段不能很好地解决这个问题？这应该是制作高质量数据集之前的首要考虑.
　　想想2015年的SNLI [1]，2016年的SQuAD [2]，2018年的GLUE [3]，CoQA [4]，以及现在的SuperGLUE [5]，MRQA，都是由问题驱动的. 不足以覆盖问题的难点或无法满足数学工具的潜力，或者先前的问题几乎已解决，因此将出现一个新的数据集来解决下一个难点.
　　在明确要解决的问题之后，可以保证数据集质量的一半，其余一半取决于数据集的处理方式. 这里最关键的问题是数据和标签来源的选择以及预处理的程度. 此外，迭代的闭环构造和复杂的NLP任务的处理也将对解决问题的效率和质量产生非常重要的影响. 让我们介绍一下（〜￣∇￣）-☆
　　基本工具
　　所谓的“好工作”必须首先磨练自己的工具，只要您不太着急，在制作数据集之前就掌握一些有用的工具和技巧，这样可以大大减少不必要的重复和低效的劳动并提高工作效率. 迭代.
　　数据和标签来源
　　对数据集质量的第二个关键影响是数据和标签来源的选择. 其中，数据可以通过手动构建和写入来生成，也可以从Internet上进行爬网或通过对公共数据集进行二次处理而获得；标签也可以手动标记或通过远程监控获得.
　　手动构造和标签
　　最简单的思考方法是数据和标签都是人为（￣∇￣）不幸的是，小夕没有资金去众包平台来帮助您积累经验（｡́︿）对于许多相对简单的NLP任务，总是可以在Internet上找到数据，但是也有一些任务数据很难在Internet上访问. 通常，只能手动手动构建它（例如自然语言推理，基于任务的对话框中的大多数子任务），分词，NER，提取和一些序列标记任务. 如果您有一个小伙伴想要系统地学习标签，Xiao Xi推荐我之前在图书馆中读过的一本书，叫做《自然语言注释》，中文名称看起来像是《自然语言注释: 用于机器学习》. ”. 这本书非常好，所以我曾经想念一位不太擅长标记\（//∇//）\的PM女士（我希望她不会读它. 我知道……
　　幸运的是，对于大多数nlp任务，可以在Internet上找到合适的数据源，或者可以通过修改现有的公共数据集来生成合适的数据源.
　　爬上
　　如果您想自己进行爬网，可以从甚至Twitter，Quora，Wiki，Reddit等外部网站上爬网甚至直接下载英语语料库. 如果官方数据采集脚本无法满足您的需求，则可以进行搜索在github上基本上，我们总能找到一些奇怪的第三方爬虫来绕过这些限制（emmm感觉像在教别人实施犯罪）. 当然，如果目标数据是中文，则微博，贴吧，豆瓣，百度百科和智虎网站上都有待爬网的地方.
　　当然，Twitter，微博和Tieba这样的网站的缺点是它们的内容太多. 爬完后，记得去github上找到相应的减肥减肥脚本（注意不要使用那些过于夸张的脚本. 清洁度可能有问题，原因将在后面解释）
　　更改
　　说实话，抓取您自己的数据确实是一件很脏的工作，尤其是当您要抓取的数据量非常大或正在抓取一些不太主流的网站时！因此，小溪建议您从现有的数据集开始，并尝试找到一种方法. 取用现成的数据并在饭后进行更改绝对可以节省很多精力！
　　实际上，许多数据集都是像这样“懒惰”的. 例如，在早期的Socher中，只有10,000个样本MR [16]的情感分类数据集使用解析器将MR中的句子分解为短语，从句等，然后分别对其进行标记，因此它成为具有更多内容的SST超过200,000个样本和多个粒度. [17]╮（￣▽￣””）╭我最近刷了一篇论文，以进行文本样式控制[18]，该解析器还用于分解Yelp情感分类数据集[19]和疯狂地处理它，将其转换为一个结构->文本样式化的文本生成数据集（解析器对于制作数据集确实是一件好事）. 简而言之，在玩了一次之后，您会知道更改比爬╮（╯▽╰）╰方便得多
　　远程监管
　　在标记方面，最容易想到的当然是花钱进行众包. 不用说，下一种方法.
　　更经济和可用的方法是远程监视. 该区域的可玩性非常好. 标签的质量将和脑孔一样大！
　　进行远程监管的前提是提供可靠的假设，例如“给出查询-答案对，如果答案串出现在搜索引擎调用的文档中，则该文档可以回答查询”，因此是机器读取理解数据集TriviaQA [6]，searchQA [7]；例如，“ Twitter中收录的表情符号可以反映该Twitter的（细粒度）情绪”，因此存在情感分类数据集TwitterSentiment [8]和情绪可控对话生成数据集Mojitalk [9]. <//p
p如果您不放心，请自己抽样一些样本，然后粗略计算假设为真的样本比例. 只要在大多数情况下是正确的，它就很有希望，然后在假设上添加一些详细的约束条件（例如TriviaQA）. 文档中的答案必须经常出现在文档中；带有mojitalk中收录多媒体信息的Twitter被直接丢弃. 当表情符号很多时，只查看频率最高的表情符号等. 在可靠的假设下，经过几次小的迭代，它通常可以是一个可用数据集./p
p简而言之，充分发挥远程监督作用就是掌握反向思维. 忘记“标签”一词，将您的思维方式改为“持有标签以查找数据”./p
p适当的预处理/p
p实际上，在处理数据集时具有“整洁度”不是一件好事，尤其是在语料库的词汇多样性和语义丰富性相对较强时，似乎使数据集更整洁的正则表达式可能非常/p
p沙雕一些与类别标签相关的有效模式，导致一些最初建立的X-> Y映射关系消失. 这减少了模型学习噪声的机会. 您无法消除所有噪声，但是您消除了许多模型. 找出学习噪音的机会，以适应噪音
　　在这方面，小夕痛苦的流泪. 花了半个下午写了几十条清洁规则. 结果，该模型更难以收敛，并且开发集的性能更差. 最后，我们发现，当数据量和模型不太小时，除了一些常规操作（例如过滤掉HTML标签，URL，脱敏，重复数据删除，截断等），小希通常只处理以下情况:
　　导致“标签泄漏”，在具有简单任务和典型标签的情况下，尤其是在有许多数据源的情况下，很容易发生这种情况. 例如，您任务的目标是让模型通过文本语义来判断情绪，因此不要宽容表情符号和表情符号，并严格控制它们在数据集中的比例. 样本太长. 例如，保留的功能词会出现在相同表情符号，ha，ah等的100个连续样本中（例如BERT中的[UNK]，[PAD]，[CLS]，[SEP]等）
　　当然，如果您的数据集与生成任务有关，请记住要过滤掉黄色counter =，=的内容. 对于某些高频错别字，一堆会使您感到肮脏的东西，如果您没有特殊需要，请放开它们. . . （如果您真的想彻底消除它们，则可以更改数据源. 不要试图与一个人的人争夺热鸡！）
　　验证可用性，尽快构建数据集的迭代闭环
　　无论是手动注释还是远程监督，如果数据集看起来不错，并不表示它可用. 如果注释太嘈杂或标签边界太模糊（许多注释错误，或者注释规则写得太松散和过于模糊，以至于人们无法区分某些类别之间的差异），无论模型多么复杂，它很可能都不会收敛于该数据集；相反，如果数据集中存在“标签泄漏”（例如，您使用表情符号远程监控构建情感分类数据集，最后忘记过滤出表情符号），或者标签和内容具有非常直接的含义映射关系（类别太具体或标签规则写得太废），这将导致非常简单. 模型将轻松地将此数据集刷到几乎完整的标记. 通过该模型学习的知识基本上是没有意义的. 换句话说，这种简单而直接的任务实际上是用一些规则和几行代码完成的，而这完全是不必要的. 进行数据驱动的模型训练.
　　因此，绝对不要抱有一次制作数据集的想法，而是尽快构建一个“生成数据集->运行基准线->不良案例研究->更新策略->重新生成数据集”的闭环. 可能. 请注意，选择基线太麻烦了（应该忘记对各种超参数敏感的模型），最好是使用开放源代码，易于使用且基本上不需要进行一般验证和有效. 调整参数. 其他型号（例如BERT系列）.
　　请注意此处的焦点. 在迭代的早期阶段，第一个目标是使基准线正常收敛在数据集上. 在中期，将重点放在开发集上的基准性能上. 如果性能太好，请注意标签泄漏或数据泄漏（X中出现Y，或者您忘记删除重复项），性能太差，请调整参数，以后再注意情况. 看看不良情况更多地是关于样本问题（标记噪声）还是真实的模型能力还不够.
　　关于复杂的NLP任务
　　当然，以上内容实际上很广泛. 实际上，关于不同的NLP问题的数据集可能会非常不同. 一些简单的NLP任务（例如文本分类）几乎都基于上述基本原理，但是一些复杂的NLP任务（例如，基于任务的对话和知识图相关性）即使完全人工生成并标记，也不容易做到.
　　例如，与基于任务的对话相关的数据集很难使用远程监控来构建，这是一种懒惰的方式. 样本和标签的生成可能很难与人类注释分开. 有兴趣的朋友可以参考此数据集MultiWOZ [10]的论文（在三个基于任务的对话中介绍了DST的子任务，行为到文本的生成以及上下文到文本的生成）. 机器方法（例如M2M [11]），机器人（例如DSTC系列[14]），人（例如ATIS [15]，WOZ系列[10]）这三种方式共同构建基于任务的方法对话数据集该摘要已经准备就绪，使您感到产生高质量的任务完成的对话数据集是一项非常具有挑战性的任务. 如果从一开始就进行探索，您可能会面临尴尬的表情╮（￣▽￣“”）╭
　　因此，在面对一些更复杂的NLP任务时，您必须记住首先阅读最新，最权威的数据集. 您可能找不到关于这种数据集构建经验的几篇文章.
　　参考
　　[1] Bowman S R，Angeli G，Potts C等. 关键词: 大型标注语料库，学习自然语言推理arXiv预印本arXiv: 1508.05326，2015年.
　　[2] Rajpurkar P，Zhang J，Lopyrev K等. 小队: 100,000多个有关文本机器理解的问题[J]. arXiv预印本arXiv: 1606.05250，2016年.
　　[3] Wang A，Singh A，Michael J等. 胶水: 一个用于自然语言理解的多任务基准测试和分析平台[J]. arXiv预印本arXiv: 1804.07461，2018年.
　　[4] Reddy S，Chen D，Manning C D. Coqa: 一种会话式问答题[J]. 计算语言学协会学报，2019，7: 249-266.
　　[5] Wang A，Pruksachatkun Y，Nangia N等. 超级胶水: 通用语言理解系统的粘性基准[J]. arXiv预印本arXiv: 1905.00537，2019.
　　[6] Joshi M，Choi E，Weld D S等. Triviaqa: 一种用于阅读理解的大规模远程监督挑战数据集[J]. 计算机应用，2006,26（6）: 1175-1178 arXiv预印本arXiv: 1705.03551，2017年.
　　[7] Dunn M，Sagun L，Higgins M等. Searchqa: 一个新的问答数据集，其中收录来自搜索引擎的上下文[J]. arXiv预印本arXiv: 1704.05179，2017年.
　　[8]转到A，Bhayani R，Huang L.基于远程监督的Twitter情感分类[J]. CS224N项目报告，斯坦福，2009，1（12）: 2009.
　　[9]周霞，王文彦. Mojitalk: 大规模产生情绪反应[J]. 心理学研究，2003，11（2）: 109-114 arXiv预印本arXiv: 1711.04090，2017年.
　　[10] Budzianowski P，Wen TH，Tseng BH，等. 关键词: Multiwoz，面向任务的对话建模的大规模多域盎司向导[J]. arXiv预印本arXiv: 1810.00278，2018年.
<p>[11] P Shah，D Hakkani-Tur，G Tur，A Rastogi，Bapna，N Nayak和L Heck. 2018年. 通过对话自演，一夜之间建立对话代理. arXiv预印本arXiv: 1801.04871.

优采云采集器 v7.7绿色正式版

采集交流 • 优采云发表了文章 • 0 个评论 • 330 次浏览 • 2020-08-07 14:05 • 来自相关话题

　　软件名称: 优采云采集器 v7.7绿色正式版
　　软件大小: 24.5MB
　　软件语言: 简体中文
　　软件简介:
　　
　　优采云采集器正式更名为优采云 Data 采集 Platform. 新版本完全重组了程序，并升级到全新的采集平台. 优采云采集器是优采云 Data 采集 Platform的默认扩展. 将来，您可以在此平台上运行论坛采集器，微博采集器，站群客户端和XX采集器. 企业用户还可以使用我们提供的API开发自己的特征采集器，以在平台上使用.
　　优采云采集器的产品功能:
　　1. 强大的多功能性
　　无论新闻，论坛，视频，黄页，图片，下载网站如何，只要可以通过浏览器看到的结构化内容，通过指定匹配规则，就可以采集所需的内容.
　　2，稳定高效
　　经过七年的磨刀，软件得到了不断的更新和完善，采集速度快，性能稳定，资源少.
　　3. 强大的可扩展性和广泛的应用范围
　　自定义Web发布，自定义主流数据库的保存和发布，自定义本地PHP和.net外部编程接口以处理数据，以便您可以使用这些数据.
　　4. 无限关卡采集
　　无限深度，分页采集，无限多页采集.
　　5. 下载任何文件格式
　　可以轻松下载图片，压缩文件，FLV电影等.
　　6. 支持多个数据库
　　Access / MySQL / MsSQL / Sqlite / Oracle保存并释放.
　　7. 关键字，链接替换
　　同义词替换，参数替换.
　　8，中文分词，汉英翻译
　　9，任意编码，Gzip，压缩压缩集合
　　自动识别多种语言的网页编码和集合.
　　10. 文字识别
　　自动识别标题，内容，时间等，没有规则.
　　优采云采集器 v7.7绿色正式版更新列表:
　　1. gif图片不再加水印，固定水印文本时无法判断水印条件的问题；
　　2. 新增了迅捷上传，YunFile，千脑和金山网盘的文件上传功能；
　　3. 添加了选项，供用户选择在删除记录时是否删除下载的文件；
　　4. 通过上传文件功能添加日志记录；
　　5. 添加了批量导入数据导入URL的功能；
　　6. 发布时添加了代理功能；
　　7. 修复了使用常规的过帐方法另存为本地excel的错误；查看全部

　　软件名称: 优采云采集器 v7.7绿色正式版
　　软件大小: 24.5MB
　　软件语言: 简体中文
　　软件简介:
　　

　　优采云采集器正式更名为优采云 Data 采集 Platform. 新版本完全重组了程序，并升级到全新的采集平台. 优采云采集器是优采云 Data 采集 Platform的默认扩展. 将来，您可以在此平台上运行论坛采集器，微博采集器，站群客户端和XX采集器. 企业用户还可以使用我们提供的API开发自己的特征采集器，以在平台上使用.
　　优采云采集器的产品功能:
　　1. 强大的多功能性
　　无论新闻，论坛，视频，黄页，图片，下载网站如何，只要可以通过浏览器看到的结构化内容，通过指定匹配规则，就可以采集所需的内容.
　　2，稳定高效
　　经过七年的磨刀，软件得到了不断的更新和完善，采集速度快，性能稳定，资源少.
　　3. 强大的可扩展性和广泛的应用范围
　　自定义Web发布，自定义主流数据库的保存和发布，自定义本地PHP和.net外部编程接口以处理数据，以便您可以使用这些数据.
　　4. 无限关卡采集
　　无限深度，分页采集，无限多页采集.
　　5. 下载任何文件格式
　　可以轻松下载图片，压缩文件，FLV电影等.
　　6. 支持多个数据库
　　Access / MySQL / MsSQL / Sqlite / Oracle保存并释放.
　　7. 关键字，链接替换
　　同义词替换，参数替换.
　　8，中文分词，汉英翻译
　　9，任意编码，Gzip，压缩压缩集合
　　自动识别多种语言的网页编码和集合.
　　10. 文字识别
　　自动识别标题，内容，时间等，没有规则.
　　优采云采集器 v7.7绿色正式版更新列表:
　　1. gif图片不再加水印，固定水印文本时无法判断水印条件的问题；
　　2. 新增了迅捷上传，YunFile，千脑和金山网盘的文件上传功能；
　　3. 添加了选项，供用户选择在删除记录时是否删除下载的文件；
　　4. 通过上传文件功能添加日志记录；
　　5. 添加了批量导入数据导入URL的功能；
　　6. 发布时添加了代理功能；
　　7. 修复了使用常规的过帐方法另存为本地excel的错误；

发票自动识别/发票照片识别/发票OCR自动识别系统

采集交流 • 优采云发表了文章 • 0 个评论 • 205 次浏览 • 2020-08-07 12:12 • 来自相关话题

　　对于一些大型集团公司，分散式财务管理模式效率相对较低，管理成本较高. 同时，它也限制了集团企业发展战略的实施，因此有必要建立一个财务共享中心. 当企业想要建立一个财务共享中心时，它面临的问题是大量的数据采集和信息处理，这需要大量的人力和物力. 其中最大的压力是原创账单和信息输入的采集.
　　自动发票识别/发票照片识别图片1
　　对于专业金融公司而言，尤其如此. 繁重的账单输入和管理工作既人力又费时.
　　为响应公司财务部门繁重的原创账单信息采集和管理工作，中安未来推出了自动发票识别解决方案. 通过使用发票OCR扫描和识别技术，采集并构造了增值税发票等发票信息，与传统的手工输入数据相比，大大减轻了财务人员的工作量，提高了他们的工作效率.
　　自动发票识别/发票照片识别图片2
　　产品表1: 专用发票扫描仪+中安发票OCR识别客户端软件
　　1.1发票自动识别/发票照片识别/发票OCR自动识别系统表格
　　A4加宽专用扫描仪+ OCR客户端软件来翻译发票.
　　1.2自动发票识别/发票照片识别/发票OCR自动识别系统的功能
　　1）高度集成: 扫描硬件和发票OCR识别软件高度无缝集成，一键完成发票扫描和识别，OCR结果返回以及高度自动化的业务流程；
　　2）A4加宽扫描仪，发票可以水平放置，并且可以同时扫描加宽的订单和文档；
　　3）识别发票类型: 支持识别特殊增值税发票，普通发票，电子发票和电子发票打印件，涵盖所有当前的增值税发票类型；
　　4）识别速度: 客户端平均1秒/页，60页/分钟的扫描速度；
　　产品表2: 中安发票OCR识别服务
　　1.1发票自动识别/发票照片识别/发票OCR自动识别系统表格
　　标识软件已部署在Linux服务器上，并提供标准API；
　　1.2自动发票识别/发票照片识别/发票OCR自动识别系统的功能
　　1）广泛的应用场景: 支持各种应用场景，例如扫描发票，照相发票，粘贴在A4纸上的发票等；
　　2）易于部署和维护: 发票OCR识别服务已部署在服务器上，以方便更新和维护. 查看全部

　　对于一些大型集团公司，分散式财务管理模式效率相对较低，管理成本较高. 同时，它也限制了集团企业发展战略的实施，因此有必要建立一个财务共享中心. 当企业想要建立一个财务共享中心时，它面临的问题是大量的数据采集和信息处理，这需要大量的人力和物力. 其中最大的压力是原创账单和信息输入的采集.
　　自动发票识别/发票照片识别图片1
　　对于专业金融公司而言，尤其如此. 繁重的账单输入和管理工作既人力又费时.
　　为响应公司财务部门繁重的原创账单信息采集和管理工作，中安未来推出了自动发票识别解决方案. 通过使用发票OCR扫描和识别技术，采集并构造了增值税发票等发票信息，与传统的手工输入数据相比，大大减轻了财务人员的工作量，提高了他们的工作效率.
　　自动发票识别/发票照片识别图片2
　　产品表1: 专用发票扫描仪+中安发票OCR识别客户端软件
　　1.1发票自动识别/发票照片识别/发票OCR自动识别系统表格
　　A4加宽专用扫描仪+ OCR客户端软件来翻译发票.
　　1.2自动发票识别/发票照片识别/发票OCR自动识别系统的功能
　　1）高度集成: 扫描硬件和发票OCR识别软件高度无缝集成，一键完成发票扫描和识别，OCR结果返回以及高度自动化的业务流程；
　　2）A4加宽扫描仪，发票可以水平放置，并且可以同时扫描加宽的订单和文档；
　　3）识别发票类型: 支持识别特殊增值税发票，普通发票，电子发票和电子发票打印件，涵盖所有当前的增值税发票类型；
　　4）识别速度: 客户端平均1秒/页，60页/分钟的扫描速度；
　　产品表2: 中安发票OCR识别服务
　　1.1发票自动识别/发票照片识别/发票OCR自动识别系统表格
　　标识软件已部署在Linux服务器上，并提供标准API；
　　1.2自动发票识别/发票照片识别/发票OCR自动识别系统的功能
　　1）广泛的应用场景: 支持各种应用场景，例如扫描发票，照相发票，粘贴在A4纸上的发票等；
　　2）易于部署和维护: 发票OCR识别服务已部署在服务器上，以方便更新和维护.

无需编程，就可以教您如何从Internet采集大量数据.

采集交流 • 优采云发表了文章 • 0 个评论 • 298 次浏览 • 2020-08-07 08:04 • 来自相关话题

　　许多朋友会问: 成千上万的出租房屋，二手房，薪水，甚至天气数据来自何处？实际上，这些数据可以在十分钟之内采集！
　　通常，我会回答，我使用特殊工具，并且无需编程即可快速掌握它. 以后肯定会问我，我可以在哪里下载该工具？
　　最近，我最近很忙，还没有完成很多写作任务. 教人如何钓鱼比教人如何钓鱼更好. 我决定将该软件开源到GitHub.
　　免费使用，开源！从那时起，估计许多爬行动物工程师将失去工作. . . 因为我的目标是使它对普通人可用！
　　本文介绍了采集器的一般原理，并在文章结尾处提供了一个程序地址.
　　◆◆◆
　　什么是爬虫
　　什么是爬虫
　　Internet是一个大型网络，可以将采集数据的小型程序生动地称为“爬虫”或“蜘蛛”.
　　采集器的原理非常简单. 当我们访问网页时，我们将单击翻页按钮和超链接，浏览器将帮助我们请求所有资源和图片. 因此，您可以设计一个程序，该程序可以模拟人在浏览器上的操作，并使网站错误地认为爬虫是正常的访问者，并且会乖乖地将所需的数据发送回去.
　　爬虫有两种类型，一种搜索引擎爬虫，可以捕获所有内容，例如百度（黑色）. 另一个是经过开发的，只能准确地捕获所需的内容: 例如，我只需要二手房信息，并且我不想在其旁边放置广告和新闻.
　　爬行动物这个名字不太好，所以我将此软件命名为Hawk，指的是“ Eagle”，它可以快速准确地捕获猎物. 基本上不需要编程，并且可以通过类似于Photoshop的图形化拖放操作来快速设计采集器. 它可以在20分钟内为Dianping编写爬虫程序（简化版只需要3分钟），然后就可以运行它.
　　以下是使用Hawk捕获二手房的视频. 建议在wifi环境中观看:
　　◆◆◆
　　自动将网页导出到Excel
　　那么，页面是如此之大，爬虫如何知道我想要的？
　　
　　当然，人们可以很容易地看到上图中的红色框是二手房的信息，但是机器不知道.
　　网页是一棵结构化的树，重要信息所在的节点通常很繁华. 举一个不适当的例子，由家谱组成的家谱，谁是最好的？当然是:
　　每个人都会认为这个家庭太强大了！
　　当我们对整个树结构进行评分时，我们自然可以找到最强大的节点，即我们想要的表. 在找到最好的爸爸之后，尽管儿子相似: 个子高大，英俊，有两条胳膊和两条腿，但这些是共同的特征，没有足够的信息. 我们关心的是特性. 长子的锥子脸与其他人不同，那是重要的信息. 第三儿子是最富有的人，也是我们所关心的. 因此，通过比较儿子的不同属性，我们可以知道哪些信息很重要.
　　返回网页采集示例. 通过一组有趣的算法提供网页地址，该软件会自动将其转换为Excel！（您不明白吗？通常情况下，您无需理会这些细节！）
　　◆◆◆
　　裂纹翻页限制
　　获取一页的数据还不够，我们要获取所有页面的数据！很简单，我们让程序一个接一个地请求第一页，第二页...数据被采集回
　　就这么简单吗？该网站如何允许如此轻松地带走其宝贵数据？因此它只能转到第50页或第100页. Chain Home就像这样:
　　
　　这也不打扰我们. 每页有30个数据，而100页最多可以显示3000个数据. 北京有16个区县的20,000个社区，但每个区的社区数量不到3,000个. 我们可以分别获取每个地区的社区列表. 每个社区最多有300多个二手房待售，因此可以获得联家的所有二手房.
　　然后，我们启动抓取器，Hawk将为每个子线程（可以理解为机器人）分配一个任务: 为我抓取该社区中的所有二手房！然后，您将看到一个壮观的场景: 一堆小型机器人协同工作以从网站上移动数据，是否有超级牛迅雷？同时执行100个任务！！当我从厕所回来时，我会抓住它！！！
　　
　　◆◆◆
　　清洁: 识别并转换内容
　　获得的数据如下:
　　
　　但是您将看到，应该删除一些奇怪的字符. xx平方米应提取的所有数字. 而价格，有些是213万元，有些是373万元，这些都很难应付.
　　但是，没关系！ Hawk可以自动识别所有数据:
　　哈哈，那么您可以轻松地使用这些数据进行分析，纯净无污染！
　　◆◆◆
　　破解需要登录的网站
　　当然，这里的意思不是破解用户名和密码，它还不够强大. 某些网站数据需要登录才能访问. 这不会打扰我们.
　　当您打开Hawk的内置嗅探功能时，Hawk就像一个录音机，它将记录您对目标网站的访问. 之后，它将重播它以实现自动登录.
　　您是否担心Hawk保存您的用户名和密码？如何不保存自动登录？但是Hawk是开源的，所有代码都已经过审查并且是安全的. 您的私人信息将仅位于您自己的硬盘中.
　　
　　（我们像这样自动登录到滇平）
　　◆◆◆
　　我是否也可以捕获数据
　　理论上是. 但是这条路高至一英尺，而魔术却在高处. 不同的网站是非常不同的，并且有许多技术可以对抗爬虫. 这些错误对细节非常敏感. 只要您输入有误，下一步可能就不会继续.
　　该怎么办？ Desert先生保存并共享以前的操作，您只需加载这些文件即可快速获取数据.
　　如果您可以访问其他网站，则可以在您周围找到程序员和同学，并要求他们帮助捕获数据，或者让他们尝试Hawk来看看谁更有效.
　　如果您是一名文科生的女孩，我建议您看看东野圭吾和村上春树. 直接使用如此复杂的软件会让您发疯. 我应该打电话给谁来帮助捕获数据？呵呵呵...
　　◆◆◆
　　在哪里可以获得软件和教程？
　　Hawk: 使用C#/ WPF软件简介编写的高级Crawler＆ETL工具
　　HAWK是数据采集和清理工具，根据GPL协议是开源的，可以灵活，有效地从网页，数据库和文件中采集数据，并通过可视化的拖放快速生成，过滤和转换. 最适合其功能的区域是爬网程序和数据清理.
　　鹰的意思是“鹰”，可以有效，准确地杀死猎物.
　　HAWK用C#编写，其前端接口是用WPF开发的，并且支持插件扩展. 通过图形操作，可以快速建立解决方案.
　　GitHub地址:
　　Python等效的实现是etlpy:
　　作者开发的项目文件已发布在GitHub上:
　　使用时，单击文件并加载项目以加载它.
　　如果您不想编译，则可执行文件位于:
　　密码: 4iy0
　　编译路径位于:
　　Hawk.Core \ Hawk.Core.sln 查看全部

　　许多朋友会问: 成千上万的出租房屋，二手房，薪水，甚至天气数据来自何处？实际上，这些数据可以在十分钟之内采集！
　　通常，我会回答，我使用特殊工具，并且无需编程即可快速掌握它. 以后肯定会问我，我可以在哪里下载该工具？
　　最近，我最近很忙，还没有完成很多写作任务. 教人如何钓鱼比教人如何钓鱼更好. 我决定将该软件开源到GitHub.
　　免费使用，开源！从那时起，估计许多爬行动物工程师将失去工作. . . 因为我的目标是使它对普通人可用！
　　本文介绍了采集器的一般原理，并在文章结尾处提供了一个程序地址.
　　◆◆◆
　　什么是爬虫
　　什么是爬虫
　　Internet是一个大型网络，可以将采集数据的小型程序生动地称为“爬虫”或“蜘蛛”.
　　采集器的原理非常简单. 当我们访问网页时，我们将单击翻页按钮和超链接，浏览器将帮助我们请求所有资源和图片. 因此，您可以设计一个程序，该程序可以模拟人在浏览器上的操作，并使网站错误地认为爬虫是正常的访问者，并且会乖乖地将所需的数据发送回去.
　　爬虫有两种类型，一种搜索引擎爬虫，可以捕获所有内容，例如百度（黑色）. 另一个是经过开发的，只能准确地捕获所需的内容: 例如，我只需要二手房信息，并且我不想在其旁边放置广告和新闻.
　　爬行动物这个名字不太好，所以我将此软件命名为Hawk，指的是“ Eagle”，它可以快速准确地捕获猎物. 基本上不需要编程，并且可以通过类似于Photoshop的图形化拖放操作来快速设计采集器. 它可以在20分钟内为Dianping编写爬虫程序（简化版只需要3分钟），然后就可以运行它.
　　以下是使用Hawk捕获二手房的视频. 建议在wifi环境中观看:
　　◆◆◆
　　自动将网页导出到Excel
　　那么，页面是如此之大，爬虫如何知道我想要的？
　　

　　当然，人们可以很容易地看到上图中的红色框是二手房的信息，但是机器不知道.
　　网页是一棵结构化的树，重要信息所在的节点通常很繁华. 举一个不适当的例子，由家谱组成的家谱，谁是最好的？当然是:
　　每个人都会认为这个家庭太强大了！
　　当我们对整个树结构进行评分时，我们自然可以找到最强大的节点，即我们想要的表. 在找到最好的爸爸之后，尽管儿子相似: 个子高大，英俊，有两条胳膊和两条腿，但这些是共同的特征，没有足够的信息. 我们关心的是特性. 长子的锥子脸与其他人不同，那是重要的信息. 第三儿子是最富有的人，也是我们所关心的. 因此，通过比较儿子的不同属性，我们可以知道哪些信息很重要.
　　返回网页采集示例. 通过一组有趣的算法提供网页地址，该软件会自动将其转换为Excel！（您不明白吗？通常情况下，您无需理会这些细节！）
　　◆◆◆
　　裂纹翻页限制
　　获取一页的数据还不够，我们要获取所有页面的数据！很简单，我们让程序一个接一个地请求第一页，第二页...数据被采集回
　　就这么简单吗？该网站如何允许如此轻松地带走其宝贵数据？因此它只能转到第50页或第100页. Chain Home就像这样:
　　

　　这也不打扰我们. 每页有30个数据，而100页最多可以显示3000个数据. 北京有16个区县的20,000个社区，但每个区的社区数量不到3,000个. 我们可以分别获取每个地区的社区列表. 每个社区最多有300多个二手房待售，因此可以获得联家的所有二手房.
　　然后，我们启动抓取器，Hawk将为每个子线程（可以理解为机器人）分配一个任务: 为我抓取该社区中的所有二手房！然后，您将看到一个壮观的场景: 一堆小型机器人协同工作以从网站上移动数据，是否有超级牛迅雷？同时执行100个任务！！当我从厕所回来时，我会抓住它！！！
　　

　　◆◆◆
　　清洁: 识别并转换内容
　　获得的数据如下:
　　

　　但是您将看到，应该删除一些奇怪的字符. xx平方米应提取的所有数字. 而价格，有些是213万元，有些是373万元，这些都很难应付.
　　但是，没关系！ Hawk可以自动识别所有数据:
　　哈哈，那么您可以轻松地使用这些数据进行分析，纯净无污染！
　　◆◆◆
　　破解需要登录的网站
　　当然，这里的意思不是破解用户名和密码，它还不够强大. 某些网站数据需要登录才能访问. 这不会打扰我们.
　　当您打开Hawk的内置嗅探功能时，Hawk就像一个录音机，它将记录您对目标网站的访问. 之后，它将重播它以实现自动登录.
　　您是否担心Hawk保存您的用户名和密码？如何不保存自动登录？但是Hawk是开源的，所有代码都已经过审查并且是安全的. 您的私人信息将仅位于您自己的硬盘中.
　　

　　（我们像这样自动登录到滇平）
　　◆◆◆
　　我是否也可以捕获数据
　　理论上是. 但是这条路高至一英尺，而魔术却在高处. 不同的网站是非常不同的，并且有许多技术可以对抗爬虫. 这些错误对细节非常敏感. 只要您输入有误，下一步可能就不会继续.
　　该怎么办？ Desert先生保存并共享以前的操作，您只需加载这些文件即可快速获取数据.
　　如果您可以访问其他网站，则可以在您周围找到程序员和同学，并要求他们帮助捕获数据，或者让他们尝试Hawk来看看谁更有效.
　　如果您是一名文科生的女孩，我建议您看看东野圭吾和村上春树. 直接使用如此复杂的软件会让您发疯. 我应该打电话给谁来帮助捕获数据？呵呵呵...
　　◆◆◆
　　在哪里可以获得软件和教程？
　　Hawk: 使用C#/ WPF软件简介编写的高级Crawler＆ETL工具
　　HAWK是数据采集和清理工具，根据GPL协议是开源的，可以灵活，有效地从网页，数据库和文件中采集数据，并通过可视化的拖放快速生成，过滤和转换. 最适合其功能的区域是爬网程序和数据清理.
　　鹰的意思是“鹰”，可以有效，准确地杀死猎物.
　　HAWK用C#编写，其前端接口是用WPF开发的，并且支持插件扩展. 通过图形操作，可以快速建立解决方案.
　　GitHub地址:
　　Python等效的实现是etlpy:
　　作者开发的项目文件已发布在GitHub上:
　　使用时，单击文件并加载项目以加载它.
　　如果您不想编译，则可执行文件位于:
　　密码: 4iy0
　　编译路径位于:
　　Hawk.Core \ Hawk.Core.sln

百度如何识别采集到的内容（已帮助2559人）

采集交流 • 优采云发表了文章 • 0 个评论 • 318 次浏览 • 2020-08-07 00:18 • 来自相关话题

　　百度如何识别采集到的内容
　　百度飓风算法2.0将于本月发布，其重点是打击内容作弊，尤其是采集和假冒原创作品. 很多朋友会问，百度如何认识到内容是采集的？我已经修改了网站的第一和最后一段，或者进行了纯粹的原创操作，百度还能识别吗？在本文中，作者将与您讨论百度可以识别所采集内容的那些事情.
　　我们知道，百度对内容的首次识别和判断是基于分词的. 换句话说，百度将对抓取的文章内容进行细分，然后根据单词的出现频率判断文章的主题. 这是一个非常简单的示例. 例如，我们估计在文章中插入了大量目标关键字. 百度只使用分词来判断，它会认为本文的主题是我们插入的关键字. 这就是为什么我们在SEO优化中强调关键字密度的原因. 关于关键字密度的重要性，以前很重要，现在和将来也很重要. 这是判断搜索相关性的重要因素.
　　接下来，我们再来谈谈采集，因为百度以前对内容的判断只集中在分词上，所以实际上，它识别和判断采集的能力非常有限. 在某种程度上，从分词中获得的指纹特征不是很科学. 这也导致了许多伪原创工具的出现，这些伪原创工具可以通过替换单词来欺骗百度的目的，因为在单词交换处理之后，百度无法判断它是否在采集内容. 但是，百度仍然可以对整个文章的采集做出很多判断而无需修改，毕竟指纹是完全相同的.
　　但是，随着Hurricane Algorithm 2.0的推出，百度搜索已经能够完美地解决此问题. 让我们看一下百度搜索飓风算法2.0的描述，其中之一是:
　　通常表现为一组站点，使用采集工具将多个特定的目标站点作为目标，根据另一方标签的特征，定期采集多个站点的不同段落并将它们组合起来以形成所谓的原创内容.
　　请仔细理解这句话. 显然，百度已经能够识别很多段落，这意味着它已经从以前的分词提升到了条款和段落. 如果仅对采集到的内容进行简单的端到端处理，百度搜索仍将其视为采集到的内容.
　　只能说百度搜索一直在进步. 欺骗百度搜索内容变得越来越困难. 最好的方法是诚实地提供高质量的原创内容，或整合真正满足用户需求的内容. 有价值的内容.
　　关于百度如何识别采集到的内容，本文并没有提供太多的技术解释，因为作者认为这是不必要的，我们只需要知道百度已经能够很好地识别句子和段落. 如果要避免将内容判断为已采集的内容，则必须找到一种方法来更改文章的每个段落甚至每个句子. 显然，这样做的成本有点高. 查看全部

　　百度如何识别采集到的内容
　　百度飓风算法2.0将于本月发布，其重点是打击内容作弊，尤其是采集和假冒原创作品. 很多朋友会问，百度如何认识到内容是采集的？我已经修改了网站的第一和最后一段，或者进行了纯粹的原创操作，百度还能识别吗？在本文中，作者将与您讨论百度可以识别所采集内容的那些事情.
　　我们知道，百度对内容的首次识别和判断是基于分词的. 换句话说，百度将对抓取的文章内容进行细分，然后根据单词的出现频率判断文章的主题. 这是一个非常简单的示例. 例如，我们估计在文章中插入了大量目标关键字. 百度只使用分词来判断，它会认为本文的主题是我们插入的关键字. 这就是为什么我们在SEO优化中强调关键字密度的原因. 关于关键字密度的重要性，以前很重要，现在和将来也很重要. 这是判断搜索相关性的重要因素.
　　接下来，我们再来谈谈采集，因为百度以前对内容的判断只集中在分词上，所以实际上，它识别和判断采集的能力非常有限. 在某种程度上，从分词中获得的指纹特征不是很科学. 这也导致了许多伪原创工具的出现，这些伪原创工具可以通过替换单词来欺骗百度的目的，因为在单词交换处理之后，百度无法判断它是否在采集内容. 但是，百度仍然可以对整个文章的采集做出很多判断而无需修改，毕竟指纹是完全相同的.
　　但是，随着Hurricane Algorithm 2.0的推出，百度搜索已经能够完美地解决此问题. 让我们看一下百度搜索飓风算法2.0的描述，其中之一是:
　　通常表现为一组站点，使用采集工具将多个特定的目标站点作为目标，根据另一方标签的特征，定期采集多个站点的不同段落并将它们组合起来以形成所谓的原创内容.
　　请仔细理解这句话. 显然，百度已经能够识别很多段落，这意味着它已经从以前的分词提升到了条款和段落. 如果仅对采集到的内容进行简单的端到端处理，百度搜索仍将其视为采集到的内容.
　　只能说百度搜索一直在进步. 欺骗百度搜索内容变得越来越困难. 最好的方法是诚实地提供高质量的原创内容，或整合真正满足用户需求的内容. 有价值的内容.
　　关于百度如何识别采集到的内容，本文并没有提供太多的技术解释，因为作者认为这是不必要的，我们只需要知道百度已经能够很好地识别句子和段落. 如果要避免将内容判断为已采集的内容，则必须找到一种方法来更改文章的每个段落甚至每个句子. 显然，这样做的成本有点高.

一种土壤环境监测信息自动采集与分析系统的方法

采集交流 • 优采云发表了文章 • 0 个评论 • 493 次浏览 • 2020-08-06 21:07 • 来自相关话题

　　一种土壤环境监测信息自动采集与分析系统的方法
　　[专利摘要]本实用新型涉及土壤环境监测信息自动采集与分析系统. 具体结构如下: 包括多个检测区域，每个检测区域设置有多个检测点，每个检测点设置有多个固定和/或移动测试设备，每个测试中都设置了区域数据传输模块. 区域，以及每个测试点设施采集点的数据传输模块. 每个固定和/或移动测试设备都通过其自己的集合. 该点的集合点数据传输模块和它所属的区域中的区域数据传输模块连接到数据中心中的数据接收计算机. 本应用所采用的系统可以实时掌握每个检测点的土壤数据情况，可以根据特定的土壤状况及时调整采集和检测项目及信息，实现对土壤状况的实时控制. 要测试的区域.
　　[专利说明]
　　土壤环境监测信息自动采集与分析系统
　　技术领域
　　[0001]本实用新型属于环境监测领域，尤其是土壤环境监测信息的自动采集与分析系统.
　　[背景技术]
　　[0002]中国是一个人口众多的发展中国家. 随着经济的发展，我国的土壤污染问题日益突出. 一些地区的土壤污染很严重. 农产品的质量安全和土壤污染引起的大规模事件逐年增加. 增长已经影响了我国的可持续发展战略. 近年来，随着中国人口的增长以及重工业和农业化学的兴起，工业废水，生活垃圾以及水引起的水污染不断地通过土地表层渗入土壤，大量化学物质渗入土壤. 化肥和农药散布到土地，工业废气，汽车尾气等中. 有害物质继续通过降雨落入土壤，使土地越来越受到面源污染.
　　[0003]目前，土壤采样过程是手动完成的. 采样过程消耗大量的人力和物力. 监测土壤状况更加困难. 针对上述问题，我们进行了专门的研究.
　　[实用程序模型内容]
　　[0004]本实用新型的目的是克服现有技术的不足，提供一种自动化程度高，操作方便的土壤环境监测信息自动采集与分析系统.
　　[0005]针对本实用新型的技术方案如下:
　　[0006]-土壤环境监测信息自动采集与分析系统，具体结构如下: 包括多个检测区域，每个检测区域设置有多个检测点，每个检测点设置有多个固定和/或移动检测设备，在每个检测区域中设置区域数据传输模块，在每个检测点设施处采集点数据传输模块，并且每个固定和/或移动检测设备都将通过其自己的采集点内的采集点. 所属区域的区域数据传输模块与设置在数据中心的数据接收计算机连接. 数据接收计算机分别连接到数据存储计算机和数据分析计算机，并且数据分析计算机连接到至少一台用于数据浏览的终端浏览计算机.
　　[0007]此外，数据接收计算机直接连接到终端浏览计算机以进行数据浏览.
　　[0008]此外，区域数据传输模块用于将数据上传到位于中心的数据接收计算机，并用于向采集点数据传输模块发送指令.
　　[0009]此外，采集点数据传输模块用于将数据上传到区域数据传输模块，并用于向固定和/或移动测试设备发送指令.
　　[0010]此外，区域数据传输模块和采集点数据传输模块连接到至少一台浏览计算机.
　　[0011]所描述的各种连接都是有线或无线连接.
　　[0012]此外，数据接收计算机用于数据的接收和显示以及向区域数据传输模块发送指令.
　　[0013]该实用新型的有益效果是:
　　[0014]本申请通过的系统可以实时掌握每个检测点的土壤数据，并可以根据土壤的具体情况及时调整采集和检测项目及信息，使土壤可以确定检测区域中的条件. 进行实时控制.
　　[图纸说明]
　　[0015]图1是本申请中土壤环境监测信息自动采集与分析系统的结构示意图.
　　[详细实现]
　　[0016]下面将参考附图和具体实施例进一步详细描述本实用新型. 以下实施例仅是描述性的而不是限制性的，本实用新型的保护范围并不以此为限.
　　[0017]-土壤环境监测信息的自动采集和分析系统. 具体结构如下: 包括M个检测区域，每个检测区域设置N个检测点，每个检测点设置W固定和/或移动测试设备，固定实验室等测试设备或移动设备. 便携式测试箱或检测器，在每个测试区域（图中未显示）设置区域数据传输模块，并在每个测试点设施处采集点数据传输模块（在图中未显示），每个固定和/或移动检测设备通过采集点中的采集点数据传输模块和所属区域中的区域数据传输模块连接到数据中心. 数据接收计算机分别连接到数据存储计算机和数据分析计算机，数据分析计算机与至少一台终端浏览计算机相连，用于数据浏览.
　　[0018]具体功能和原理说明如下:
　　[0019] 1.区域数据传输模块（下部计算机控制系统）和采集点数据传输模块（土壤采集模块）都具有唯一的硬件代码，以区分和识别彼此之间的关系，并记录相关数据到采样点文件管理系统. 相关数据包括下位计算机控制系统的代码，采集区域的位置，土壤采集模块的代码以及相应的上位计算机控制系统的代码.
　　[0020] 2. 每个较低的计算机控制系统模块都有一个唯一且独立的代码. 设置在数据中心的数据接收计算机（上位计算机控制系统）可以通过区域数据传输模块（下位计算机控制系统模块）. 这些代码通过通信控制协议的定制加以区分，并分别进行控制.
　　[0021] 3. 根据区域分布的原则，在要采集的区域内设置检测点以进行土壤监测和分析，并控制固定和/或移动检测设备（土壤采集单元和土壤分析单元）以及下部计算机. 安装在指定区域. 下层计算机控制系统之一可以控制N个固定和/或移动检测设备（土壤检测模块），每个土壤检测模块构成一个采集点.
　　[0022] 4. 中心设置的数据接收计算机（上位机系统）可以控制下面设置的固定和/或移动测试设备（测试点），包括每个点的采集时间，深度，并从下一个计算机在每个采样点返回数据库进行记录.
　　[0023] 5.完成1-4的操作设置，在中心设置的数据接收计算机（主机系统）可以通过终端浏览计算机（采样点文件管理系统），并进行采集和测试实时查询每个地点的数据，并将其移交给数据分析计算机（土壤检测数据分析系统）以进行相关数据挖掘和分析.
　　[0024]以上系统的工作原理如下:
　　[p] [0025]⑴将固定和/或移动测试设备（各种土壤测试模块）集成到一个设备中，并通过数据接收计算机（主机计算机系统）完成多区域和多点土壤的采集和工作. 分析，测量时间和结果可以通过网络传输到数据中心的数据接收计算机（主机系统）.
　　[0026]⑵数据中心中的数据接收计算机可以安装在PC或手持终端设备上，并通过有线，无线网络，蓝牙等控制区域数据传输模块（下位计算机）的时序通信方式，定量完成相应的操作，并将接收到的相应信息传输到数据库系统.
　　[0027]（3）数据中心的数据分析计算机具有数据分析功能，结合地理信息系统，可以完成指定区域内土壤污染的空间分布和空间变化.
　　[0028]⑷数据中心为其他设备提供扩展接口.
　　[主权物品]
　　1. 一种土壤环境监测信息自动采集分析系统，其特征在于: 具体结构如下: 包括多个检测区域，每个检测区域设置有多个检测点，每个检测点设置有多个固定点. /或移动测试设备，在每个测试区域中设置一个区域数据传输模块，并在每个测试点设施处采集数据传输模块. 每个固定和/或移动测试设备都经过其所属的采集点. 采集点数据传输模块和它们所属区域中的区域数据传输模块连接到数据中心中设置的数据接收计算机. 数据接收计算机分别连接到数据存储计算机和数据分析计算机，并且数据分析计算机连接到至少一个用于数据浏览的终端计算机. 2.根据权利要求1所述的土壤环境监测信息自动采集与分析系统，其特征在于: 所述区域数据传输模块用于将数据上传至设置在中心的数据接收计算机，并将数据传输至采集点. 模块发送指令. 3.根据权利要求1所述的土壤环境监测信息自动采集与分析系统，其特征在于: 采集点数据传输模块用于将数据上传至区域数据传输模块，并用于传输数据至固定和/或固定移动式测试设备发送指令. 4.根据权利要求1所述的土壤环境监测信息自动采集与分析系统，其特征在于，所述区域数据传输模块和所述采集点数据传输模块分别连接至至少一台浏览计算机和至少一台IC存储计算机. 5.根据权利要求1所述的土壤环境监测信息自动采集和分析系统，其中，所述各种连接以有线或无线方式连接.
　　[文档编号] G01N33 / 24GK205665698SQ2
　　[公开日] 2016年10月26日
　　[申请日期] 2016年4月28日
　　[发明人]龚琼，史荣光，王合成，郑向群，车明，张春学，杨波
　　[申请人]农业部环境保护科学研究所查看全部

　　一种土壤环境监测信息自动采集与分析系统的方法
　　[专利摘要]本实用新型涉及土壤环境监测信息自动采集与分析系统. 具体结构如下: 包括多个检测区域，每个检测区域设置有多个检测点，每个检测点设置有多个固定和/或移动测试设备，每个测试中都设置了区域数据传输模块. 区域，以及每个测试点设施采集点的数据传输模块. 每个固定和/或移动测试设备都通过其自己的集合. 该点的集合点数据传输模块和它所属的区域中的区域数据传输模块连接到数据中心中的数据接收计算机. 本应用所采用的系统可以实时掌握每个检测点的土壤数据情况，可以根据特定的土壤状况及时调整采集和检测项目及信息，实现对土壤状况的实时控制. 要测试的区域.
　　[专利说明]
　　土壤环境监测信息自动采集与分析系统
　　技术领域
　　[0001]本实用新型属于环境监测领域，尤其是土壤环境监测信息的自动采集与分析系统.
　　[背景技术]
　　[0002]中国是一个人口众多的发展中国家. 随着经济的发展，我国的土壤污染问题日益突出. 一些地区的土壤污染很严重. 农产品的质量安全和土壤污染引起的大规模事件逐年增加. 增长已经影响了我国的可持续发展战略. 近年来，随着中国人口的增长以及重工业和农业化学的兴起，工业废水，生活垃圾以及水引起的水污染不断地通过土地表层渗入土壤，大量化学物质渗入土壤. 化肥和农药散布到土地，工业废气，汽车尾气等中. 有害物质继续通过降雨落入土壤，使土地越来越受到面源污染.
　　[0003]目前，土壤采样过程是手动完成的. 采样过程消耗大量的人力和物力. 监测土壤状况更加困难. 针对上述问题，我们进行了专门的研究.
　　[实用程序模型内容]
　　[0004]本实用新型的目的是克服现有技术的不足，提供一种自动化程度高，操作方便的土壤环境监测信息自动采集与分析系统.
　　[0005]针对本实用新型的技术方案如下:
　　[0006]-土壤环境监测信息自动采集与分析系统，具体结构如下: 包括多个检测区域，每个检测区域设置有多个检测点，每个检测点设置有多个固定和/或移动检测设备，在每个检测区域中设置区域数据传输模块，在每个检测点设施处采集点数据传输模块，并且每个固定和/或移动检测设备都将通过其自己的采集点内的采集点. 所属区域的区域数据传输模块与设置在数据中心的数据接收计算机连接. 数据接收计算机分别连接到数据存储计算机和数据分析计算机，并且数据分析计算机连接到至少一台用于数据浏览的终端浏览计算机.
　　[0007]此外，数据接收计算机直接连接到终端浏览计算机以进行数据浏览.
　　[0008]此外，区域数据传输模块用于将数据上传到位于中心的数据接收计算机，并用于向采集点数据传输模块发送指令.
　　[0009]此外，采集点数据传输模块用于将数据上传到区域数据传输模块，并用于向固定和/或移动测试设备发送指令.
　　[0010]此外，区域数据传输模块和采集点数据传输模块连接到至少一台浏览计算机.
　　[0011]所描述的各种连接都是有线或无线连接.
　　[0012]此外，数据接收计算机用于数据的接收和显示以及向区域数据传输模块发送指令.
　　[0013]该实用新型的有益效果是:
　　[0014]本申请通过的系统可以实时掌握每个检测点的土壤数据，并可以根据土壤的具体情况及时调整采集和检测项目及信息，使土壤可以确定检测区域中的条件. 进行实时控制.
　　[图纸说明]
　　[0015]图1是本申请中土壤环境监测信息自动采集与分析系统的结构示意图.
　　[详细实现]
　　[0016]下面将参考附图和具体实施例进一步详细描述本实用新型. 以下实施例仅是描述性的而不是限制性的，本实用新型的保护范围并不以此为限.
　　[0017]-土壤环境监测信息的自动采集和分析系统. 具体结构如下: 包括M个检测区域，每个检测区域设置N个检测点，每个检测点设置W固定和/或移动测试设备，固定实验室等测试设备或移动设备. 便携式测试箱或检测器，在每个测试区域（图中未显示）设置区域数据传输模块，并在每个测试点设施处采集点数据传输模块（在图中未显示），每个固定和/或移动检测设备通过采集点中的采集点数据传输模块和所属区域中的区域数据传输模块连接到数据中心. 数据接收计算机分别连接到数据存储计算机和数据分析计算机，数据分析计算机与至少一台终端浏览计算机相连，用于数据浏览.
　　[0018]具体功能和原理说明如下:
　　[0019] 1.区域数据传输模块（下部计算机控制系统）和采集点数据传输模块（土壤采集模块）都具有唯一的硬件代码，以区分和识别彼此之间的关系，并记录相关数据到采样点文件管理系统. 相关数据包括下位计算机控制系统的代码，采集区域的位置，土壤采集模块的代码以及相应的上位计算机控制系统的代码.
　　[0020] 2. 每个较低的计算机控制系统模块都有一个唯一且独立的代码. 设置在数据中心的数据接收计算机（上位计算机控制系统）可以通过区域数据传输模块（下位计算机控制系统模块）. 这些代码通过通信控制协议的定制加以区分，并分别进行控制.
　　[0021] 3. 根据区域分布的原则，在要采集的区域内设置检测点以进行土壤监测和分析，并控制固定和/或移动检测设备（土壤采集单元和土壤分析单元）以及下部计算机. 安装在指定区域. 下层计算机控制系统之一可以控制N个固定和/或移动检测设备（土壤检测模块），每个土壤检测模块构成一个采集点.
　　[0022] 4. 中心设置的数据接收计算机（上位机系统）可以控制下面设置的固定和/或移动测试设备（测试点），包括每个点的采集时间，深度，并从下一个计算机在每个采样点返回数据库进行记录.
　　[0023] 5.完成1-4的操作设置，在中心设置的数据接收计算机（主机系统）可以通过终端浏览计算机（采样点文件管理系统），并进行采集和测试实时查询每个地点的数据，并将其移交给数据分析计算机（土壤检测数据分析系统）以进行相关数据挖掘和分析.
　　[0024]以上系统的工作原理如下:
　　[p] [0025]⑴将固定和/或移动测试设备（各种土壤测试模块）集成到一个设备中，并通过数据接收计算机（主机计算机系统）完成多区域和多点土壤的采集和工作. 分析，测量时间和结果可以通过网络传输到数据中心的数据接收计算机（主机系统）.
　　[0026]⑵数据中心中的数据接收计算机可以安装在PC或手持终端设备上，并通过有线，无线网络，蓝牙等控制区域数据传输模块（下位计算机）的时序通信方式，定量完成相应的操作，并将接收到的相应信息传输到数据库系统.
　　[0027]（3）数据中心的数据分析计算机具有数据分析功能，结合地理信息系统，可以完成指定区域内土壤污染的空间分布和空间变化.
　　[0028]⑷数据中心为其他设备提供扩展接口.
　　[主权物品]
　　1. 一种土壤环境监测信息自动采集分析系统，其特征在于: 具体结构如下: 包括多个检测区域，每个检测区域设置有多个检测点，每个检测点设置有多个固定点. /或移动测试设备，在每个测试区域中设置一个区域数据传输模块，并在每个测试点设施处采集数据传输模块. 每个固定和/或移动测试设备都经过其所属的采集点. 采集点数据传输模块和它们所属区域中的区域数据传输模块连接到数据中心中设置的数据接收计算机. 数据接收计算机分别连接到数据存储计算机和数据分析计算机，并且数据分析计算机连接到至少一个用于数据浏览的终端计算机. 2.根据权利要求1所述的土壤环境监测信息自动采集与分析系统，其特征在于: 所述区域数据传输模块用于将数据上传至设置在中心的数据接收计算机，并将数据传输至采集点. 模块发送指令. 3.根据权利要求1所述的土壤环境监测信息自动采集与分析系统，其特征在于: 采集点数据传输模块用于将数据上传至区域数据传输模块，并用于传输数据至固定和/或固定移动式测试设备发送指令. 4.根据权利要求1所述的土壤环境监测信息自动采集与分析系统，其特征在于，所述区域数据传输模块和所述采集点数据传输模块分别连接至至少一台浏览计算机和至少一台IC存储计算机. 5.根据权利要求1所述的土壤环境监测信息自动采集和分析系统，其中，所述各种连接以有线或无线方式连接.
　　[文档编号] G01N33 / 24GK205665698SQ2
　　[公开日] 2016年10月26日
　　[申请日期] 2016年4月28日
　　[发明人]龚琼，史荣光，王合成，郑向群，车明，张春学，杨波
　　[申请人]农业部环境保护科学研究所

[流程图模式]如何设置验证码识别功能（验证码显示在固定网页上）

采集交流 • 优采云发表了文章 • 0 个评论 • 302 次浏览 • 2020-08-06 12:18 • 来自相关话题

　　在采集数据的过程中，我们经常遇到需要输入验证码的情况. 优采云采集器支持自动验证码识别和手动编码功能.
　　需要输入验证码的情况通常可以分为以下两种:
　　第一种类型，验证码显示在固定的网页上，例如注册/登录页面上的验证码
　　第二，验证码显示在未固定的网页上，例如，在采集过程中，将弹出需要输入验证码的页面
　　在这两种情况下，验证码设置略有不同.
　　对于第一种情况，我们可以在开始时编辑采集规则时进行设置；
<p>对于第二种情况，我们需要先运行采集规则，直到验证码提示出现在网站上，这时我们停止采集，然后重新打开规则编辑界面以设置验证码识别. 查看全部

　　在采集数据的过程中，我们经常遇到需要输入验证码的情况. 优采云采集器支持自动验证码识别和手动编码功能.
　　需要输入验证码的情况通常可以分为以下两种:
　　第一种类型，验证码显示在固定的网页上，例如注册/登录页面上的验证码
　　第二，验证码显示在未固定的网页上，例如，在采集过程中，将弹出需要输入验证码的页面
　　在这两种情况下，验证码设置略有不同.
　　对于第一种情况，我们可以在开始时编辑采集规则时进行设置；
<p>对于第二种情况，我们需要先运行采集规则，直到验证码提示出现在网站上，这时我们停止采集，然后重新打开规则编辑界面以设置验证码识别.

OpenCV人脸识别之一: 数据采集和预处理

采集交流 • 优采云发表了文章 • 0 个评论 • 350 次浏览 • 2020-08-06 09:14 • 来自相关话题

　　要获得更简洁，方便的分类文章以及最新的课程和产品信息，请转到新展示的
　　该系列人脸识别文章使用opencv2，请参考该文章以获取最新版本的opencv3.2代码:
　　“ OpenCV对您的Face-C ++源代码广播的识别”；
　　“人脸识别源代码操作指南”（文章末尾附有编辑器）
　　前段时间已经对面部检测进行了一些尝试: 面部检测（C ++ / Python）（/ p / 504c081d7397），但是检测和识别有所不同. 检测解决的问题是图片中是否有人脸；和识别要解决的问题是，如果图片中有一张脸，那是谁的脸. 人脸检测可以使用opencv随附的分类器，但是人脸识别需要采集数据并自己训练分类器. opencv提供的面部识别教程: 使用OpenCV进行面部识别（/2.4/modules/contrib/doc/facerec/facerec_tutorial.html）. 中文版本也可以在网上找到.
　　俗话说，自己做. 站在巨人的肩膀上，参考前辈的经历，我终于能够确定自己的身份. 我觉得内容很多，没有时间一次全部编写，因此我将分阶段编写. 每个博客都是一个工作阶段. 初步思想分为三个部分: 数据采集和预处理，训练模型和面部识别. 今天写第一部分.
　　1. 后台数据集
　　opencv提供的教程中的第一个数据集，这次使用的数据集是: AT＆T Facedatabase（cl.cam.ac.uk/research/dtg/attarchive/facedatabase.html）. 也称为ORL人脸数据库，可容纳40人，每人10张照片. 这些照片是在不同的时间，不同的光线，不同的表情（睁开眼睛和闭合的眼睛，是否微笑）以及不同的脸部细节（戴或不戴眼镜）下采集的. 所有图像都是在深色均匀背景下采集的，正面垂直（有些许旋转）.
　　下载后，它看起来像这样:
　　
　　
　　您可以看到每个人的文件夹，并且在每个文件夹下是该人的十张照片，但它们不是熟悉的BMP，PNG或JPEG格式，而是PGM格式. Windows7随附的照片查看器和绘图软件无法打开此格式的图片.
　　幸运的是，我昨天刚刚研究了imread（）函数: 使用imread（）函数读取图片的六个正确姿势. 因此请记住，opencv文档中有这样的描述:
　　
　　imread（）仍然非常强大，因此编写一个程序来了解这些人的情况.
　　
　　2，自己的面部数据集
　　1. 相机程序
　　如果您想标识自己，那么拥有其他人的数据集是不够的. 您还需要一张自己的脸的照片. 这要求我们采集自己的照片，然后使用上述数据集训练模型. 我想，在用手机拍摄自拍照的过程中，为什么不编写一个程序以使用计算机的相机拍摄自拍照，我还可以研究如何使用opencv实现拍照功能. 经过一番实验（实际上花了很长时间），我终于写了一个相机程序.
　　程序的功能是打开计算机摄像头，然后按P键（P是照片的第一个字母吗？还是Photo的第一个字母？还是Picture的第一个字母？），当前帧的图像被保存. 很简单，没有朋友（花了很长时间！）.
　　while (1)
{
char key = waitKey(100);
cap >> frame;
imshow("frame", frame);
string filename = format("D:\\pic\\pic%d.jpg", i);
switch (key)
{
case'p':
i++;
imwrite(filename, frame);
imshow("photo", frame);
waitKey(500);
destroyWindow("photo");
break;
default:
break;
}
}
　　然后，我们可以运行程序并按住p键以疯狂地射击自己.
　　2，预处理
　　获取自己的面部照片后，需要对这些照片进行一些预处理，然后才能使用它们来训练模型. 所谓的预处理实际上是检测和分割人脸，并更改人脸的大小以使其与下载的数据集中的图像大小一致.
　　在上一个博客中已经介绍了人脸检测，因此在此不再赘述. 有关详细信息，请参阅: OpenCV人脸检测（C ++ / Python）（/ p / 504c081d7397）. 使用ROI进行拆分.
　　检测到面部之后，更改大小以使其与ORL面部数据库的面部大小一致. 通过在Locals或ImageWatch中添加断点，可以看到ORL face数据库的大小为92 x 112.
　　
　　
　　这里，您只需调整一次检测后获得的ROI的大小即可.
　　这两个步骤的代码如下:
　　std::vector faces;
Mat img_gray;
cvtColor(img, img_gray, COLOR_BGR2GRAY);
equalizeHist(img_gray, img_gray);
//-- Detect faces
face_cascade.detectMultiScale(img_gray, faces, 1.1, 3, CV_HAAR_DO_ROUGH_SEARCH, Size(50, 50));
for (size_t j = 0; j < faces.size(); j++)
{
Mat faceROI = img(faces[j]);
Mat MyFace;
if (faceROI.cols > 100)
{
resize(faceROI, MyFace, Size(92, 112));
string str = format("D:\\MyFaces\\MyFcae%d.jpg", i);
imwrite(str, MyFace);
imshow("ii", MyFace);
}
waitKey(10);
}
　　这时，我们已经获得了自己的面部数据集，该数据集与ORL面部数据库的面部大小一致. 然后，我们将自己视为第41位用户，在下载的face文件夹下创建s41的子文件夹，并将其面部数据放入其中. 变成这样，最后一个文件夹是我自己的头像:
　　
　　最后一个at.txt被放到下一次，训练模型取决于它.
　　这里有一点值得注意: 我在这里保存的图像格式是.jpg，而不是原创数据集的.pgm. 经过测试后，我仍然可以训练可以正确识别自己脸部的模型. 但是，如果大小不一致，则会报告错误.
　　OpenCV对您自己的Face-C ++源代码广播的认可
　　前言
　　大约一年前，我在CSDN专栏“ OpenCV Practice Road”上连续发表了三个博客，这些博客充分描述了基于OpenCV的人脸识别的整个过程. 这三篇文章有近10,000篇阅读文章，大量评论表明，人脸识别确实是每个人都对学习OpenCV最感兴趣的主题之一. 当然，这也可能是本科生老师最感兴趣的话题之一.
　　由于它是按照前后的过程编写的，因此源代码相对分散. 另外，我认为在上一个博客中已经发布了许多源代码，并且可以用一句话提及. 这导致许多学生的学业差异很大. 但是，由于重新安装了系统，原创的源代码丢失了，我也没有花时间重组它. 这个清明节没有出去. 根据先前的博客，源代码是根据最新的OpenCV3.2重新组织的. 现在将其发布给读者.
　　差异小
　　当然，重新排列不是源代码的简单集合. 如果真的那么简单，则无需整理，只需自己采集即可. 因为OpenCV3.2人脸识别的内容也略有变化. 因此，当前的代码仍然与原创的三个博客相同，但是细节有所不同.
　　1. 自动拍照
　　以前采集我自己的图像时，程序设置为按“ p”键拍照并在运行后保存图像，然后您需要手动将图像尺寸转换为与图像相同的尺寸. ORL人脸数据库.
　　现在一切都是自动的. 只需运行它即可拍照，更改尺寸并保存. 默认设置是拍摄10张照片，这与ORL人脸数据库一致.
　　2，Python脚本生成at.txt
　　当我写博客时，我还没有使用Python，因此生成的at.txt不是与s1文件夹对应的标签为1，而s2则对应于2. 这很混乱. 您需要记住谁是谁.
　　修改后的Python脚本可以完美地对应于文件夹和标签.
　　3. 培训代码
　　用于训练人脸识别模型的代码发生了一些变化，主要是因为OpenCV的变化.
　　头文件和名称空间分别需要添加一个句子:
　　#include
using namespace cv::face;
　　更改模型创建部分，原创代码为
　　Ptr model = createEigenFaceRecognizer();
Ptr model1 = createFisherFaceRecognizer();
Ptr model2 = createLBPHFaceRecognizer();
　　现在更改为:
　　Ptr model = createEigenFaceRecognizer(); Ptr model1 = createFisherFaceRecognizer(); Ptr model2 = createLBPHFaceRecognizer();
　　其余的变化不大.
　　下载Office
　　源代码已上传到Github和Baidu.com. 其中，由于大小限制，github不收录我训练有素的模型.
　　Github: `/ LiuXiaolong19920720 / recognise-your-own-face
　　百度网盘: 链接: / s / 1nuPFthR密码: slh8
　　要强调的另一件事是: 面部识别源代码操作指南
　　发布人脸识别源代码后，许多朋友下载后仍然无法成功运行. 因此，我不得不将源代码更改为我认为最容易成功运行的版本. 即使这样，我认为还是有必要编写本指南. 因为反复回答同一问题太累人了.
　　再重复一次，本文的环境为win7 + vs2015 + opencv3.2_with_contrib
　　源代码下载地址
　　网络磁盘: / s / 1b1J23O密码: kv1e（记住该网络磁盘的链接和密码，这是该系列最新代码的下载地址）
　　几个问题
　　首先，我将解释一些问题. 尽管有人说过，但仍有人问. 如果将来有人问，只需给他这篇文章即可.
　　找不到FaceRecognizer
　　FaceRecognizer位于opencv的contrib模块中的face模块中. 默认情况下，opencv正式下载的opencv没有贡献. 要实现人脸识别，您需要使用已编译contrib模块的opencv. 通常，您需要自己编译. 但是，自己编译更麻烦. 有人在Internet上共享了opencv3.2的编译版本. 下载地址如下:
　　链接: / s / 1qYx3v8S密码: i0c0
　　csv文件（即at.txt）很难自动生成.
　　在源代码中，我编写了一个名为add_label.py的python脚本，运行该脚本可以自动生成at.txt.
　　有时程序会崩溃，但黑色窗口中没有错误消息.
　　一个可能的原因是，当添加其他依赖项时，调试模式最好仅添加* d.lib. 释放模式最好只添加* .lib.
　　操作指南
　　为方便起见，所需的ORL人脸数据库已经收录在下载的源代码文件夹中. 在配置opencv的情况下，需要执行以下步骤.
　　1. 首先用VS打开face-rec.sln. 在解决方案管理器的源文件下添加take_photos.cpp. 如果源文件下还有其他cpp文件，请从项目中排除它们. 然后运行此相机程序. 如果照片效果不好，请自动调整脸部与相机之间的距离，或调整照明条件. 拍摄的照片将保存在att_faces \ s41文件夹中.
　　2. 生成一个csv文件. 您需要在计算机上安装Python2. 如果是Python3，则需要注释掉print语句. 尚未测试. 如果您对python有一定的了解，那就不难了. 按住Shift并右键单击add_label.py所在的文件夹，然后选择在此处打开命令行窗口. 在命令行上输入命令: python add_label.py，按Enter键运行.
　　3. 回到VS. 从项目中排除take_photos.cpp，将train.cpp添加到源文件中，然后运行. 最后，输出类似于以下内容的三行句子，以表明训练模型成功. 现在打开项目文件夹，您可以看到带有后缀xml的生成的模型文件.
　　预测类别= 9 /实际类别= 9.
　　4. 回到VS. 从项目中排除train.cpp，将rec-your-own-face.cpp添加到源文件中，然后运行. 此时应打开相机并识别您的脸.
　　最后
　　此面部识别程序只能用于学习和研究，因为准确率略低. 对于有更高要求的人，请自行探索更好的方法. 在这方面，我可以给您有限的建议.
　　原创链接: / p / c722d20944f2
　　CSDN博客地址: / xingchenbingbuyu / article / details / 73733490
　　作者的官方帐户: 旨在共享OpenCV和Python实际内容的官方帐户CVPy，欢迎关注.
　　有关更简洁，方便的分类文章以及最新的课程和产品信息，请移至新显示的“ LeadAI Academy官方网站”: 查看全部

　　要获得更简洁，方便的分类文章以及最新的课程和产品信息，请转到新展示的
　　该系列人脸识别文章使用opencv2，请参考该文章以获取最新版本的opencv3.2代码:
　　“ OpenCV对您的Face-C ++源代码广播的识别”；
　　“人脸识别源代码操作指南”（文章末尾附有编辑器）
　　前段时间已经对面部检测进行了一些尝试: 面部检测（C ++ / Python）（/ p / 504c081d7397），但是检测和识别有所不同. 检测解决的问题是图片中是否有人脸；和识别要解决的问题是，如果图片中有一张脸，那是谁的脸. 人脸检测可以使用opencv随附的分类器，但是人脸识别需要采集数据并自己训练分类器. opencv提供的面部识别教程: 使用OpenCV进行面部识别（/2.4/modules/contrib/doc/facerec/facerec_tutorial.html）. 中文版本也可以在网上找到.
　　俗话说，自己做. 站在巨人的肩膀上，参考前辈的经历，我终于能够确定自己的身份. 我觉得内容很多，没有时间一次全部编写，因此我将分阶段编写. 每个博客都是一个工作阶段. 初步思想分为三个部分: 数据采集和预处理，训练模型和面部识别. 今天写第一部分.
　　1. 后台数据集
　　opencv提供的教程中的第一个数据集，这次使用的数据集是: AT＆T Facedatabase（cl.cam.ac.uk/research/dtg/attarchive/facedatabase.html）. 也称为ORL人脸数据库，可容纳40人，每人10张照片. 这些照片是在不同的时间，不同的光线，不同的表情（睁开眼睛和闭合的眼睛，是否微笑）以及不同的脸部细节（戴或不戴眼镜）下采集的. 所有图像都是在深色均匀背景下采集的，正面垂直（有些许旋转）.
　　下载后，它看起来像这样:
　　

　　您可以看到每个人的文件夹，并且在每个文件夹下是该人的十张照片，但它们不是熟悉的BMP，PNG或JPEG格式，而是PGM格式. Windows7随附的照片查看器和绘图软件无法打开此格式的图片.
　　幸运的是，我昨天刚刚研究了imread（）函数: 使用imread（）函数读取图片的六个正确姿势. 因此请记住，opencv文档中有这样的描述:
　　

　　imread（）仍然非常强大，因此编写一个程序来了解这些人的情况.
　　

　　2，自己的面部数据集
　　1. 相机程序
　　如果您想标识自己，那么拥有其他人的数据集是不够的. 您还需要一张自己的脸的照片. 这要求我们采集自己的照片，然后使用上述数据集训练模型. 我想，在用手机拍摄自拍照的过程中，为什么不编写一个程序以使用计算机的相机拍摄自拍照，我还可以研究如何使用opencv实现拍照功能. 经过一番实验（实际上花了很长时间），我终于写了一个相机程序.
　　程序的功能是打开计算机摄像头，然后按P键（P是照片的第一个字母吗？还是Photo的第一个字母？还是Picture的第一个字母？），当前帧的图像被保存. 很简单，没有朋友（花了很长时间！）.
　　while (1)
{
char key = waitKey(100);
cap >> frame;
imshow("frame", frame);
string filename = format("D:\\pic\\pic%d.jpg", i);
switch (key)
{
case'p':
i++;
imwrite(filename, frame);
imshow("photo", frame);
waitKey(500);
destroyWindow("photo");
break;
default:
break;
}
}
　　然后，我们可以运行程序并按住p键以疯狂地射击自己.
　　2，预处理
　　获取自己的面部照片后，需要对这些照片进行一些预处理，然后才能使用它们来训练模型. 所谓的预处理实际上是检测和分割人脸，并更改人脸的大小以使其与下载的数据集中的图像大小一致.
　　在上一个博客中已经介绍了人脸检测，因此在此不再赘述. 有关详细信息，请参阅: OpenCV人脸检测（C ++ / Python）（/ p / 504c081d7397）. 使用ROI进行拆分.
　　检测到面部之后，更改大小以使其与ORL面部数据库的面部大小一致. 通过在Locals或ImageWatch中添加断点，可以看到ORL face数据库的大小为92 x 112.
　　

　　这里，您只需调整一次检测后获得的ROI的大小即可.
　　这两个步骤的代码如下:
　　std::vector faces;
Mat img_gray;
cvtColor(img, img_gray, COLOR_BGR2GRAY);
equalizeHist(img_gray, img_gray);
//-- Detect faces
face_cascade.detectMultiScale(img_gray, faces, 1.1, 3, CV_HAAR_DO_ROUGH_SEARCH, Size(50, 50));
for (size_t j = 0; j < faces.size(); j++)
{
Mat faceROI = img(faces[j]);
Mat MyFace;
if (faceROI.cols > 100)
{
resize(faceROI, MyFace, Size(92, 112));
string str = format("D:\\MyFaces\\MyFcae%d.jpg", i);
imwrite(str, MyFace);
imshow("ii", MyFace);
}
waitKey(10);
}
　　这时，我们已经获得了自己的面部数据集，该数据集与ORL面部数据库的面部大小一致. 然后，我们将自己视为第41位用户，在下载的face文件夹下创建s41的子文件夹，并将其面部数据放入其中. 变成这样，最后一个文件夹是我自己的头像:
　　

　　最后一个at.txt被放到下一次，训练模型取决于它.
　　这里有一点值得注意: 我在这里保存的图像格式是.jpg，而不是原创数据集的.pgm. 经过测试后，我仍然可以训练可以正确识别自己脸部的模型. 但是，如果大小不一致，则会报告错误.
　　OpenCV对您自己的Face-C ++源代码广播的认可
　　前言
　　大约一年前，我在CSDN专栏“ OpenCV Practice Road”上连续发表了三个博客，这些博客充分描述了基于OpenCV的人脸识别的整个过程. 这三篇文章有近10,000篇阅读文章，大量评论表明，人脸识别确实是每个人都对学习OpenCV最感兴趣的主题之一. 当然，这也可能是本科生老师最感兴趣的话题之一.
　　由于它是按照前后的过程编写的，因此源代码相对分散. 另外，我认为在上一个博客中已经发布了许多源代码，并且可以用一句话提及. 这导致许多学生的学业差异很大. 但是，由于重新安装了系统，原创的源代码丢失了，我也没有花时间重组它. 这个清明节没有出去. 根据先前的博客，源代码是根据最新的OpenCV3.2重新组织的. 现在将其发布给读者.
　　差异小
　　当然，重新排列不是源代码的简单集合. 如果真的那么简单，则无需整理，只需自己采集即可. 因为OpenCV3.2人脸识别的内容也略有变化. 因此，当前的代码仍然与原创的三个博客相同，但是细节有所不同.
　　1. 自动拍照
　　以前采集我自己的图像时，程序设置为按“ p”键拍照并在运行后保存图像，然后您需要手动将图像尺寸转换为与图像相同的尺寸. ORL人脸数据库.
　　现在一切都是自动的. 只需运行它即可拍照，更改尺寸并保存. 默认设置是拍摄10张照片，这与ORL人脸数据库一致.
　　2，Python脚本生成at.txt
　　当我写博客时，我还没有使用Python，因此生成的at.txt不是与s1文件夹对应的标签为1，而s2则对应于2. 这很混乱. 您需要记住谁是谁.
　　修改后的Python脚本可以完美地对应于文件夹和标签.
　　3. 培训代码
　　用于训练人脸识别模型的代码发生了一些变化，主要是因为OpenCV的变化.
　　头文件和名称空间分别需要添加一个句子:
　　#include
using namespace cv::face;
　　更改模型创建部分，原创代码为
　　Ptr model = createEigenFaceRecognizer();
Ptr model1 = createFisherFaceRecognizer();
Ptr model2 = createLBPHFaceRecognizer();
　　现在更改为:
　　Ptr model = createEigenFaceRecognizer(); Ptr model1 = createFisherFaceRecognizer(); Ptr model2 = createLBPHFaceRecognizer();
　　其余的变化不大.
　　下载Office
　　源代码已上传到Github和Baidu.com. 其中，由于大小限制，github不收录我训练有素的模型.
　　Github: `/ LiuXiaolong19920720 / recognise-your-own-face
　　百度网盘: 链接: / s / 1nuPFthR密码: slh8
　　要强调的另一件事是: 面部识别源代码操作指南
　　发布人脸识别源代码后，许多朋友下载后仍然无法成功运行. 因此，我不得不将源代码更改为我认为最容易成功运行的版本. 即使这样，我认为还是有必要编写本指南. 因为反复回答同一问题太累人了.
　　再重复一次，本文的环境为win7 + vs2015 + opencv3.2_with_contrib
　　源代码下载地址
　　网络磁盘: / s / 1b1J23O密码: kv1e（记住该网络磁盘的链接和密码，这是该系列最新代码的下载地址）
　　几个问题
　　首先，我将解释一些问题. 尽管有人说过，但仍有人问. 如果将来有人问，只需给他这篇文章即可.
　　找不到FaceRecognizer
　　FaceRecognizer位于opencv的contrib模块中的face模块中. 默认情况下，opencv正式下载的opencv没有贡献. 要实现人脸识别，您需要使用已编译contrib模块的opencv. 通常，您需要自己编译. 但是，自己编译更麻烦. 有人在Internet上共享了opencv3.2的编译版本. 下载地址如下:
　　链接: / s / 1qYx3v8S密码: i0c0
　　csv文件（即at.txt）很难自动生成.
　　在源代码中，我编写了一个名为add_label.py的python脚本，运行该脚本可以自动生成at.txt.
　　有时程序会崩溃，但黑色窗口中没有错误消息.
　　一个可能的原因是，当添加其他依赖项时，调试模式最好仅添加* d.lib. 释放模式最好只添加* .lib.
　　操作指南
　　为方便起见，所需的ORL人脸数据库已经收录在下载的源代码文件夹中. 在配置opencv的情况下，需要执行以下步骤.
　　1. 首先用VS打开face-rec.sln. 在解决方案管理器的源文件下添加take_photos.cpp. 如果源文件下还有其他cpp文件，请从项目中排除它们. 然后运行此相机程序. 如果照片效果不好，请自动调整脸部与相机之间的距离，或调整照明条件. 拍摄的照片将保存在att_faces \ s41文件夹中.
　　2. 生成一个csv文件. 您需要在计算机上安装Python2. 如果是Python3，则需要注释掉print语句. 尚未测试. 如果您对python有一定的了解，那就不难了. 按住Shift并右键单击add_label.py所在的文件夹，然后选择在此处打开命令行窗口. 在命令行上输入命令: python add_label.py，按Enter键运行.
　　3. 回到VS. 从项目中排除take_photos.cpp，将train.cpp添加到源文件中，然后运行. 最后，输出类似于以下内容的三行句子，以表明训练模型成功. 现在打开项目文件夹，您可以看到带有后缀xml的生成的模型文件.
　　预测类别= 9 /实际类别= 9.
　　4. 回到VS. 从项目中排除train.cpp，将rec-your-own-face.cpp添加到源文件中，然后运行. 此时应打开相机并识别您的脸.
　　最后
　　此面部识别程序只能用于学习和研究，因为准确率略低. 对于有更高要求的人，请自行探索更好的方法. 在这方面，我可以给您有限的建议.
　　原创链接: / p / c722d20944f2
　　CSDN博客地址: / xingchenbingbuyu / article / details / 73733490
　　作者的官方帐户: 旨在共享OpenCV和Python实际内容的官方帐户CVPy，欢迎关注.
　　有关更简洁，方便的分类文章以及最新的课程和产品信息，请移至新显示的“ LeadAI Academy官方网站”:

教您如何从Internet采集大量数据.

采集交流 • 优采云发表了文章 • 0 个评论 • 324 次浏览 • 2020-08-06 08:08 • 来自相关话题

　　Internet是一个大型网络，可以将采集数据的小型程序生动地称为“爬虫”或“蜘蛛”.
　　搜寻器的原理非常简单. 当我们访问网页时，我们将单击翻页按钮和超链接，浏览器将帮助我们请求所有资源和图片. 因此，您可以设计一个程序，该程序可以模拟人在浏览器上的操作，并使网站错误地认为爬虫是正常的访问者，并且会乖乖地将所需的数据发送回去.
　　爬虫有两种类型，一种搜索引擎爬虫，可以捕获所有内容，例如百度（黑色）. 另一个是经过开发的，只能准确地捕获所需的内容: 例如，我只需要二手房信息，并且我不想在其旁边放置广告和新闻.
　　名称搜寻器不好用，所以我将此软件命名为Hawk，指的是“ Eagle”，它可以准确，快速地捕获猎物. 基本上不需要编程，并且可以通过类似于Photoshop的图形化拖放操作来快速设计搜寻器. 它可以在20分钟内为Dianping编写爬虫程序（简化版只需要3分钟），然后就可以运行它.
　　以下是使用Hawk捕获二手房的视频. 建议在wifi环境中观看:
　　自动将网页导出到Excel
　　那么，页面是如此之大，爬虫如何知道我想要的？
　　
　　当然，人们可以很容易地看到上图中的红色框是二手房的信息，但是机器不知道.
　　网页是一棵结构化的树，重要信息所在的节点通常很繁华. 举一个不适当的例子，由家谱组成的家谱，谁是最好的？当然是:
　　每个人都会认为这个家庭太强大了！
　　当我们对整个树结构进行评分时，我们自然可以找到最强大的节点，即我们想要的表. 在找到最好的爸爸之后，尽管儿子相似: 个子高大，英俊，有两条胳膊和两条腿，但这些是共同的特征，没有足够的信息. 我们关心的是特性. 长子的锥子脸与其他人不同，那是重要的信息. 第三儿子是最富有的人，也是我们所关心的. 因此，通过比较儿子的不同属性，我们可以知道哪些信息很重要.
　　返回网页采集示例. 通过一组有趣的算法提供网页地址，该软件会自动将其转换为Excel！（不明白吗？如果您不明白，则不必关心这些细节！）
　　◆◆◆
　　裂纹翻页限制
　　获取一页的数据还不够，我们要获取所有页面的数据！很简单，我们让程序一个接一个地请求第一页，第二页...数据被采集回
　　就这么简单吗？该网站如何允许如此轻松地带走其宝贵数据？因此它只能转到第50页或第100页. Chain Home就像这样:
　　
　　这也不打扰我们. 每页有30个数据，而100页最多可以显示3000个数据. 北京有16个区县的20,000个社区，但每个区的社区数量不到3,000个. 我们可以分别获取每个地区的社区列表. 每个社区最多有300多个二手房待售，因此可以获得联家的所有二手房.
　　然后，我们启动抓取器，Hawk将为每个子线程（可以理解为机器人）分配一个任务: 为我抓取该社区中的所有二手房！然后，您将看到一个壮观的场景: 一堆小型机器人协同工作以从网站上移动数据，是否有超级牛迅雷？同时执行100个任务！！当我从厕所回来时，我会抓住它！！！
　　
　　◆◆◆
　　清洁: 识别并转换内容
　　获得的数据如下:
　　
　　但是您将看到，应该删除一些奇怪的字符. xx平方米应提取的所有数字. 而价格，有些是213万元，有些是373万元，这些都很难应付.
　　但是，没关系！ Hawk可以自动识别所有数据:
　　哈哈，那么您可以轻松地使用这些数据进行分析，纯净无污染！
　　◆◆◆
　　破解需要登录的网站
　　当然，这里的意思不是破解用户名和密码，它还不够强大. 某些网站数据需要登录才能访问. 这不会打扰我们.
　　当您打开Hawk的内置嗅探功能时，Hawk就像一个录音机，它将记录您对目标网站的访问. 之后，它将重播它以实现自动登录.
　　您是否担心Hawk保存您的用户名和密码？如何不保存自动登录？但是Hawk是开源的，所有代码都已经过审查并且是安全的. 您的私人信息将仅位于您自己的硬盘中.
　　
　　（我们像这样自动登录到滇平）
　　◆◆◆
　　我是否也可以捕获数据
　　理论上是. 但是这条路高至一英尺，而魔术却在高处. 不同的网站是非常不同的，并且有许多技术可以对抗爬虫. 这些错误对细节非常敏感. 只要您输入有误，下一步可能就不会继续.
　　该怎么办？ Desert先生保存并共享以前的操作，您只需加载这些文件即可快速获取数据.
　　如果您可以访问其他网站，则可以在您周围找到程序员和同学，并要求他们帮助捕获数据，或者让他们尝试Hawk来看看谁更有效.
　　如果您是一名文科生的女孩，我建议您看看东野圭吾和村上春树. 直接使用如此复杂的软件会让您发疯. 我应该打电话给谁来帮助捕获数据？呵呵呵...
　　◆◆◆
　　在哪里可以获得软件和教程？
　　Hawk: 使用C#/ WPF软件简介编写的高级Crawler＆ETL工具
　　HAWK是数据采集和清理工具，根据GPL协议是开源的，可以灵活，有效地从网页，数据库和文件中采集数据，并通过可视化的拖放快速生成，过滤和转换. 最适合其功能的区域是爬网程序和数据清理.
　　鹰的意思是“鹰”，可以有效，准确地杀死猎物.
　　HAWK用C#编写，其前端接口是用WPF开发的，并且支持插件扩展. 通过图形操作，可以快速建立解决方案.
　　GitHub地址:
　　Python等效的实现是etlpy:
　　作者开发的项目文件已发布在GitHub上:
　　使用时，单击文件并加载项目以加载它.
　　如果您不想编译，则可执行文件位于:
　　密码: 4iy0
　　编译路径为: Hawk.Core \ Hawk.Core.sln
　　国内一站式数据智能分析平台ETHINK提供本文查看全部

　　Internet是一个大型网络，可以将采集数据的小型程序生动地称为“爬虫”或“蜘蛛”.
　　搜寻器的原理非常简单. 当我们访问网页时，我们将单击翻页按钮和超链接，浏览器将帮助我们请求所有资源和图片. 因此，您可以设计一个程序，该程序可以模拟人在浏览器上的操作，并使网站错误地认为爬虫是正常的访问者，并且会乖乖地将所需的数据发送回去.
　　爬虫有两种类型，一种搜索引擎爬虫，可以捕获所有内容，例如百度（黑色）. 另一个是经过开发的，只能准确地捕获所需的内容: 例如，我只需要二手房信息，并且我不想在其旁边放置广告和新闻.
　　名称搜寻器不好用，所以我将此软件命名为Hawk，指的是“ Eagle”，它可以准确，快速地捕获猎物. 基本上不需要编程，并且可以通过类似于Photoshop的图形化拖放操作来快速设计搜寻器. 它可以在20分钟内为Dianping编写爬虫程序（简化版只需要3分钟），然后就可以运行它.
　　以下是使用Hawk捕获二手房的视频. 建议在wifi环境中观看:
　　自动将网页导出到Excel
　　那么，页面是如此之大，爬虫如何知道我想要的？
　　

　　当然，人们可以很容易地看到上图中的红色框是二手房的信息，但是机器不知道.
　　网页是一棵结构化的树，重要信息所在的节点通常很繁华. 举一个不适当的例子，由家谱组成的家谱，谁是最好的？当然是:
　　每个人都会认为这个家庭太强大了！
　　当我们对整个树结构进行评分时，我们自然可以找到最强大的节点，即我们想要的表. 在找到最好的爸爸之后，尽管儿子相似: 个子高大，英俊，有两条胳膊和两条腿，但这些是共同的特征，没有足够的信息. 我们关心的是特性. 长子的锥子脸与其他人不同，那是重要的信息. 第三儿子是最富有的人，也是我们所关心的. 因此，通过比较儿子的不同属性，我们可以知道哪些信息很重要.
　　返回网页采集示例. 通过一组有趣的算法提供网页地址，该软件会自动将其转换为Excel！（不明白吗？如果您不明白，则不必关心这些细节！）
　　◆◆◆
　　裂纹翻页限制
　　获取一页的数据还不够，我们要获取所有页面的数据！很简单，我们让程序一个接一个地请求第一页，第二页...数据被采集回
　　就这么简单吗？该网站如何允许如此轻松地带走其宝贵数据？因此它只能转到第50页或第100页. Chain Home就像这样:
　　

　　这也不打扰我们. 每页有30个数据，而100页最多可以显示3000个数据. 北京有16个区县的20,000个社区，但每个区的社区数量不到3,000个. 我们可以分别获取每个地区的社区列表. 每个社区最多有300多个二手房待售，因此可以获得联家的所有二手房.
　　然后，我们启动抓取器，Hawk将为每个子线程（可以理解为机器人）分配一个任务: 为我抓取该社区中的所有二手房！然后，您将看到一个壮观的场景: 一堆小型机器人协同工作以从网站上移动数据，是否有超级牛迅雷？同时执行100个任务！！当我从厕所回来时，我会抓住它！！！
　　

　　◆◆◆
　　清洁: 识别并转换内容
　　获得的数据如下:
　　

　　但是您将看到，应该删除一些奇怪的字符. xx平方米应提取的所有数字. 而价格，有些是213万元，有些是373万元，这些都很难应付.
　　但是，没关系！ Hawk可以自动识别所有数据:
　　哈哈，那么您可以轻松地使用这些数据进行分析，纯净无污染！
　　◆◆◆
　　破解需要登录的网站
　　当然，这里的意思不是破解用户名和密码，它还不够强大. 某些网站数据需要登录才能访问. 这不会打扰我们.
　　当您打开Hawk的内置嗅探功能时，Hawk就像一个录音机，它将记录您对目标网站的访问. 之后，它将重播它以实现自动登录.
　　您是否担心Hawk保存您的用户名和密码？如何不保存自动登录？但是Hawk是开源的，所有代码都已经过审查并且是安全的. 您的私人信息将仅位于您自己的硬盘中.
　　

　　（我们像这样自动登录到滇平）
　　◆◆◆
　　我是否也可以捕获数据
　　理论上是. 但是这条路高至一英尺，而魔术却在高处. 不同的网站是非常不同的，并且有许多技术可以对抗爬虫. 这些错误对细节非常敏感. 只要您输入有误，下一步可能就不会继续.
　　该怎么办？ Desert先生保存并共享以前的操作，您只需加载这些文件即可快速获取数据.
　　如果您可以访问其他网站，则可以在您周围找到程序员和同学，并要求他们帮助捕获数据，或者让他们尝试Hawk来看看谁更有效.
　　如果您是一名文科生的女孩，我建议您看看东野圭吾和村上春树. 直接使用如此复杂的软件会让您发疯. 我应该打电话给谁来帮助捕获数据？呵呵呵...
　　◆◆◆
　　在哪里可以获得软件和教程？
　　Hawk: 使用C#/ WPF软件简介编写的高级Crawler＆ETL工具
　　HAWK是数据采集和清理工具，根据GPL协议是开源的，可以灵活，有效地从网页，数据库和文件中采集数据，并通过可视化的拖放快速生成，过滤和转换. 最适合其功能的区域是爬网程序和数据清理.
　　鹰的意思是“鹰”，可以有效，准确地杀死猎物.
　　HAWK用C#编写，其前端接口是用WPF开发的，并且支持插件扩展. 通过图形操作，可以快速建立解决方案.
　　GitHub地址:
　　Python等效的实现是etlpy:
　　作者开发的项目文件已发布在GitHub上:
　　使用时，单击文件并加载项目以加载它.
　　如果您不想编译，则可执行文件位于:
　　密码: 4iy0
　　编译路径为: Hawk.Core \ Hawk.Core.sln
　　国内一站式数据智能分析平台ETHINK提供本文

数据采集: 如何自动进行数据采集？

采集交流 • 优采云发表了文章 • 0 个评论 • 291 次浏览 • 2020-08-06 00:01 • 来自相关话题

　　在上一节中
　　例如，您进行定量投资，根据大数据预测未来库存波动，并根据预测结果进行交易. 您现在可以获取过去库存的所有历史数据. 您可以基于这些数据构建具有较高预测率的数据分析系统吗？
　　实际上，如果您仅具有库存历史数据，您仍然无法理解为什么库存会急剧波动. 例如，当时可能是SARS流行病，或者某个地区爆发了战争. 这些重大的社会事件对股票的影响也很大.
　　因此，我们需要考虑数据的趋势受多维影响. 在确保数据质量的同时，我们需要通过多源数据采集来采集尽可能多的数据维，以便获得高质量的数据挖掘结果.
　　那么，从数据采集的角度来看，那里有哪些数据源？我将数据源分为以下四类.
　　这四种类型的数据源包括: 打开数据源，搜寻器搜寻，传感器和日志采集. 他们有自己的特点.
　　开放数据源通常是行业特定的数据库. 例如，美国人口普查局已发布有关美国人口信息，区域分布和教育的数据. 除政府外，公司和大学还将开放相应的大数据. 在这方面，北美表现相对较好. 在国内，贵州已进行了许多大胆尝试，建立了云平台，并逐年开放了旅游，交通，商业等领域的数据量.
　　请注意，许多研究都是基于开放数据源的，否则每年将不会发表太多论文，并且每个人都需要相同的数据集来比较算法的质量.
　　爬网程序爬网通常用于特定的网站或应用程序. 如果我们要抓取特定的网站数据，例如购物网站上的购物评论，则需要做特定的抓取工具.
　　第三种数据源是传感器，它们基本上采集物理信息. 例如，图像，视频或物体的速度，热量和压力.
　　最后，采集日志，这是对用户操作进行计数. 我们可以在前端埋入点，在后端采集脚本和统计信息，以分析网站访问和使用瓶颈.
　　我知道数据源有四种类型，您如何采集这些数据？
　　如何使用开放数据源
　　首先让我们看一下开放数据源并教给您一种方法. 可以从两个维度来考虑开放数据源，一个是单位的维度，例如政府，企业和大学. 另一个是行业方面，例如运输和金融. ，能源等领域. 在这方面，国外开放数据源的表现要好于国内开放数据源. 当然，近年来，越来越多的国内政府和大学正在使用开放数据源. 一方面，它为社会服务，另一方面，它自身的影响力也会越来越大.
　　例如，下表列出了单位尺寸的数据源.
　　因此，如果您想在特定领域（例如金融领域）中查找数据源，则可以基本上检查政府，大学和企业是否具有开放数据源. 当然，您也可以直接搜索财务开放数据源.
　　如何使用搜寻器进行搜寻
　　爬网程序爬网应该是最常见的要求，例如，您想要餐厅的评估数据. 当然，应该注意版权问题，并且许多网站还具有防爬机制.
　　最直接的方法是使用Python编写搜寻器代码，当然前提是您需要了解Python的基本语法. 另外，PHP也可以用作搜寻器，但是它的功能不如Python完善，尤其是在涉及多线程操作时.
　　在Python搜寻器中，基本上有三个过程.
　　使用请求对内容进行爬网. 我们可以使用Requests库来获取Web信息. 可以说Requests库是Python搜寻器的强大工具，即Python的HTTP库. 通过此库从网页爬网数据非常方便，并且可以节省很多时间. 使用XPath解析内容. XPath是XML Path（XML路径语言）的缩写. 它是一种用于确定XML文档某一部分位置的语言，在开发中通常用作小型查询语言. XPath可以按元素和属性执行位置索引. 使用熊猫保存数据. Pandas是一种高级数据结构，可简化数据分析. 我们可以使用Pandas保存抓取的数据. 最后，它通过Pandas写入XLS或MySQL等数据库.
　　请求，XPath和Pandas是Python的三个强大工具. 当然，有许多强大的Python搜寻器工具，例如Selenium，PhantomJS或Puppteteer的无头模式.
　　此外，我们也可以不进行编程就爬网信息. 这是三种常用的抓取工具.
　　优采云采集器
　　Youcai Cloud Collector已有13年的历史，并且是一个资深的采集工具. 它不仅可以用作爬网工具，还可以用于数据清理，数据分析，数据挖掘和可视化. 数据源适用于大多数网页，并且可以通过采集规则对网页上可见的所有内容进行爬网.
　　优采云
　　优采云也是著名的采集工具. 它有两个版本，一个是免费采集模板，另一个是云采集（付费）.
　　免费采集模板实际上是内容采集规则. 它可以通过包括电子商务，生活服务，社交媒体和论坛在内的网站进行采集，使用非常方便. 当然，您也可以自己定制任务.
　　那么什么是云采集？也就是说，配置采集任务时，可以将其移交给优采云的云中进行采集. 优采云共有5,000台服务器，它们通过云中的多个节点同时进行采集，并且采集速度远远超过本地采集. 此外，可以自动切换多个IP，以避免IP被阻止并影响采集.
　　已经完成工程项目的学生应该能够意识到云采集太方便了. 在许多情况下，自动IP交换和云采集是自动采集的关键. 查看全部

　　在上一节中
　　例如，您进行定量投资，根据大数据预测未来库存波动，并根据预测结果进行交易. 您现在可以获取过去库存的所有历史数据. 您可以基于这些数据构建具有较高预测率的数据分析系统吗？
　　实际上，如果您仅具有库存历史数据，您仍然无法理解为什么库存会急剧波动. 例如，当时可能是SARS流行病，或者某个地区爆发了战争. 这些重大的社会事件对股票的影响也很大.
　　因此，我们需要考虑数据的趋势受多维影响. 在确保数据质量的同时，我们需要通过多源数据采集来采集尽可能多的数据维，以便获得高质量的数据挖掘结果.
　　那么，从数据采集的角度来看，那里有哪些数据源？我将数据源分为以下四类.
　　这四种类型的数据源包括: 打开数据源，搜寻器搜寻，传感器和日志采集. 他们有自己的特点.
　　开放数据源通常是行业特定的数据库. 例如，美国人口普查局已发布有关美国人口信息，区域分布和教育的数据. 除政府外，公司和大学还将开放相应的大数据. 在这方面，北美表现相对较好. 在国内，贵州已进行了许多大胆尝试，建立了云平台，并逐年开放了旅游，交通，商业等领域的数据量.
　　请注意，许多研究都是基于开放数据源的，否则每年将不会发表太多论文，并且每个人都需要相同的数据集来比较算法的质量.
　　爬网程序爬网通常用于特定的网站或应用程序. 如果我们要抓取特定的网站数据，例如购物网站上的购物评论，则需要做特定的抓取工具.
　　第三种数据源是传感器，它们基本上采集物理信息. 例如，图像，视频或物体的速度，热量和压力.
　　最后，采集日志，这是对用户操作进行计数. 我们可以在前端埋入点，在后端采集脚本和统计信息，以分析网站访问和使用瓶颈.
　　我知道数据源有四种类型，您如何采集这些数据？
　　如何使用开放数据源
　　首先让我们看一下开放数据源并教给您一种方法. 可以从两个维度来考虑开放数据源，一个是单位的维度，例如政府，企业和大学. 另一个是行业方面，例如运输和金融. ，能源等领域. 在这方面，国外开放数据源的表现要好于国内开放数据源. 当然，近年来，越来越多的国内政府和大学正在使用开放数据源. 一方面，它为社会服务，另一方面，它自身的影响力也会越来越大.
　　例如，下表列出了单位尺寸的数据源.
　　因此，如果您想在特定领域（例如金融领域）中查找数据源，则可以基本上检查政府，大学和企业是否具有开放数据源. 当然，您也可以直接搜索财务开放数据源.
　　如何使用搜寻器进行搜寻
　　爬网程序爬网应该是最常见的要求，例如，您想要餐厅的评估数据. 当然，应该注意版权问题，并且许多网站还具有防爬机制.
　　最直接的方法是使用Python编写搜寻器代码，当然前提是您需要了解Python的基本语法. 另外，PHP也可以用作搜寻器，但是它的功能不如Python完善，尤其是在涉及多线程操作时.
　　在Python搜寻器中，基本上有三个过程.
　　使用请求对内容进行爬网. 我们可以使用Requests库来获取Web信息. 可以说Requests库是Python搜寻器的强大工具，即Python的HTTP库. 通过此库从网页爬网数据非常方便，并且可以节省很多时间. 使用XPath解析内容. XPath是XML Path（XML路径语言）的缩写. 它是一种用于确定XML文档某一部分位置的语言，在开发中通常用作小型查询语言. XPath可以按元素和属性执行位置索引. 使用熊猫保存数据. Pandas是一种高级数据结构，可简化数据分析. 我们可以使用Pandas保存抓取的数据. 最后，它通过Pandas写入XLS或MySQL等数据库.
　　请求，XPath和Pandas是Python的三个强大工具. 当然，有许多强大的Python搜寻器工具，例如Selenium，PhantomJS或Puppteteer的无头模式.
　　此外，我们也可以不进行编程就爬网信息. 这是三种常用的抓取工具.
　　优采云采集器
　　Youcai Cloud Collector已有13年的历史，并且是一个资深的采集工具. 它不仅可以用作爬网工具，还可以用于数据清理，数据分析，数据挖掘和可视化. 数据源适用于大多数网页，并且可以通过采集规则对网页上可见的所有内容进行爬网.
　　优采云
　　优采云也是著名的采集工具. 它有两个版本，一个是免费采集模板，另一个是云采集（付费）.
　　免费采集模板实际上是内容采集规则. 它可以通过包括电子商务，生活服务，社交媒体和论坛在内的网站进行采集，使用非常方便. 当然，您也可以自己定制任务.
　　那么什么是云采集？也就是说，配置采集任务时，可以将其移交给优采云的云中进行采集. 优采云共有5,000台服务器，它们通过云中的多个节点同时进行采集，并且采集速度远远超过本地采集. 此外，可以自动切换多个IP，以避免IP被阻止并影响采集.
　　已经完成工程项目的学生应该能够意识到云采集太方便了. 在许多情况下，自动IP交换和云采集是自动采集的关键.

Web搜寻器是一种程序或脚本，可以根据某些规则自动在万维网上搜寻信息. （）（2

采集交流 • 优采云发表了文章 • 0 个评论 • 135 次浏览 • 2020-08-06 00:00 • 来自相关话题

　　[选择题]以下哪项用于存储所识别对象的识别信息？（）（5.0分）[单选题] HDFS的默认块大小为（）（3.0分）[填空] Hadoop平台具有两个核心，一个是分布式文件系统HDFS，另一个是（）. （4.0分）[简短回答问题]作业要求: 参考示例文章，以小组为单位，小组成员将根据活动计划书的结构要素自由地划分工作，并共同完成上学期2019-2020学年××班的汉语经典阅读比赛活动策划书. 请用组的名称+名称+编写的计划书的结构元素的名称标记作业的名称. [单选问题]作为物联网发展的先驱，（）技术是市场上最关注的技术. （5.0分）[单选题]射频识别卡与其他身份证的最大区别是（）（5.0分）[简答题]在教学数据库的得分表中添加数据: ''，' c05109'，79，91''，'c05127'，93,78如果添加失败，请找出失败的原因. [选择题]射频识别技术是一种通过射频信号（）实现信息传输的技术. （5.0分）[单选题]物联网远程医疗与传统远程医疗的核心组件之间的区别是（C）被添加到患者中以提供更全面的患者信息（5.0分）[单选题] Hadoop可以什么是操作模式（）？（3.0分）[对与错]只有专业的计算机人才可以进行数据挖掘.
　　（2.0分）[单选问题]数据挖掘的最终目标是（）（3.0分）[单选问题]感知层是IoT体系结构的（）层. （5.0分）[正确和正确] Hadoop是基于Java语言开发的，具有良好的跨平台功能，可以部署在廉价的计算机集群中. （2.0分）[单选题]研究了一家超市的销售记录数据后，发现买啤酒的人也会买尿布. 这种问题是什么样的数据挖掘？（）（3.0分）[单选题]物联网的英文名称是（）（5.0分）[填空] HDFS为大型数据提供分布式解决方案（）（4.0分）[真实集群是同一企业，部署在多台服务器上，不同的机器向外界提供一致的服务. （2.0分）[简短的问题]在数据库SaleProduct表的Customer属性列custPhone上创建唯一索引，并自定义索引名称. [单选题]从社交媒体（如QQ，微信，微博等）获得的数据属于哪种类型的数据？（3.0分）[简短回答]删除数据库test01中表student1的表st_class列中jsj1012的值的行. [单选题]在1995年，（）首次提出了物联网的概念. （5.0分）[单选题]物联网技术是基于射频识别技术发展起来的新兴产业. 基于射频识别技术的信息传输的主要方法是什么？（）（5.0分）[填充空白] hdfs数据存储和管理通常至少需要（）个副本.
　　（4.0分）[单选题]物联网的核心技术是（）（5.0分）[对与错] Web爬网程序是一种程序或脚本，可以根据以下条件自动在万维网上获取信息遵守某些规则. （2.0分）[单选题]大数据的四种分析技术是: 统计分析，机器学习，数据挖掘和（3.0分）[单选题]大数据的重要来源是（）（3.0分）[单选]物联网的全球发展状况可能使人类进入“智能时代”，也称为（）. （5.0分）[多项选择]物联网的核心和基础仍然是（）. （5.0分）[简短的问题]（1）在数据库test01中创建一个表stud，其中收录以下数据: Studentno nchar（10）NOT NULL，Sname nchar（8）NULL，性别nchar（1）NULL，年龄int NULL，Classno nchar（6）NULL（2）将数据添加到表中: '1622130018'，'Li Wenping'，'female'，19，'16 count this'，'1622130028'，'Wang Haiping'，'male '，19，'16计数本'，'1622130038'，'邓文平'，'女'，19，'16计数本'，然后检查数据表中的数据.
　　（3）将数据列添加到表中: Department char（20），unit char（20）使用存储过程sp_help查看表信息（4）删除列单元，然后再次使用存储过程sp_help查看表信息（ 5）在表中，将名称为“王海平”的行的名称更改为“华海峰”，并将其年龄更改为“ 20”；将表中所有行的部门更改为“经济学院”，然后浏览表中的数据（6）以删除表中的所有行并检查表中是否有数据（7）删除表[ [单选]（）将取代传统的条形码，并成为物品识别的最有效手段. （5.0分）[简短的问题]数据库test01中的表student1收录一个st_class varchar（20）字段. 请为此表输入以下3行数据，然后将st_class列的所有值更改为jsj1012. 'jixie1709'，'huag1602'，'txun1612'[单选]以下哪个不是数据预处理方法？（）（3.0分）[True / Judgement] Map负责分解数据，Reduce负责采集数据.
　　（2.0分）[填补空白]大数据预处理的方法主要包括数据清理，数据集成，（）和（）. （4.0分）[多项选择]数据可视化不仅是一种工具和技术，而且还是一种表达方式（），它是现实世界的抽象表达. （3.0分）[True / Trump]大数据采集的数据类型结构是单一的. （）（2.0分）[简短回答问题]在教学数据库的分数表中添加数据: ''，'c05127'，90,80，然后将学生编号和课程编号c05127的最终分数修改为87 [填写hdfs数据存储的特征是一次写入，多次读取，（）（可以/不能）修改. （4.0分）[单选题]大数据预处理方法中不包括以下哪个选项？（3.0分）[单选题]数据可视化是利用计算机图形和图像处理技术将数据转换为屏幕上的（），上面显示了交互式处理的理论方法和技术. （3.0分）[单选题]智慧城市是____和____组合的产物（）（5.0分）[单选题]在以下有关大数据分析概念的陈述中，什么是错误的（）. （3.0分）[简短回答问题]删除数据库SaleProduct中Customer上的索引idx_uq_custPhone. [单选问题]以下哪个不是数据清理要完成的工作. （3.0分）[True and True] HDFS在存储文件时将文件分为多个大小不同的块. （2.0分）[对与错]大数据挖掘的目标是挖掘大量数据. （2.0分）[正确/正确的问题]在HDFS中存储时，文件只能存储在一个节点上. （2.0分）[正确和正确] Hadoop无法自动重新分配失败的作业（）（2.0分）查看全部

　　[选择题]以下哪项用于存储所识别对象的识别信息？（）（5.0分）[单选题] HDFS的默认块大小为（）（3.0分）[填空] Hadoop平台具有两个核心，一个是分布式文件系统HDFS，另一个是（）. （4.0分）[简短回答问题]作业要求: 参考示例文章，以小组为单位，小组成员将根据活动计划书的结构要素自由地划分工作，并共同完成上学期2019-2020学年××班的汉语经典阅读比赛活动策划书. 请用组的名称+名称+编写的计划书的结构元素的名称标记作业的名称. [单选问题]作为物联网发展的先驱，（）技术是市场上最关注的技术. （5.0分）[单选题]射频识别卡与其他身份证的最大区别是（）（5.0分）[简答题]在教学数据库的得分表中添加数据: ''，' c05109'，79，91''，'c05127'，93,78如果添加失败，请找出失败的原因. [选择题]射频识别技术是一种通过射频信号（）实现信息传输的技术. （5.0分）[单选题]物联网远程医疗与传统远程医疗的核心组件之间的区别是（C）被添加到患者中以提供更全面的患者信息（5.0分）[单选题] Hadoop可以什么是操作模式（）？（3.0分）[对与错]只有专业的计算机人才可以进行数据挖掘.
　　（2.0分）[单选问题]数据挖掘的最终目标是（）（3.0分）[单选问题]感知层是IoT体系结构的（）层. （5.0分）[正确和正确] Hadoop是基于Java语言开发的，具有良好的跨平台功能，可以部署在廉价的计算机集群中. （2.0分）[单选题]研究了一家超市的销售记录数据后，发现买啤酒的人也会买尿布. 这种问题是什么样的数据挖掘？（）（3.0分）[单选题]物联网的英文名称是（）（5.0分）[填空] HDFS为大型数据提供分布式解决方案（）（4.0分）[真实集群是同一企业，部署在多台服务器上，不同的机器向外界提供一致的服务. （2.0分）[简短的问题]在数据库SaleProduct表的Customer属性列custPhone上创建唯一索引，并自定义索引名称. [单选题]从社交媒体（如QQ，微信，微博等）获得的数据属于哪种类型的数据？（3.0分）[简短回答]删除数据库test01中表student1的表st_class列中jsj1012的值的行. [单选题]在1995年，（）首次提出了物联网的概念. （5.0分）[单选题]物联网技术是基于射频识别技术发展起来的新兴产业. 基于射频识别技术的信息传输的主要方法是什么？（）（5.0分）[填充空白] hdfs数据存储和管理通常至少需要（）个副本.
　　（4.0分）[单选题]物联网的核心技术是（）（5.0分）[对与错] Web爬网程序是一种程序或脚本，可以根据以下条件自动在万维网上获取信息遵守某些规则. （2.0分）[单选题]大数据的四种分析技术是: 统计分析，机器学习，数据挖掘和（3.0分）[单选题]大数据的重要来源是（）（3.0分）[单选]物联网的全球发展状况可能使人类进入“智能时代”，也称为（）. （5.0分）[多项选择]物联网的核心和基础仍然是（）. （5.0分）[简短的问题]（1）在数据库test01中创建一个表stud，其中收录以下数据: Studentno nchar（10）NOT NULL，Sname nchar（8）NULL，性别nchar（1）NULL，年龄int NULL，Classno nchar（6）NULL（2）将数据添加到表中: '1622130018'，'Li Wenping'，'female'，19，'16 count this'，'1622130028'，'Wang Haiping'，'male '，19，'16计数本'，'1622130038'，'邓文平'，'女'，19，'16计数本'，然后检查数据表中的数据.
　　（3）将数据列添加到表中: Department char（20），unit char（20）使用存储过程sp_help查看表信息（4）删除列单元，然后再次使用存储过程sp_help查看表信息（ 5）在表中，将名称为“王海平”的行的名称更改为“华海峰”，并将其年龄更改为“ 20”；将表中所有行的部门更改为“经济学院”，然后浏览表中的数据（6）以删除表中的所有行并检查表中是否有数据（7）删除表[ [单选]（）将取代传统的条形码，并成为物品识别的最有效手段. （5.0分）[简短的问题]数据库test01中的表student1收录一个st_class varchar（20）字段. 请为此表输入以下3行数据，然后将st_class列的所有值更改为jsj1012. 'jixie1709'，'huag1602'，'txun1612'[单选]以下哪个不是数据预处理方法？（）（3.0分）[True / Judgement] Map负责分解数据，Reduce负责采集数据.
　　（2.0分）[填补空白]大数据预处理的方法主要包括数据清理，数据集成，（）和（）. （4.0分）[多项选择]数据可视化不仅是一种工具和技术，而且还是一种表达方式（），它是现实世界的抽象表达. （3.0分）[True / Trump]大数据采集的数据类型结构是单一的. （）（2.0分）[简短回答问题]在教学数据库的分数表中添加数据: ''，'c05127'，90,80，然后将学生编号和课程编号c05127的最终分数修改为87 [填写hdfs数据存储的特征是一次写入，多次读取，（）（可以/不能）修改. （4.0分）[单选题]大数据预处理方法中不包括以下哪个选项？（3.0分）[单选题]数据可视化是利用计算机图形和图像处理技术将数据转换为屏幕上的（），上面显示了交互式处理的理论方法和技术. （3.0分）[单选题]智慧城市是____和____组合的产物（）（5.0分）[单选题]在以下有关大数据分析概念的陈述中，什么是错误的（）. （3.0分）[简短回答问题]删除数据库SaleProduct中Customer上的索引idx_uq_custPhone. [单选问题]以下哪个不是数据清理要完成的工作. （3.0分）[True and True] HDFS在存储文件时将文件分为多个大小不同的块. （2.0分）[对与错]大数据挖掘的目标是挖掘大量数据. （2.0分）[正确/正确的问题]在HDFS中存储时，文件只能存储在一个节点上. （2.0分）[正确和正确] Hadoop无法自动重新分配失败的作业（）（2.0分）

OCR自动输入系统使信息收集告别手动输入，节省了时间和精力，准确率非常高

采集交流 • 优采云发表了文章 • 0 个评论 • 113 次浏览 • 2020-08-04 20:00 • 来自相关话题

　　
　　，省时省力，准确率高'
　　许多年前，键盘取代了手动转录作为一种新的输入方法，从而迎来了一个新时代. 当今，随着信息技术的飞速发展，键盘输入已无法跟上时代的发展. OCR自动输入技术的出现将引发一场新的信息输入革命，再次解放人们的双手.
　　OCR自动进入高效信息收集并释放双手
　　OCR或光学字符识别可以将图片中的文本信息快速转换为文本信息. 只需通过智能终端拍照，扫描或导入图片，即可快速自动收集并输入相关信息. 也许是这样，您仍然对OCR技术没有特定的了解，所以让我们看一下OCR技术在现实生活中如何工作.
　　由于采用了OCR技术，许多行业的工作效率有了质的飞跃. 为什么？这与机器替代劳力的情况相同. 例如，在旅游旺季，较大的旅行社每天会接待成千上万的出境旅行者，因此旅行社必须注册各种旅行证件，以便进行后续的行程安排，例如酒店和机票的预订.
　　如果这种情况依赖于手动输入，则无疑将花费大量时间和人力，并且机械操作也容易出错. 但是，与OCR技术不同，就像使用OCR技术进行文档识别一样，只要它能对各种文档进行拍照和扫描，系统就可以快速自动地输入文档信息. 对于OCR识别（可以平均在不到2秒的时间内识别文件）来说，成千上万的各种文件绝对是小菜一碟.
　　
　　，省时省力，准确率高' 查看全部

　　，省时省力，准确率高'
　　许多年前，键盘取代了手动转录作为一种新的输入方法，从而迎来了一个新时代. 当今，随着信息技术的飞速发展，键盘输入已无法跟上时代的发展. OCR自动输入技术的出现将引发一场新的信息输入革命，再次解放人们的双手.
　　OCR自动进入高效信息收集并释放双手
　　OCR或光学字符识别可以将图片中的文本信息快速转换为文本信息. 只需通过智能终端拍照，扫描或导入图片，即可快速自动收集并输入相关信息. 也许是这样，您仍然对OCR技术没有特定的了解，所以让我们看一下OCR技术在现实生活中如何工作.
　　由于采用了OCR技术，许多行业的工作效率有了质的飞跃. 为什么？这与机器替代劳力的情况相同. 例如，在旅游旺季，较大的旅行社每天会接待成千上万的出境旅行者，因此旅行社必须注册各种旅行证件，以便进行后续的行程安排，例如酒店和机票的预订.
　　如果这种情况依赖于手动输入，则无疑将花费大量时间和人力，并且机械操作也容易出错. 但是，与OCR技术不同，就像使用OCR技术进行文档识别一样，只要它能对各种文档进行拍照和扫描，系统就可以快速自动地输入文档信息. 对于OCR识别（可以平均在不到2秒的时间内识别文件）来说，成千上万的各种文件绝对是小菜一碟.
　　

　　，省时省力，准确率高'

自动辨识验证码

采集交流 • 优采云发表了文章 • 0 个评论 • 241 次浏览 • 2020-08-04 04:01 • 来自相关话题

　　验证码在采集过程中出现，不确定出现时间甚至位置
　　原因：该情况通常是采集速度比较快、采集数据多，触发了网站的防采集机制所引致的。解决方案：由于其不确定性，并不是采集每一条数据都出现验证码。故需在规则中引入
　　分支判定，对网页是否出现验证码进行判定。如：出现时走左分支，不出现时走右分支。分支的判定通常可选择“当前页面包含文本”，具体请依照网页实际情况进行操作。分支判定的使用请参考相应教程，教程链接：
　　在配置规则的过程中，应采取先判定后识别验证码的流程次序。此外，由于验证码不是时时出现，故一定要找到验证码出现的界面，从而完成“识别验证码”该步骤的构建。
　　操作示例：
　　1.按常规流程制做规则。
　　
　　2.运行单机采集，采集部分数据后发觉提示访问频繁，需要输入验证码。此时应停止采集，对规则进更改。
　　
　　3.回到“流程”页面，从流程设计器右侧栏拖一个“判断条件”到流程图中。
　　
　　4.设置好判定条件。（验证码页面会出现的正常页面不会出现。如：您的访问出错了，验证输入框的xpath。示例采用的是验证码提示语“您的访问出错了”，诸位可自行选择合适的判定条件。详细操作请参考分支判定的使用。）
　　
　　5.判断条件设好后，点击须要辨识的验证码。如图：
　　
　　（上述流程，前三步操作也可按如下次序进行：
　　A.点击网页中的验证码输入框
　　B.点击“识别验证码”
　　C.点击网页中的验证码
　　即先选择验证码还是先选择输入框，两者殊途同归，各位请灵活应用。）
　　6.配置“识别失败”场景，因部份网站需多次输入验证码（即使输对也被要求重新输入），此外优采云对接的是打码平台有 0.1%的机率出错。故为规避因上述情况造成采集中断，我们需配置“识别失败”场景，告诉优采云什么情况下验证码是辨识失败的，从而再度进行自动辨识，直至辨识正确。
　　
　　7.输入错误的验证码，页面通常还会有相应的提示。此时点击选中该提示，从而告诉八
　　爪虾出现该提示即表示验证码识别失败。
　　
　　
　　8.识别失败场景配置完后进行辨识成功场景的配置。进入场景后自动输入正确的验证码，然后点击“应用到网页并完成配置”。
　　
　　
　　（完成验证码识别操作后，点击“流程”，若出现识别验证码在分支的最左侧，可点击长按，
　　拖动到对应位置。）
　　
　　至此，“识别验证码”操作完成，剩余操作请各位按照实际需求设置。图中示例在识别验证码后只做提取数据操作，此时即可运行本地采集进行验证调试。当第一次弹出验证码码输入框时。点击勾选上“自动辨识验证码”，待验证码输入后，点击“确定”，任务将手动运行下。云采集不需要操作这一步，直接运行即可。当不点击勾选上“自动辨识验证码”，则须要每次出现此弹窗时自动输入自动识别采集内容自动识别采集内容，且只支持单机采集。点击“自动辨识验证码”后本次采集将消耗验证码余额，单机采集和云采集均支持。
　　（注：“识别验证码”默认勾选ajax，超时时间为5秒。用户可依照网站实际情况其中级选项中进行配置，如网页加载比较快可将超时时间设短些。但建议不要修改，尤其是是否勾选ajax，以免出错！）
　　
　　下图为本地采集验证辨识情况。在勾选“自动辨识验证码”并“确认”后，本地采集过
　　程上将手动辨识验证码，并消耗余额。余额订购请点击注意勾选上验证码套餐！查看全部

　　验证码在采集过程中出现，不确定出现时间甚至位置
　　原因：该情况通常是采集速度比较快、采集数据多，触发了网站的防采集机制所引致的。解决方案：由于其不确定性，并不是采集每一条数据都出现验证码。故需在规则中引入
　　分支判定，对网页是否出现验证码进行判定。如：出现时走左分支，不出现时走右分支。分支的判定通常可选择“当前页面包含文本”，具体请依照网页实际情况进行操作。分支判定的使用请参考相应教程，教程链接：
　　在配置规则的过程中，应采取先判定后识别验证码的流程次序。此外，由于验证码不是时时出现，故一定要找到验证码出现的界面，从而完成“识别验证码”该步骤的构建。
　　操作示例：
　　1.按常规流程制做规则。
　　

　　2.运行单机采集，采集部分数据后发觉提示访问频繁，需要输入验证码。此时应停止采集，对规则进更改。
　　

　　3.回到“流程”页面，从流程设计器右侧栏拖一个“判断条件”到流程图中。
　　

　　4.设置好判定条件。（验证码页面会出现的正常页面不会出现。如：您的访问出错了，验证输入框的xpath。示例采用的是验证码提示语“您的访问出错了”，诸位可自行选择合适的判定条件。详细操作请参考分支判定的使用。）
　　

　　5.判断条件设好后，点击须要辨识的验证码。如图：
　　

　　（上述流程，前三步操作也可按如下次序进行：
　　A.点击网页中的验证码输入框
　　B.点击“识别验证码”
　　C.点击网页中的验证码
　　即先选择验证码还是先选择输入框，两者殊途同归，各位请灵活应用。）
　　6.配置“识别失败”场景，因部份网站需多次输入验证码（即使输对也被要求重新输入），此外优采云对接的是打码平台有 0.1%的机率出错。故为规避因上述情况造成采集中断，我们需配置“识别失败”场景，告诉优采云什么情况下验证码是辨识失败的，从而再度进行自动辨识，直至辨识正确。
　　

　　7.输入错误的验证码，页面通常还会有相应的提示。此时点击选中该提示，从而告诉八
　　爪虾出现该提示即表示验证码识别失败。
　　

　　8.识别失败场景配置完后进行辨识成功场景的配置。进入场景后自动输入正确的验证码，然后点击“应用到网页并完成配置”。
　　

　　（完成验证码识别操作后，点击“流程”，若出现识别验证码在分支的最左侧，可点击长按，
　　拖动到对应位置。）
　　

　　至此，“识别验证码”操作完成，剩余操作请各位按照实际需求设置。图中示例在识别验证码后只做提取数据操作，此时即可运行本地采集进行验证调试。当第一次弹出验证码码输入框时。点击勾选上“自动辨识验证码”，待验证码输入后，点击“确定”，任务将手动运行下。云采集不需要操作这一步，直接运行即可。当不点击勾选上“自动辨识验证码”，则须要每次出现此弹窗时自动输入自动识别采集内容自动识别采集内容，且只支持单机采集。点击“自动辨识验证码”后本次采集将消耗验证码余额，单机采集和云采集均支持。
　　（注：“识别验证码”默认勾选ajax，超时时间为5秒。用户可依照网站实际情况其中级选项中进行配置，如网页加载比较快可将超时时间设短些。但建议不要修改，尤其是是否勾选ajax，以免出错！）
　　

　　下图为本地采集验证辨识情况。在勾选“自动辨识验证码”并“确认”后，本地采集过
　　程上将手动辨识验证码，并消耗余额。余额订购请点击注意勾选上验证码套餐！

AI时代内容工厂

自动识别采集内容

如何创建高质量的机器学习数据集？

优采云采集器 v7.7绿色正式版

发票自动识别/发票照片识别/发票OCR自动识别系统

无需编程，就可以教您如何从Internet采集大量数据.

百度如何识别采集到的内容（已帮助2559人）

一种土壤环境监测信息自动采集与分析系统的方法

[流程图模式]如何设置验证码识别功能（验证码显示在固定网页上）

OpenCV人脸识别之一: 数据采集和预处理

教您如何从Internet采集大量数据.

数据采集: 如何自动进行数据采集？

Web搜寻器是一种程序或脚本，可以根据某些规则自动在万维网上搜寻信息. （）（2

OCR自动输入系统使信息收集告别手动输入，节省了时间和精力，准确率非常高

自动辨识验证码

如何创建高质量的机器学习数据集？

优采云采集器 v7.7绿色正式版

发票自动识别/发票照片识别/发票OCR自动识别系统

无需编程，就可以教您如何从Internet采集大量数据.

百度如何识别采集到的内容（已帮助2559人）

一种土壤环境监测信息自动采集与分析系统的方法

[流程图模式]如何设置验证码识别功能（验证码显示在固定网页上）

OpenCV人脸识别之一: 数据采集和预处理

教您如何从Internet采集大量数据.

数据采集: 如何自动进行数据采集？

Web搜寻器是一种程序或脚本，可以根据某些规则自动在万维网上搜寻信息. （）（2

OCR自动输入系统使信息收集告别手动输入，节省了时间和精力，准确率非常高

自动辨识验证码

话题描述

相关话题

最佳回复者

1 人关注该话题