话题：实时文章采集 - 自动文章采集器-优采云官网

优采云使用实时文章采集的注意事项有哪些？

采集交流 • 优采云发表了文章 • 0 个评论 • 90 次浏览 • 2023-01-14 03:26 • 来自相关话题

　　实时文章采集，现在已经成为了企业文章营销的必备技术。近几年来，随着互联网技术的发展，实时文章采集技术也取得了很大的进步，为企业文章营销带来了很多便利。
　　
　　实时文章采集是一种能够在网上快速搜集新闻、论坛信息、图片、视频等海量数据的技术。它能够快速定位和获取有用的信息，从而为企业带来大量的内容供应。当然，使用实时文章采集也有一些注意事项，如遵守版权法、遵守相关法律法规等。
　　
　　优采云是一款功能强大的实时文章采集软件，具备SEO优化功能。该软件拥有强大的数据库，能够根据关键字快速搜索出相关信息；同时具备图像识别功能，可以根据图片找到相关内容；还具备中文分词功能，可以对中文内容进行分词处理。此外，还可以将采集内容进行SEO优化处理，从而使内容在搜索引擎中更易被发现。
　　
　　使用优采云这一工具，企业不仅可以快速获取大量的信息内容，而且还能将内容进行SEO优化处理，从而使内容在各大平台上得到快速展示。同时，由于该工具具有图片识别功能和中文分词功能，所以能够将企业所需要的信息快速准确地找出来。
　　总之，随着互联网的发展，优采云这一实时文章采集工具已成为企业高效利用信息资源的不可或缺的部分。如果你想要尝试一下优采云这一工具的功能，你可以去它的官方网站www.ucaiyun.com上看看。查看全部

　　实时文章采集，现在已经成为了企业文章营销的必备技术。近几年来，随着互联网技术的发展，实时文章采集技术也取得了很大的进步，为企业文章营销带来了很多便利。
　　

　　实时文章采集是一种能够在网上快速搜集新闻、论坛信息、图片、视频等海量数据的技术。它能够快速定位和获取有用的信息，从而为企业带来大量的内容供应。当然，使用实时文章采集也有一些注意事项，如遵守版权法、遵守相关法律法规等。
　　

　　优采云是一款功能强大的实时文章采集软件，具备SEO优化功能。该软件拥有强大的数据库，能够根据关键字快速搜索出相关信息；同时具备图像识别功能，可以根据图片找到相关内容；还具备中文分词功能，可以对中文内容进行分词处理。此外，还可以将采集内容进行SEO优化处理，从而使内容在搜索引擎中更易被发现。
　　

　　使用优采云这一工具，企业不仅可以快速获取大量的信息内容，而且还能将内容进行SEO优化处理，从而使内容在各大平台上得到快速展示。同时，由于该工具具有图片识别功能和中文分词功能，所以能够将企业所需要的信息快速准确地找出来。
　　总之，随着互联网的发展，优采云这一实时文章采集工具已成为企业高效利用信息资源的不可或缺的部分。如果你想要尝试一下优采云这一工具的功能，你可以去它的官方网站www.ucaiyun.com上看看。

使用优采云这一超强实时文章采集工具需要做

采集交流 • 优采云发表了文章 • 0 个评论 • 90 次浏览 • 2023-01-12 11:21 • 来自相关话题

　　实时文章采集是新媒体传播过程中一项必不可少的工作，它能够有效收集到大量的信息，为企业提供有力的数据支撑。实时文章采集是一项耗时费力的工作，因此如何快速、有效地进行实时文章采集成为了企业和新媒体从业者们关注的焦点。
　　
　　优采云是一款面向新媒体从业人员、企业用户的实时文章采集软件，能够帮助用户快速、有效地进行实时文章采集。该软件提供了强大的SEO优化功能，能够根据用户要求对文章内容进行精准匹配，并及时推送最新内容。此外，该软件拥有强大的数据分析功能，能够根据用户要求进行精准分析，帮助用户及时把握市场脉搏。
　　
　　此外，优采云还具备众多的特性：1、该软件具有超强的采集能力，可以根据用户要求快速定向采集新闻信息；2、该软件拥有强大的SEO优化能力，能够根据用户要求对文章内容进行精准匹配；3、该软件拥有强大的数据分析功能，能够帮助用户及时把握市场脉搏。
　　
　　使用优采云这一超强实时文章采集工具可以帮助用户快速实现实时监测和内容采集。该软件可以根据用户关键字要求快速定向采集广泛的信息来源（包含微博、微信、博客、门户等等），并提供SEO优化和数据分析功能来帮助用户判断信息真实性并准确判断市场脉动。
　　使用优采云这一超强实时文章采集工具所需要做的是注册优采云官网www.ucaiyun.com上的帐号并进行相关账号绑定后即可使用。查看全部

　　实时文章采集是新媒体传播过程中一项必不可少的工作，它能够有效收集到大量的信息，为企业提供有力的数据支撑。实时文章采集是一项耗时费力的工作，因此如何快速、有效地进行实时文章采集成为了企业和新媒体从业者们关注的焦点。
　　

　　优采云是一款面向新媒体从业人员、企业用户的实时文章采集软件，能够帮助用户快速、有效地进行实时文章采集。该软件提供了强大的SEO优化功能，能够根据用户要求对文章内容进行精准匹配，并及时推送最新内容。此外，该软件拥有强大的数据分析功能，能够根据用户要求进行精准分析，帮助用户及时把握市场脉搏。
　　

　　此外，优采云还具备众多的特性：1、该软件具有超强的采集能力，可以根据用户要求快速定向采集新闻信息；2、该软件拥有强大的SEO优化能力，能够根据用户要求对文章内容进行精准匹配；3、该软件拥有强大的数据分析功能，能够帮助用户及时把握市场脉搏。
　　

　　使用优采云这一超强实时文章采集工具可以帮助用户快速实现实时监测和内容采集。该软件可以根据用户关键字要求快速定向采集广泛的信息来源（包含微博、微信、博客、门户等等），并提供SEO优化和数据分析功能来帮助用户判断信息真实性并准确判断市场脉动。
　　使用优采云这一超强实时文章采集工具所需要做的是注册优采云官网www.ucaiyun.com上的帐号并进行相关账号绑定后即可使用。

优采云帮助用户快速准确地获取真正有价值的信息

采集交流 • 优采云发表了文章 • 0 个评论 • 60 次浏览 • 2023-01-12 08:15 • 来自相关话题

　　实时文章采集是一种在线服务，可以帮助网站拥有者掌握最新的信息，从而增加网站的流量。它的主要目的是通过自动化的方式来收集最新的、有价值的信息，并将这些信息整理成新闻、博客、教程、图片等形式，以便用户能够快速获取所需的内容。
　　
　　优采云是一款专业的实时文章采集软件，可以帮助用户轻松获取各大网站上最新、最全面的信息。该软件支持多种采集方式，包括关键词采集、RSS订阅、API数据对接等，能够快速准确地采集到各大网站上所需要的信息。此外，优采云还可以帮助用户对所采集到的内容进行SEO优化，使内容在搜索引擎中得到优先展示。
　　
　　随着互联网时代的到来，人们对信息的获取和分享也变得愈加便利。但是由于海量信息中存在大量低质量内容，因此如何快速准确地获取真正有价值的信息成为一个问题。而优采云就是为此而生，它能够帮助用户快速准确地获取真正有用的信息，并将其整理成多样化形式（如新闻、博客、教程、图片等）供用户使用。同时还能够帮助用户对内容进行SEO优化，以便在搜索引擎中得到优先展示。
　　
　　总之，优采云是一款专业的实时文章采集软件，能够帮助用户快速准确地获取真正有价值的信息并将其整理成多样化形式供用户使用。各位想要尝试使用该软件的人士可前往www.ucaiyun.com进行下载。查看全部

　　实时文章采集是一种在线服务，可以帮助网站拥有者掌握最新的信息，从而增加网站的流量。它的主要目的是通过自动化的方式来收集最新的、有价值的信息，并将这些信息整理成新闻、博客、教程、图片等形式，以便用户能够快速获取所需的内容。
　　

　　优采云是一款专业的实时文章采集软件，可以帮助用户轻松获取各大网站上最新、最全面的信息。该软件支持多种采集方式，包括关键词采集、RSS订阅、API数据对接等，能够快速准确地采集到各大网站上所需要的信息。此外，优采云还可以帮助用户对所采集到的内容进行SEO优化，使内容在搜索引擎中得到优先展示。
　　

　　随着互联网时代的到来，人们对信息的获取和分享也变得愈加便利。但是由于海量信息中存在大量低质量内容，因此如何快速准确地获取真正有价值的信息成为一个问题。而优采云就是为此而生，它能够帮助用户快速准确地获取真正有用的信息，并将其整理成多样化形式（如新闻、博客、教程、图片等）供用户使用。同时还能够帮助用户对内容进行SEO优化，以便在搜索引擎中得到优先展示。
　　

　　总之，优采云是一款专业的实时文章采集软件，能够帮助用户快速准确地获取真正有价值的信息并将其整理成多样化形式供用户使用。各位想要尝试使用该软件的人士可前往www.ucaiyun.com进行下载。

实时文章采集：优采云采集器帮你轻松掌控全网海量信息

采集交流 • 优采云发表了文章 • 0 个评论 • 96 次浏览 • 2022-12-28 05:15 • 来自相关话题

　　实时文章采集：优采云采集器帮你轻松掌控全网海量信息
　　随着网络的发展，日益多的人选择将信息发布到网上，但随之而来的是，信息的海量和复杂性。如何快速、准确地获取这些信息，成为人们面临的一大难题。优采云采集器正是为此而生。
　　优采云采集器是一款功能强大、易用的实时文章采集工具，可以帮助使用者快速、有效地获取全网海量信息。它具备多样化的文章采集方式，不仅可以对新闻、论坛、博客、媒体实时进行内容监测，还可以根据特定关键词进行新闻监听、全网数据内容分析，并对整理出来的数据进行归类存储，使用者可以轻松找到所需要的内容。
　　
　　此外，优采云采集器还能够根据用户需要进行信息整理和去重处理，大幅度减少用户手动去重文章的工作量。同时，优采云采集器还可以根据用户要求对原始数据进行处理，并支持一键生成语音版本新闻便于用户节省时间进行快速阅读。
　　通过优采云采集器，不仅可以有效节省时间、减少工作强度，而且也能够有效地帮助使用者获取准确有效的海量信息内容。相信使用优采云采集器一定能够带来意想不到的好处。
　　
　　“优采云”是一家专业的信息服务公司。我们赋能众多企业、机构、学校等各类用户，帮助大家快速、有效地获取全网海量信息内容。此前，我们已将“优采云”专业的信息服务水平证明在国内各大行业领域中得到广泛应用。如今，我们将成功引入“实时文章采集”服务——“优采云”新版“实时文章采集”工具——“优采云采集器”（www.ucaiyun.com）,帮助使用者快速、准确地获取全网海量数据和信息内容（包含但不限于新闻、资讯、社媒）；还能够带来整理和去除含有违禁字符等有用的效果；还有根据用户要求快速生成语音版本等多项便利性特性。
　　总之,“优采云采集器”的出现将大大方便各行各业领域中对海量信息内容获取之困,无论是想要快速相应市场上即时流行趋势,还是想要在第一时间得到相应话题相关新闻,“优释云”都能带来意想不到的便利性,节省大家搜寻信息所耗费的时间,节省大家整理去除冗余信息所耗费的人力,打造一个快速、准确、方便的信息服务生态.
　　如何开始使用呢?“优銃云”正式上线!大家只需要在www.ucaiyun.com上注冊即可.“优銃云”乐意为大家提供独特考试性努力,节省大家搜寻/整理/去除/存储/语音化海量信息所耗费的时间;带来意想不到的便利性;节省人力;构建一个快速准确方便的信息服务生态;“优銃云”将一如既往地为大家提供最好的服务! 查看全部

　　实时文章采集：优采云采集器帮你轻松掌控全网海量信息
　　随着网络的发展，日益多的人选择将信息发布到网上，但随之而来的是，信息的海量和复杂性。如何快速、准确地获取这些信息，成为人们面临的一大难题。优采云采集器正是为此而生。
　　优采云采集器是一款功能强大、易用的实时文章采集工具，可以帮助使用者快速、有效地获取全网海量信息。它具备多样化的文章采集方式，不仅可以对新闻、论坛、博客、媒体实时进行内容监测，还可以根据特定关键词进行新闻监听、全网数据内容分析，并对整理出来的数据进行归类存储，使用者可以轻松找到所需要的内容。
　　

　　此外，优采云采集器还能够根据用户需要进行信息整理和去重处理，大幅度减少用户手动去重文章的工作量。同时，优采云采集器还可以根据用户要求对原始数据进行处理，并支持一键生成语音版本新闻便于用户节省时间进行快速阅读。
　　通过优采云采集器，不仅可以有效节省时间、减少工作强度，而且也能够有效地帮助使用者获取准确有效的海量信息内容。相信使用优采云采集器一定能够带来意想不到的好处。
　　

　　“优采云”是一家专业的信息服务公司。我们赋能众多企业、机构、学校等各类用户，帮助大家快速、有效地获取全网海量信息内容。此前，我们已将“优采云”专业的信息服务水平证明在国内各大行业领域中得到广泛应用。如今，我们将成功引入“实时文章采集”服务——“优采云”新版“实时文章采集”工具——“优采云采集器”（www.ucaiyun.com）,帮助使用者快速、准确地获取全网海量数据和信息内容（包含但不限于新闻、资讯、社媒）；还能够带来整理和去除含有违禁字符等有用的效果；还有根据用户要求快速生成语音版本等多项便利性特性。
　　总之,“优采云采集器”的出现将大大方便各行各业领域中对海量信息内容获取之困,无论是想要快速相应市场上即时流行趋势,还是想要在第一时间得到相应话题相关新闻,“优释云”都能带来意想不到的便利性,节省大家搜寻信息所耗费的时间,节省大家整理去除冗余信息所耗费的人力,打造一个快速、准确、方便的信息服务生态.
　　如何开始使用呢?“优銃云”正式上线!大家只需要在www.ucaiyun.com上注冊即可.“优銃云”乐意为大家提供独特考试性努力,节省大家搜寻/整理/去除/存储/语音化海量信息所耗费的时间;带来意想不到的便利性;节省人力;构建一个快速准确方便的信息服务生态;“优銃云”将一如既往地为大家提供最好的服务!

解决方案:优采云采集器可以有效解决信息与虚假信息的难题

采集交流 • 优采云发表了文章 • 0 个评论 • 103 次浏览 • 2022-12-27 10:18 • 来自相关话题

　　解决方案:优采云采集器可以有效解决信息与虚假信息的难题
　　实时文章采集是当今网络信息的重要方式之一。相比传统的采集技术，实时文章采集更加有效、快捷、准确。它能够帮助用户在网上获取海量的新闻、文章、图片和视频信息，并进行及时分享，这对企业和个人都很有帮助。
　　
　　但是，实时文章采集也存在一些问题。例如，由于大量信息需要同时收集，很多用户使用的设备和软件性能不足以应付巨大的数据量；另外，如何准确区分出真实有效的信息与虚假信息也是一个难题。
　　幸运的是，优采云采集器可以有效解决上述问题。它具有强大的数据核心加速引擎，可以快速地将海量数据分发给用户；此外，该工具还具备“内容安全”功能，能够准确地区分真伪信息并对其进行评估。此外，该工具还能根据用户需要即时推送新闻资讯、图片、文章等内容。
　　
　　此外，优采云采集器还具有两大独特功能。首先是“无障碍”功能：该工具可以在不同平台上使用，而不用去考虑不同平台之间的差异性问题。其次是“大数据利用”功能——通过将海量数据归类、分割和去噪处理来使得信号保留尽可能多的有效信息。
　　总而言之，优采云采集器是一个强大而高效的新一代实时文章采集工具。它不仅将带来快速便捷的新闻体验，而且能够准确地获取真正有用的信息内容。查看全部

　　解决方案:优采云采集器可以有效解决信息与虚假信息的难题
　　实时文章采集是当今网络信息的重要方式之一。相比传统的采集技术，实时文章采集更加有效、快捷、准确。它能够帮助用户在网上获取海量的新闻、文章、图片和视频信息，并进行及时分享，这对企业和个人都很有帮助。
　　

　　但是，实时文章采集也存在一些问题。例如，由于大量信息需要同时收集，很多用户使用的设备和软件性能不足以应付巨大的数据量；另外，如何准确区分出真实有效的信息与虚假信息也是一个难题。
　　幸运的是，优采云采集器可以有效解决上述问题。它具有强大的数据核心加速引擎，可以快速地将海量数据分发给用户；此外，该工具还具备“内容安全”功能，能够准确地区分真伪信息并对其进行评估。此外，该工具还能根据用户需要即时推送新闻资讯、图片、文章等内容。
　　

　　此外，优采云采集器还具有两大独特功能。首先是“无障碍”功能：该工具可以在不同平台上使用，而不用去考虑不同平台之间的差异性问题。其次是“大数据利用”功能——通过将海量数据归类、分割和去噪处理来使得信号保留尽可能多的有效信息。
　　总而言之，优采云采集器是一个强大而高效的新一代实时文章采集工具。它不仅将带来快速便捷的新闻体验，而且能够准确地获取真正有用的信息内容。

汇总:如何知乎采集数据方法大全

采集交流 • 优采云发表了文章 • 0 个评论 • 117 次浏览 • 2022-12-24 14:38 • 来自相关话题

　　汇总:如何知乎采集数据方法大全
　　“内容为王”，站长朋友们已经非常认可这个观点了。那么一个网站如何创造更优秀的内容呢？这是网站管理员最大的问题。不是每个人都有这么好的文笔，写的像神一样，每篇文章都能达到高质量。不是每个人都有那么多时间，每天花很多时间写文章和创作内容。很多站长选择采集内容来充实自己的网站，但是胡乱采集一些文章，不仅不会增加网站的收录和排名，反而会适得其反。
　　
　　关于采集，如何找到优质的文章，首先要找一个优质的平台进行针对性的采集。知乎是中文互联网优质问答社区，是创作者聚集的原创内容平台。生活和工作中遇到的很多问题都可以在知乎上找到你想要的答案！原因是因为知乎的回答比较权威靠谱。知乎有几个优势，使其成为吸引人们的重要渠道。首先，知乎的权重非常高。大家要知道，用户在搜索相关信息和答案的时候，排在前几位的一般都是知知乎文章或者知乎答案，可见知乎是一个深受人们喜爱的优质平台。
　　说了这么多优点，我们来说说如何采集知乎上的文章吧！如果一一复制粘贴显然不现实，那么我们可以使用免费的知乎采集工具来完成繁琐的采集工作。首先我们新建一个采集任务，比如知乎采集任务，然后在采集数据中选择搜狗知乎。接下来选择一个采集文章的文件夹，设置一个关键词采集多少篇文章。最后我们导入需要采集的关键词或者长尾关键词，点击保存开始采集。开始采集后，可以实时看到工作进程，可以非常直观的清楚了解当前的工作情况。这样，原本很繁琐的事情，通过知乎免费采集工具变得非常简单、高效、准确！
　　
　　对于免费知乎文章采集，我们会采集以下字段：问题名称、问题描述、评论数、问题网址、答案ID、答案ID描述、答案ID头像、答案正文等字段。操作简单傻瓜式，不需要我们编写采集规则。强大的功能支持采集采集简单的设置即可采集到所有新闻源。采集可以设置多个任务，针对不同的来源进行采集。
　　汇总:网页批量抓取-批量网页数据一键抓取
　　爬取整个网页，我们如何在整个网页上抓取我们想要的文章内容，很多人想到的就是内容爬取。想到了学一门编程语言，最著名的就是python爬虫。如果完全自学，从零开始学习Python，我觉得至少需要半年到一年半的时间。从某种程度上说，这样的时间成本太高了。那么如何才能在短时间内爬取整个网页的内容呢？【详细参考图片，软件免费！】
　　搜索引擎优化，也称为SEO，是一种了解各种搜索引擎如何进行搜索、如何抓取互联网页面以及如何确定特定关键词的搜索结果排名的技术。搜索引擎利用容易被搜索和引用的方式有针对性地优化网站，提高网站在搜索引擎中的自然排名，吸引更多的用户访问网站，增加网站的访问量，并提高网站的销售能力和宣传能力，提升网站的品牌效应。
　　网站搜索引擎优化的任务主要是了解和了解其他搜索引擎如何抓取网页，如何索引，如何确定搜索关键词等相关技术，从而优化本网页的内容，确保其能够符合用户的浏览习惯，并在不影响网民体验的情况下提高搜索引擎排名的现代技术，从而增加网站的访问量，最终提高网站的推广或销售能力网站。基于搜索引擎优化处理，其实是为了让这个网站更容易被搜索引擎所接受，搜索引擎往往会比较不同网站的内容，然后通过浏览器将这些内容完整、直接、快速地提供给网络用户。
　　SEO优化就是让网站内容更符合搜索引擎的算法和排名规则，更符合用户体验。通过网站内部结构的调整优化和站外SEO的推广优化，使网站满足搜索引擎收录和排名的需要。用户在搜索引擎中搜索关键词时，可以提高关键词的相对网页排名，从而获取用户流量，吸引精准客户。出于销售产品或服务的目的被带到网站。
　　现场优化主要包括：
　　
　　1.关键词分析【用户搜索行为分析、数据分析】
　　它是SEO优化中最重要的部分。关键词分析包括关键词搜索量分析、关键词抓取竞争对手全站排名分析、关键词与网站相关性分析、关键词布局、关键词网站文案策划等。
　　2、网站设计，根据用户关心的问题，设计用户喜欢的网站风格。
　　3、网站结构，设计符合搜索引擎爬虫偏好，有利于SEO优化的网站结构。
　　网站结构不宜太复杂，网站内容不宜太深，用户关心的重要内容要易于查找，有利于用户的浏览习惯。一般为树状目录结构或扁平目录结构。网站导航清晰，分类精细，页面布局美观。
　　seo优化的作用是提高网站关键词在搜索引擎中的排名。用户搜索关键词时，可以将其展示在比较靠前的位置，让用户更容易找到公司的产品、服务和网站，获得更多的展示机会和用户点击量，增加企业的曝光率品牌，带来客户。以达到销售产品和增加营业额的目的。
　　
　　SEO优化还有很多其他的作用，主要有以下几点：
　　1、增加公司产品和服务的曝光度和品牌影响力。
　　2、SEO是一种非常好的网络营销方式，可以不断获取精准客户。
　　3.seo可以获得广泛的客户，可以有效降低企业的销售成本。
　　从长远来看，与关键词推广相比，搜索引擎优化不需要为每个用户的点击付费，这比PPC更有优势。搜索引擎优化可以忽略搜索引擎之间的独立性。即使只针对某个搜索引擎进行优化，网站在其他搜索引擎中的排名也会相应提高，达到企业在关键词推广上重复付费才能达到的效果。 .
　　4、可以有效降低企业的服务成本，更高效地为用户服务。
　　5、增加企业的软实力，增强企业客户的信誉度。查看全部

　　汇总:如何知乎采集数据方法大全
　　“内容为王”，站长朋友们已经非常认可这个观点了。那么一个网站如何创造更优秀的内容呢？这是网站管理员最大的问题。不是每个人都有这么好的文笔，写的像神一样，每篇文章都能达到高质量。不是每个人都有那么多时间，每天花很多时间写文章和创作内容。很多站长选择采集内容来充实自己的网站，但是胡乱采集一些文章，不仅不会增加网站的收录和排名，反而会适得其反。
　　

　　关于采集，如何找到优质的文章，首先要找一个优质的平台进行针对性的采集。知乎是中文互联网优质问答社区，是创作者聚集的原创内容平台。生活和工作中遇到的很多问题都可以在知乎上找到你想要的答案！原因是因为知乎的回答比较权威靠谱。知乎有几个优势，使其成为吸引人们的重要渠道。首先，知乎的权重非常高。大家要知道，用户在搜索相关信息和答案的时候，排在前几位的一般都是知知乎文章或者知乎答案，可见知乎是一个深受人们喜爱的优质平台。
　　说了这么多优点，我们来说说如何采集知乎上的文章吧！如果一一复制粘贴显然不现实，那么我们可以使用免费的知乎采集工具来完成繁琐的采集工作。首先我们新建一个采集任务，比如知乎采集任务，然后在采集数据中选择搜狗知乎。接下来选择一个采集文章的文件夹，设置一个关键词采集多少篇文章。最后我们导入需要采集的关键词或者长尾关键词，点击保存开始采集。开始采集后，可以实时看到工作进程，可以非常直观的清楚了解当前的工作情况。这样，原本很繁琐的事情，通过知乎免费采集工具变得非常简单、高效、准确！
　　

　　对于免费知乎文章采集，我们会采集以下字段：问题名称、问题描述、评论数、问题网址、答案ID、答案ID描述、答案ID头像、答案正文等字段。操作简单傻瓜式，不需要我们编写采集规则。强大的功能支持采集采集简单的设置即可采集到所有新闻源。采集可以设置多个任务，针对不同的来源进行采集。
　　汇总:网页批量抓取-批量网页数据一键抓取
　　爬取整个网页，我们如何在整个网页上抓取我们想要的文章内容，很多人想到的就是内容爬取。想到了学一门编程语言，最著名的就是python爬虫。如果完全自学，从零开始学习Python，我觉得至少需要半年到一年半的时间。从某种程度上说，这样的时间成本太高了。那么如何才能在短时间内爬取整个网页的内容呢？【详细参考图片，软件免费！】
　　搜索引擎优化，也称为SEO，是一种了解各种搜索引擎如何进行搜索、如何抓取互联网页面以及如何确定特定关键词的搜索结果排名的技术。搜索引擎利用容易被搜索和引用的方式有针对性地优化网站，提高网站在搜索引擎中的自然排名，吸引更多的用户访问网站，增加网站的访问量，并提高网站的销售能力和宣传能力，提升网站的品牌效应。
　　网站搜索引擎优化的任务主要是了解和了解其他搜索引擎如何抓取网页，如何索引，如何确定搜索关键词等相关技术，从而优化本网页的内容，确保其能够符合用户的浏览习惯，并在不影响网民体验的情况下提高搜索引擎排名的现代技术，从而增加网站的访问量，最终提高网站的推广或销售能力网站。基于搜索引擎优化处理，其实是为了让这个网站更容易被搜索引擎所接受，搜索引擎往往会比较不同网站的内容，然后通过浏览器将这些内容完整、直接、快速地提供给网络用户。
　　SEO优化就是让网站内容更符合搜索引擎的算法和排名规则，更符合用户体验。通过网站内部结构的调整优化和站外SEO的推广优化，使网站满足搜索引擎收录和排名的需要。用户在搜索引擎中搜索关键词时，可以提高关键词的相对网页排名，从而获取用户流量，吸引精准客户。出于销售产品或服务的目的被带到网站。
　　现场优化主要包括：
　　

　　1.关键词分析【用户搜索行为分析、数据分析】
　　它是SEO优化中最重要的部分。关键词分析包括关键词搜索量分析、关键词抓取竞争对手全站排名分析、关键词与网站相关性分析、关键词布局、关键词网站文案策划等。
　　2、网站设计，根据用户关心的问题，设计用户喜欢的网站风格。
　　3、网站结构，设计符合搜索引擎爬虫偏好，有利于SEO优化的网站结构。
　　网站结构不宜太复杂，网站内容不宜太深，用户关心的重要内容要易于查找，有利于用户的浏览习惯。一般为树状目录结构或扁平目录结构。网站导航清晰，分类精细，页面布局美观。
　　seo优化的作用是提高网站关键词在搜索引擎中的排名。用户搜索关键词时，可以将其展示在比较靠前的位置，让用户更容易找到公司的产品、服务和网站，获得更多的展示机会和用户点击量，增加企业的曝光率品牌，带来客户。以达到销售产品和增加营业额的目的。
　　

　　SEO优化还有很多其他的作用，主要有以下几点：
　　1、增加公司产品和服务的曝光度和品牌影响力。
　　2、SEO是一种非常好的网络营销方式，可以不断获取精准客户。
　　3.seo可以获得广泛的客户，可以有效降低企业的销售成本。
　　从长远来看，与关键词推广相比，搜索引擎优化不需要为每个用户的点击付费，这比PPC更有优势。搜索引擎优化可以忽略搜索引擎之间的独立性。即使只针对某个搜索引擎进行优化，网站在其他搜索引擎中的排名也会相应提高，达到企业在关键词推广上重复付费才能达到的效果。 .
　　4、可以有效降低企业的服务成本，更高效地为用户服务。
　　5、增加企业的软实力，增强企业客户的信誉度。

汇总:【实时数仓】介绍、需求分析、统计架构分析和ods层日志行为数据采集

采集交流 • 优采云发表了文章 • 0 个评论 • 132 次浏览 • 2022-12-23 06:25 • 来自相关话题

汇总:【实时数仓】介绍、需求分析、统计架构分析和ods层日志行为数据采集
　　文章目录
　　电子商务实时数仓简介1 普通实时计算与实时
　　普通的实时计算优先考虑时效性，所以通过实时计算直接从数据源采集得到结果。这样做的时效性比较好，但缺点是计算过程中的中间结果还没有结算，所以在面对大量实时性需求时，计算复用性差（比如B想使用 A) 的结果，开发成本随需求线性上升。
　　实时数据仓库是基于一定的数据仓库概念，对数据处理过程进行规划和分层，目的是提高数据的可重用性（例如e可以直接使用b的结果）。
　　2 实时电子商务数据仓库的分层
　　项目分为以下几层
　　2 实时数仓需求分析 1 离线计算与实时计算的比较
　　离线计算：所有输入数据在计算开始前都是已知的，输入数据不会改变。一般计算量级较大，计算时间较长。比如今天凌晨一点，从昨天积累的日志中计算出需要的结果。最经典的是Hadoop的MapReduce方法；
　　通常，报告是根据前（几天）天（T + 1（n））的数据生成的。虽然统计指标和报表很多，但对时效性不敏感。从技术操作的角度来看，这部分是批量操作。即根据一定范围的数据一次性计算。
　　实时计算：输入数据可以串行化的方式一个接一个地输入处理，也就是说不需要一开始就知道所有的输入数据。与离线计算相比，运行时间短，计算量较小。强调计算过程的时间要短，即调查后立即给出结果。
　　主要针对当日（T+0）数据的实时监控。通常，业务逻辑比线下需求更简单，统计指标也更少，但更注重数据的时效性和用户交互。从技术操作的角度来看，这部分属于流处理的操作。根据不断到达的数据进行实时计算。
　　大数据主要有两种设计架构：
　　Flink 的流批合一是使用 Flink-SQL 实现的。处理两种数据的SQL是一样的，区别在于数据的日期。
　　2 统计场景 (1) 日统计报表或分析图表需要收录当天的部分
　　对于企业和网站的日常运营和管理，如果仅仅依靠离线计算，往往不能满足数据的时效性。通过实时计算获取天、分、秒甚至亚秒级的数据，更便于企业快速响应和调整业务。
　　因此，实时计算结果往往需要与离线数据进行合并或对比，并在BI或统计平台上展示。
　　(2)实时数据大屏监控
　　数据大屏是比BI工具或数据分析平台更直观的数据可视化方式。尤其是一些大的促销活动，更是成为必备的营销手段。
　　此外，还有一些特殊行业，如交通、电信等，大屏监控几乎是必备的监控手段。
　　(3) 数据预警或提醒
　　通过大数据实时计算得到的一些风控预警和营销信息提示，可以快速让风控或营销部门获得信息，以便采取各种应对措施。
　　例如，如果用户在电商、金融平台上进行了一些非法或欺诈性的操作，大数据的实时计算可以快速筛选出情况并传送给风控部门进行处理，甚至可以自动拦截。 . 或者检测到用户的行为对某些产品有强烈的购买意愿，那么就可以将这些“商机”推送给客服部门，让客服主动跟进。
　　(4) 实时推荐系统
　　实时推荐是根据用户自身属性结合当前访问行为，通过实时推荐算法计算，将用户可能喜欢的商品、新闻、视频等推送给用户。
　　这种系统一般由用户画像的批处理和用户行为分析的流处理组成。
　　三统计架构分析 1 离线架构
　　MQ的作用：
　　2 实时架构
　　4 日志数据采集1 模拟使用日志生成器
　　这里提供了一个模拟生成数据的jar包，可以生成日志并发送到指定端口。大数据程序员需要了解如何从指定端口接收数据并处理数据。
　　上传文件application.yml、gmall2022-mock-log-2022-11-28.jar。
根据实际需要修改application.yml。
使用模拟日志生成器的jar 运行
java -jar gmall2022-mock-log-2022-11-28.jar
目前还没有地址接收日志，所以程序运行后的结果有如下错误
　　注意：ZooKeeper从3.5开始，AdminServer的端口也是8080，如果在本机启动zk，可能会看到405错误，意思是找到了请求地址，但是接收方式不对。
　　2 本地测试（一）SSM和SpringBoot
　　Spring：帮助程序员创建对象和管理对象之间的关系。
　　SpringMVC：接收客户端的请求并响应。
　　mybatis：ORM（ObjectRelationMapption），将关系数据库中的表映射到java中的类。
　　SpringBoot集成了SSM，协议大于配置。
　　(2) 创建SpringBoot a 创建一个空的父项目gmall2022-parent 来管理后续所有模块module
　　为了把各个模块放在一起，但是模块还是相互独立的，所以创建一个Empty
　　项目足够；如果父模块管理子模块，需要将父模块的pom.xml文件设置为pom.xml。
　　b 新建一个SpringBoot模块作为采集日志服务器
　　在父项目下添加一个Module，选择Spring Initializr。
　　注意：有时候SpringBoot官方脚手架不稳定，可以切换Custom，选择国内地址。
　　c配置项目名称和JDK版本
　　d 选择版本，通过勾选自动添加lombok、SpringWeb、Kafka相关依赖
　　(3) 演示测试
　　创建FirstController输出SpringBoot处理流程。
　　几个注释说明：
　　/**
* 回顾SpringMVC Controller

*/
//@Controller
@RestController
public class FirstController {
@RequestMapping("/first")
//@ResponseBody
public String first(@RequestParam("hahaa") String username,
@RequestParam("heihei") String password){
System.out.println(username + "---" + password);
return "success";
}
}

　　(4) 模拟采集埋点数据并进行处理
　　采集过程如下。在服务器上执行jar包，启动本机执行程序，存盘到windows，最后由Kafka消费数据。
　　a 在resources中添加logback.xml配置文件
　　

%msg%n

${LOG_HOME}/app.log

${LOG_HOME}/app.%d{yyyy-MM-dd}.log

%msg%n

　　logback配置文件说明
　　记录器：描述如何选择附加程序的控制器。
　　注意：如果单独为一个类指定，不要忘记修改类的全限定名。
　　日志级别从低到高：TRACE、[DEBUG、INFO、WARN、ERROR]、FATAL。
　　配置完成后，程序运行时读取的是目标文件下的类，而不是resources下的logback.xml。
　　要使用它，需要在类中添加Slf4j注解。
　　b 修改SpringBoot核心配置文件application.propeties
　　#============== kafka ===================
# 指定kafka 代理地址，可以多个
spring.kafka.bootstrap-servers=hadoop101:9092,hadoop102:9092,hadoop103:9092
# 指定消息key和消息体的编解码方式
spring.kafka.producer.key-serializer=org.apache.kafka.common.serialization.StringSerializer
spring.kafka.producer.value-serializer=org.apache.kafka.common.serialization.StringSerializer
　　c 在LoggerController中添加一个方法，用于打印、放置和发送日志到Kafka主题
　　@RestController
@Slf4j
public class LoggerController {

// 不使用Slf4j注解需要自己定义接收日志的对象
// private static final org.slf4j.Logger log = org.slf4j.LoggerFactory.getLogger(LoggerController.class);
@Autowired
private KafkaTemplate kafkaTemplate;
@RequestMapping("/applog")
public String log(@RequestParam("param") String logStr){
// 1 打印输出到控制台
// System.out.println(logStr);
// 2 落盘，使用logback完成
log.info(logStr);
// 3 发送到kafka主题
kafkaTemplate.send("ods_base_log",logStr);
return "success";
}
}

　　写在卡夫卡：
　　Properties props = new Properties();
props.setProperty(ProducerConfig.BOOTSTRAP_SERVERS_CONFIG,"hadoop101:9092");
props.setProperty(ProducerConfig.KEY_SERIALIZER_CLASS_CONFIG,"");
props.setProperty(ProducerConfig.VALUE_SERIALIZER_CLASS_CONFIG,"");
KafkaProducer kafkaProducer = new KafkaProducer(props);
kafkaProducer.send(
/**
* 生产者的分区策略：
* 1 通过分区号指定固定分区
* 2 指定key，根据key获取哈希值，对分区数做模运算，决定将数据发送到那一个分区内
* 3 粘性分区，不停的向一个分区发送数据，满足以下条件之一，会改变分区
* 1）大于batchsize（默认16K）
* 2）大于一定时间
*/
new ProducerRecord("ods_base_log",logStr)
);
　　但是，SpringBoot是一个全家桶，为一些常用的组件提供了一些类。
　　d kafka常用命令
　　服务器上将kafka的默认分区数修改为4个。
　　vim /opt/module/kafka_2.11-2.4.1/config/server.properties
num.partitions=4
　　# 启动zookeeper
zk.sh start
# 启动kafka
kfk.sh start
# 查看所有主题
bin/kafka-topics.sh --bootstrap-server hadoop101:9092 --list
# 创建主题
bin/kafka-topics.sh --bootstrap-server hadoop101:9092 --create --topic first --partitions 4 --replication-factor 2
# 查看主题详情信息
bin/kafka-topics.sh --bootstrap-server hadoop101:9092 --describe --topic first
# 删除主题
bin/kafka-topics.sh --bootstrap-server hadoop101:9092 --delete --topic first
# 101生产消息
bin/kafka-console-producer.sh --broker-list hadoop101:9092 --topic frist
# 101消费消息
bin/kafka-console-consumer.sh --bootstrap-server hadoop101:9092 --topic first
　　e 修改hadoop101上rt_applog目录下的application.yml配置文件
　　修改地址和日期，地址为本机地址。
　　检验
　　启动kafka消费者进行测试。
　　bin/kafka-console-consumer.sh --bootstrap-server hadoop101:9092 --topic ods_base_log
　　在 Windows 上运行 Idea 程序 LoggerApplication。
　　运行rt_applog下的jar包。
　　解决方案:关键词采集工具有哪些(三种常用查找关键词APP软件)
　　无论是在Google上获客，在社交媒体上找客户，还是在B2B平台上找买家，最重要的是选择合适的“关键词”。
　　关键词是我们在运营中必须更加关注的，也是我们必须挖掘和深化的方向。能否为产品找到合适的关键词，也会直接影响到产品的销量。
　　那么如何从买家的角度选择合适的关键词呢？
　　为大家推荐三种常用的关键词搜索APP软件
　　01
　　谷歌关键词规划师
　　谷歌关键字规划师
　　使用这个关键词工具，我们可以统计分析关键词的流量情况，了解关键词的SEO难度，得到更多相关的关键词提示。
　　Google 关键词 Planner可以帮助我们详细了解不同关键词在Google Search上的用户查询情况，从而为网站制定合适的关键词策略，让网站尽快获得搜索流量。
　　首先，您需要开设一个 Google Ads 帐户：
　　打开Google Ads账户后，进入其主界面，选择上方工具栏中的工具与设置>>规划>>关键字规划师：
　　打开这个工具后，可以看到Google 关键词 Planner提供了以下两个功能：
　　
　　01
　　发现新关键词
　　顾名思义，这个工具的作用就是帮助我们发现更多新的关键词。打开后界面如下：
　　在这个关键词工具中，有两个渠道可以发现新关键词：“先输入关键字”和“先指定网站URL”。
　　①先输入关键词：输入关键词就是输入你自己的产品或服务的关键词，谷歌会根据你输入的关键词搜索其他相关的关键词。
　　这里可以输入多个关键词，用逗号关键词。例如，如果产品是包包，您可以输入男士包包和女士包包，以便找到更多相关的关键词。
　　输入关键词后，还需要进行其他设置。关键词信息只是搜索条件之一，必须选择正确的搜索语言和地区。如果您搜索的是英文关键词，您需要选择英文作为语言和外国，例如美国，这样您可以获得更准确的数据。
　　②首先指定网站网址：输入域名或页面查找关键词。输入网站网址，谷歌会把这个网站作为关键词来源，然后搜索更多相关的关键词。同样，您需要选择相应的语言和地区作为搜索条件。
　　02
　　获取搜索量和预测数据
　　查看关键字的搜索量和其他历史指标，以及对关键字未来表现的预测。
　　与之前发现新关键词的工具相比，这个获取搜索量数据的关键词工具用处不大。对发现新关键词帮助不大。如果你已经有一个很大的关键词列表，你可以使用这个工具来查询他们的搜索量和一些相关数据，但是这些数据也可以通过之前的关键词发现工具来查看。
　　该工具与关键词发现工具的区别主要在于广告推广方面。通过其预测数据，广告主可以知道关键词广告在不同预算下可以获得的点击次数。
　　
　　最后，就是选择合适的关键词。一般来说，选择关键词要考虑三个因素：搜索流量、商业价值、SEO竞争。
　　02
　　谷歌趋势
　　谷歌趋势
　　如果你想知道某个相关关键词的流量数据，那么Google Trends这个工具对我们来说就大有帮助了。
　　能够按类别查看关键词趋势，使用 Google Trends 为内容计时，并显示趋势向上的关键词。
　　它可以反映某个关键词在不同时期在谷歌搜索引擎中的显示频率和相关数据统计，可以比较两个或多个搜索词的相对流行度。
　　03
　　回答公众
　　本工具整合了谷歌关键词，形成自己的数据库，尤其是长尾关键词，因此特别适合消费者需求研究、搜索引擎优化、竞争研究等。
　　AnswerThePublic可以帮助我们获取产品相关问题提示、产品相关介词提示等多维度的广告创意建议，也可以实时了解这些推荐创意的搜索热度。
　　当在 AnswerThePublic 中输入关键词时，它将显示有关问题、介词和字母表的信息。查看全部

汇总:【实时数仓】介绍、需求分析、统计架构分析和ods层日志行为数据采集
　　文章目录
　　电子商务实时数仓简介1 普通实时计算与实时
　　普通的实时计算优先考虑时效性，所以通过实时计算直接从数据源采集得到结果。这样做的时效性比较好，但缺点是计算过程中的中间结果还没有结算，所以在面对大量实时性需求时，计算复用性差（比如B想使用 A) 的结果，开发成本随需求线性上升。
　　实时数据仓库是基于一定的数据仓库概念，对数据处理过程进行规划和分层，目的是提高数据的可重用性（例如e可以直接使用b的结果）。
　　2 实时电子商务数据仓库的分层
　　项目分为以下几层
　　2 实时数仓需求分析 1 离线计算与实时计算的比较
　　离线计算：所有输入数据在计算开始前都是已知的，输入数据不会改变。一般计算量级较大，计算时间较长。比如今天凌晨一点，从昨天积累的日志中计算出需要的结果。最经典的是Hadoop的MapReduce方法；
　　通常，报告是根据前（几天）天（T + 1（n））的数据生成的。虽然统计指标和报表很多，但对时效性不敏感。从技术操作的角度来看，这部分是批量操作。即根据一定范围的数据一次性计算。
　　实时计算：输入数据可以串行化的方式一个接一个地输入处理，也就是说不需要一开始就知道所有的输入数据。与离线计算相比，运行时间短，计算量较小。强调计算过程的时间要短，即调查后立即给出结果。
　　主要针对当日（T+0）数据的实时监控。通常，业务逻辑比线下需求更简单，统计指标也更少，但更注重数据的时效性和用户交互。从技术操作的角度来看，这部分属于流处理的操作。根据不断到达的数据进行实时计算。
　　大数据主要有两种设计架构：
　　Flink 的流批合一是使用 Flink-SQL 实现的。处理两种数据的SQL是一样的，区别在于数据的日期。
　　2 统计场景 (1) 日统计报表或分析图表需要收录当天的部分
　　对于企业和网站的日常运营和管理，如果仅仅依靠离线计算，往往不能满足数据的时效性。通过实时计算获取天、分、秒甚至亚秒级的数据，更便于企业快速响应和调整业务。
　　因此，实时计算结果往往需要与离线数据进行合并或对比，并在BI或统计平台上展示。
　　(2)实时数据大屏监控
　　数据大屏是比BI工具或数据分析平台更直观的数据可视化方式。尤其是一些大的促销活动，更是成为必备的营销手段。
　　此外，还有一些特殊行业，如交通、电信等，大屏监控几乎是必备的监控手段。
　　(3) 数据预警或提醒
　　通过大数据实时计算得到的一些风控预警和营销信息提示，可以快速让风控或营销部门获得信息，以便采取各种应对措施。
　　例如，如果用户在电商、金融平台上进行了一些非法或欺诈性的操作，大数据的实时计算可以快速筛选出情况并传送给风控部门进行处理，甚至可以自动拦截。 . 或者检测到用户的行为对某些产品有强烈的购买意愿，那么就可以将这些“商机”推送给客服部门，让客服主动跟进。
　　(4) 实时推荐系统
　　实时推荐是根据用户自身属性结合当前访问行为，通过实时推荐算法计算，将用户可能喜欢的商品、新闻、视频等推送给用户。
　　这种系统一般由用户画像的批处理和用户行为分析的流处理组成。
　　三统计架构分析 1 离线架构
　　MQ的作用：
　　2 实时架构
　　4 日志数据采集1 模拟使用日志生成器
　　这里提供了一个模拟生成数据的jar包，可以生成日志并发送到指定端口。大数据程序员需要了解如何从指定端口接收数据并处理数据。
　　上传文件application.yml、gmall2022-mock-log-2022-11-28.jar。
根据实际需要修改application.yml。
使用模拟日志生成器的jar 运行
java -jar gmall2022-mock-log-2022-11-28.jar
目前还没有地址接收日志，所以程序运行后的结果有如下错误
　　注意：ZooKeeper从3.5开始，AdminServer的端口也是8080，如果在本机启动zk，可能会看到405错误，意思是找到了请求地址，但是接收方式不对。
　　2 本地测试（一）SSM和SpringBoot
　　Spring：帮助程序员创建对象和管理对象之间的关系。
　　SpringMVC：接收客户端的请求并响应。
　　mybatis：ORM（ObjectRelationMapption），将关系数据库中的表映射到java中的类。
　　SpringBoot集成了SSM，协议大于配置。
　　(2) 创建SpringBoot a 创建一个空的父项目gmall2022-parent 来管理后续所有模块module
　　为了把各个模块放在一起，但是模块还是相互独立的，所以创建一个Empty
　　项目足够；如果父模块管理子模块，需要将父模块的pom.xml文件设置为pom.xml。
　　b 新建一个SpringBoot模块作为采集日志服务器
　　在父项目下添加一个Module，选择Spring Initializr。
　　注意：有时候SpringBoot官方脚手架不稳定，可以切换Custom，选择国内地址。
　　c配置项目名称和JDK版本
　　d 选择版本，通过勾选自动添加lombok、SpringWeb、Kafka相关依赖
　　(3) 演示测试
　　创建FirstController输出SpringBoot处理流程。
　　几个注释说明：
　　/**
* 回顾SpringMVC Controller

*/
//@Controller
@RestController
public class FirstController {
@RequestMapping("/first")
//@ResponseBody
public String first(@RequestParam("hahaa") String username,
@RequestParam("heihei") String password){
System.out.println(username + "---" + password);
return "success";
}
}

　　(4) 模拟采集埋点数据并进行处理
　　采集过程如下。在服务器上执行jar包，启动本机执行程序，存盘到windows，最后由Kafka消费数据。
　　a 在resources中添加logback.xml配置文件
　　

%msg%n

${LOG_HOME}/app.log

${LOG_HOME}/app.%d{yyyy-MM-dd}.log

%msg%n

　　logback配置文件说明
　　记录器：描述如何选择附加程序的控制器。
　　注意：如果单独为一个类指定，不要忘记修改类的全限定名。
　　日志级别从低到高：TRACE、[DEBUG、INFO、WARN、ERROR]、FATAL。
　　配置完成后，程序运行时读取的是目标文件下的类，而不是resources下的logback.xml。
　　要使用它，需要在类中添加Slf4j注解。
　　b 修改SpringBoot核心配置文件application.propeties
　　#============== kafka ===================
# 指定kafka 代理地址，可以多个
spring.kafka.bootstrap-servers=hadoop101:9092,hadoop102:9092,hadoop103:9092
# 指定消息key和消息体的编解码方式
spring.kafka.producer.key-serializer=org.apache.kafka.common.serialization.StringSerializer
spring.kafka.producer.value-serializer=org.apache.kafka.common.serialization.StringSerializer
　　c 在LoggerController中添加一个方法，用于打印、放置和发送日志到Kafka主题
　　@RestController
@Slf4j
public class LoggerController {

// 不使用Slf4j注解需要自己定义接收日志的对象
// private static final org.slf4j.Logger log = org.slf4j.LoggerFactory.getLogger(LoggerController.class);
@Autowired
private KafkaTemplate kafkaTemplate;
@RequestMapping("/applog")
public String log(@RequestParam("param") String logStr){
// 1 打印输出到控制台
// System.out.println(logStr);
// 2 落盘，使用logback完成
log.info(logStr);
// 3 发送到kafka主题
kafkaTemplate.send("ods_base_log",logStr);
return "success";
}
}

　　写在卡夫卡：
　　Properties props = new Properties();
props.setProperty(ProducerConfig.BOOTSTRAP_SERVERS_CONFIG,"hadoop101:9092");
props.setProperty(ProducerConfig.KEY_SERIALIZER_CLASS_CONFIG,"");
props.setProperty(ProducerConfig.VALUE_SERIALIZER_CLASS_CONFIG,"");
KafkaProducer kafkaProducer = new KafkaProducer(props);
kafkaProducer.send(
/**
* 生产者的分区策略：
* 1 通过分区号指定固定分区
* 2 指定key，根据key获取哈希值，对分区数做模运算，决定将数据发送到那一个分区内
* 3 粘性分区，不停的向一个分区发送数据，满足以下条件之一，会改变分区
* 1）大于batchsize（默认16K）
* 2）大于一定时间
*/
new ProducerRecord("ods_base_log",logStr)
);
　　但是，SpringBoot是一个全家桶，为一些常用的组件提供了一些类。
　　d kafka常用命令
　　服务器上将kafka的默认分区数修改为4个。
　　vim /opt/module/kafka_2.11-2.4.1/config/server.properties
num.partitions=4
　　# 启动zookeeper
zk.sh start
# 启动kafka
kfk.sh start
# 查看所有主题
bin/kafka-topics.sh --bootstrap-server hadoop101:9092 --list
# 创建主题
bin/kafka-topics.sh --bootstrap-server hadoop101:9092 --create --topic first --partitions 4 --replication-factor 2
# 查看主题详情信息
bin/kafka-topics.sh --bootstrap-server hadoop101:9092 --describe --topic first
# 删除主题
bin/kafka-topics.sh --bootstrap-server hadoop101:9092 --delete --topic first
# 101生产消息
bin/kafka-console-producer.sh --broker-list hadoop101:9092 --topic frist
# 101消费消息
bin/kafka-console-consumer.sh --bootstrap-server hadoop101:9092 --topic first
　　e 修改hadoop101上rt_applog目录下的application.yml配置文件
　　修改地址和日期，地址为本机地址。
　　检验
　　启动kafka消费者进行测试。
　　bin/kafka-console-consumer.sh --bootstrap-server hadoop101:9092 --topic ods_base_log
　　在 Windows 上运行 Idea 程序 LoggerApplication。
　　运行rt_applog下的jar包。
　　解决方案:关键词采集工具有哪些(三种常用查找关键词APP软件)
　　无论是在Google上获客，在社交媒体上找客户，还是在B2B平台上找买家，最重要的是选择合适的“关键词”。
　　关键词是我们在运营中必须更加关注的，也是我们必须挖掘和深化的方向。能否为产品找到合适的关键词，也会直接影响到产品的销量。
　　那么如何从买家的角度选择合适的关键词呢？
　　为大家推荐三种常用的关键词搜索APP软件
　　01
　　谷歌关键词规划师
　　谷歌关键字规划师
　　使用这个关键词工具，我们可以统计分析关键词的流量情况，了解关键词的SEO难度，得到更多相关的关键词提示。
　　Google 关键词 Planner可以帮助我们详细了解不同关键词在Google Search上的用户查询情况，从而为网站制定合适的关键词策略，让网站尽快获得搜索流量。
　　首先，您需要开设一个 Google Ads 帐户：
　　打开Google Ads账户后，进入其主界面，选择上方工具栏中的工具与设置>>规划>>关键字规划师：
　　打开这个工具后，可以看到Google 关键词 Planner提供了以下两个功能：

　　01
　　发现新关键词
　　顾名思义，这个工具的作用就是帮助我们发现更多新的关键词。打开后界面如下：
　　在这个关键词工具中，有两个渠道可以发现新关键词：“先输入关键字”和“先指定网站URL”。
　　①先输入关键词：输入关键词就是输入你自己的产品或服务的关键词，谷歌会根据你输入的关键词搜索其他相关的关键词。
　　这里可以输入多个关键词，用逗号关键词。例如，如果产品是包包，您可以输入男士包包和女士包包，以便找到更多相关的关键词。
　　输入关键词后，还需要进行其他设置。关键词信息只是搜索条件之一，必须选择正确的搜索语言和地区。如果您搜索的是英文关键词，您需要选择英文作为语言和外国，例如美国，这样您可以获得更准确的数据。
　　②首先指定网站网址：输入域名或页面查找关键词。输入网站网址，谷歌会把这个网站作为关键词来源，然后搜索更多相关的关键词。同样，您需要选择相应的语言和地区作为搜索条件。
　　02
　　获取搜索量和预测数据
　　查看关键字的搜索量和其他历史指标，以及对关键字未来表现的预测。
　　与之前发现新关键词的工具相比，这个获取搜索量数据的关键词工具用处不大。对发现新关键词帮助不大。如果你已经有一个很大的关键词列表，你可以使用这个工具来查询他们的搜索量和一些相关数据，但是这些数据也可以通过之前的关键词发现工具来查看。
　　该工具与关键词发现工具的区别主要在于广告推广方面。通过其预测数据，广告主可以知道关键词广告在不同预算下可以获得的点击次数。
　　

　　最后，就是选择合适的关键词。一般来说，选择关键词要考虑三个因素：搜索流量、商业价值、SEO竞争。
　　02
　　谷歌趋势
　　谷歌趋势
　　如果你想知道某个相关关键词的流量数据，那么Google Trends这个工具对我们来说就大有帮助了。
　　能够按类别查看关键词趋势，使用 Google Trends 为内容计时，并显示趋势向上的关键词。
　　它可以反映某个关键词在不同时期在谷歌搜索引擎中的显示频率和相关数据统计，可以比较两个或多个搜索词的相对流行度。
　　03
　　回答公众
　　本工具整合了谷歌关键词，形成自己的数据库，尤其是长尾关键词，因此特别适合消费者需求研究、搜索引擎优化、竞争研究等。
　　AnswerThePublic可以帮助我们获取产品相关问题提示、产品相关介词提示等多维度的广告创意建议，也可以实时了解这些推荐创意的搜索热度。
　　当在 AnswerThePublic 中输入关键词时，它将显示有关问题、介词和字母表的信息。

解决方案:数据技术篇之实时技术

采集交流 • 优采云发表了文章 • 0 个评论 • 82 次浏览 • 2022-12-23 06:25 • 来自相关话题

　　解决方案:数据技术篇之实时技术
　　第 5 章实时技术
　　在大数据系统中，离线批处理技术可以满足很多数据使用场景的需求，但在DT时代，每天面对的信息瞬息万变，越来越多的应用场景对数据的时效性提出了更高的要求。要求。数据的价值是时效性的。当一条数据产生时，如果不能及时处理并在业务系统中使用，数据就无法保持最高的“新鲜度”和价值最大化。因此，阿里巴巴提出了流式实时处理技术来补充离线批处理技术。
　　流式数据处理一般具有以下特点：
　　时效性高
　　常驻代表团
　　高性能要求
　　应用限制
　　5.1 流式架构
　　按功能分，主要包括：
　　资料采集
　　数据处理
　　数据存储
　　数据服务
　　按数据采集类型可分为：
　　数据库变更日志：如MySQL binlog log、Hbase hlog log、OceanBase change log、Oracle change log等。
　　引擎访问日志：如用户访问网站产生的Apache引擎日志、搜索引擎的接口查询日志等。
　　数据采集原则：
　　数据大小限制：当达到限制条件时，当前采集的新数据将被视为一批（例如一批512KB）。
　　time threshold limit：当时间达到一定条件时，会将目前采集的新数据也作为一个batch，避免数据量小的时候不一直采集（比如写一个batch in 30秒）
　　消息系统和数据中间件
　　消息系统：
　　消息系统是数据库变更的上游，其数据延迟远低于数据中间件，但支持的吞吐量有限。一般用作业务数据库变更的消息传递，如下单、支付等消息。
　　消息中间件：
　　作为数据交换平台，将采集的数据分发到下游处理大业务数据（每天几十TB的容量）
　　时间敏感的吞吐量
　　消息系统
　　毫秒
　　低的
　　数据中间件
　　第二
　　高的
　　阿里采用的六九三引擎系统是阿里源提供的流计算系统：
　　流计算系统涵盖了从数据采集到数据生产的所有环节，力求保障流计算的严谨可靠发展。 SQL语义提供的流式数据分析能力（StreamSQL），让流式数据分析的门槛不复存在。它在Storm的基础上包裹了一层SQL语义，方便开发者通过编写SQL实现实时计算，无需关心计算状态的细节，大大提高开发效率，降低流计算的门槛。当然，它也支持传统模式的开发，就像Hadoop中的Hive MapReduce关系一样，根据不同的应用场景选择不同的方式。此外，StreamCompute还提供流计算开发平台。在该平台上，无需登录服务器操作即可完成应用的相关运维，大大提高了运维效率。
　　业界广泛使用的流计算系统：
　　Twitter的开源Storm系统
　　雅虎的开源S4系统
　　阿帕奇公园流媒体
　　
　　弗林克
　　流数据处理原理，以Storm为例：
　　spout：topology的输入，从数据中间件中读取数据，按照自定义的分发规则发送给下游的bolt。可以有多个输入源。
　　bolt：业务处理单元，可以根据处理逻辑分为多个步骤，其中的数据分布规则也是自定义的。
　　实时任务的典型问题：
　　(1)去重指标
　　去重分为：
　　精确的重复数据删除。在这种情况下，必须保留详细数据。当遇到内存问题时，可以使用数据倾斜来处理，可以将一个节点的内存压力分摊到多个节点上。
　　模糊去重。当需要去重的详细数据量非常大，对业务的准确性要求不高时，可以使用相关的去重算法，将内存占用降低到千分之一甚至万分之一，提高内存利用率
　　去重方法：
　　①布隆过滤器
　　该算法是位数组算法的应用，不保存真正的明细数据，只保存明细数据哈希值对应的标记位。当然会出现hash值冲突，但是错误率是可以控制的，计算出来的去重值比真实值要小。使用该算法存储1亿条数据只需要100MB的空间。
　　适用于统计精度不高，统计维度值较多的场景。比如统计全网各个商户的UV数据显示，记录数达到千万条。因为各个维度之间，Bloom filter是可以共享的
　　② 基数估计
　　该算法还利用散列的原理，根据数据的分散程度估计现有数据集的边界，从而得到去重值的近似和。此处估计的重复数据删除值可能大于或小于实际值。使用该算法存储1亿条数据只需要几KB的内存。
　　适用场景：统计精度不高，统计维度很粗。比如整个市场的UV数据，每天只有一条记录。基数估计不能在各个维度的值之间共享。比如统计全天几个小时的UV数据，需要24个基数估计对象，不适合细粒度的统计场景。
　　(2) 数据倾斜
　　解决方案：
　　①去重指标入桶
　　通过对去重后的值进行分桶，将相同的值放入同一个桶中进行去重，最后将每个桶中的值相加得到总值。在这里，CPU 和内存资源。
　　② 非重复指标的桶
　　数据随机分布到每个桶中，最后汇总每个桶的值，主要是利用每个桶的CPU容量。
　　(3) 交易处理
　　保证交易的幂等性：
　　① 超时时间：由于数据处理是分批进行的，当一批数据处理超时后，将从拓扑的spout端重新发送数据。另外，批量处理的数据量不宜过大，应增加限流功能（限制一批数据的记录数或容量等），避免数据处理超时。
　　② 交易信息：每批数据都会附带一个交易ID信息。在重传的情况下，开发者可以根据交易信息判断数据第一次到达和重传时的不同处理逻辑。
　　③ 备份机制：开发者需要保证内存数据可以通过外存恢复，因此需要将计算中使用的中间结果数据备份到外存。
　　实时任务在运行过程中，会计算出很多维度和指标，这些数据需要存储在存储系统中，用于恢复或关联。涉及三种类型的数据：
　　中间计算结果：在实时应用处理过程中，会保存一些状态（如去重指标的详细数据），用于发生故障时利用数据库中的数据恢复内存站点。
　　最终结果数据：指经过ETL处理后的实时结果数据。这些数据是实时更新的，写入频率非常高，可以直接供下游使用。
　　维表数据：在离线计算系统中，通过同步工具导入到在线存储系统中，实现实时任务与实时流数据的关联。维度表的使用将在后面的章节中讨论。
　　对于海量数据的实时计算，一般采用非关系型数据库来应对大量的并发读写。以下是数据统计中表名设计的一些时间体会：
　　(1)表名设计
　　设计规则：汇总层识别+数据域+主维度+时间维度
　　例如：dws_trd_slr_dtr，表示汇总层的交易数据，按照卖家主维度（slr）+截至当日0点（dtr）统计汇总。
　　这样做的好处是，所有主维度相同的数据都放在一张物理表中，避免了表太多，难以维护。另外从表名可以直观的看出存储了哪些数据内容，方便排查问题。
　　(2) rowkey设计
　　设计规则：MD5+主维度+维度标识+子维度1+时间维度+子维度2
　　例如：卖家ID的MD5前四位+卖家ID+app+一级类目ID+ddd+二级类目ID
　　
　　使用MD5的前四位作为rowkey的第一部分，可以对数据进行哈希处理，使服务器整体负载均衡，避免热点。上例中卖家ID在主维度，查数据时必须传入。每个统计维度都会生成一个维度ID，用于rowkey上的区分。
　　5.2 流数据模型
　　流式数据模型一般分为五层：
　　(1)ODS：改变订单粒度的过程，一个订单有多条记录。
　　(2) DWD：订单粒度的支付记录，一个订单只有一条记录
　　(3) DWS：卖家实时交易金额，一个卖家只有一条记录，指标实时刷新。
　　(4)ADS：外卖专区的实时交易金额，仅供外卖商家使用
　　(5)DIM：订单商品类别与行业对应关系的维度表。
　　在流计算中，经常需要将两个实时流关联一个主键，得到对应的时间安排。下图是订单信息表和支付信息表的关系示意图
　　在上面的例子中，两个表的数据是实时采集的，每有一条新的数据到来，就在内存中的另一张表的当前全量数据中查找。如果能找到，则表示关联成功，直接输出：如果没有找到，则将数据放入内存中自己表的数据集中等待。另外，无论关联是否成功，都需要将内存中的数据备份到外部存储系统中。当任务重启时，可以从外部存储系统恢复内存数据，保证数据不丢失。因为重启时，任务继续运行，不会重新运行之前的数据。
　　另外，订单记录的变更可能会发生多次（比如订单的多个字段被多次更新）。这种情况下，需要根据订单ID进行去重，避免A表和B表多次关联成功；否则输出到下游会有多条记录，这样得到的数据会重复。
　　(1) 为什么要用维表
　　数据未及时准备好
　　无法准确获取全量最新数据
　　资料乱序
　　(2)维表的使用形式
　　满载
　　增量加载
　　5.3 大促特色及保障
　　毫秒延迟
　　洪峰明显
　　高安全性
　　(1) 如何优化实时任务
　　独享资源与共享资源策略
　　合理选择缓存机制，尽量减少读写库的次数
　　合并计算单元以降低拓扑级别
　　共享内存对象以避免字符复制
　　平衡高吞吐量和低延迟
　　(2) 如何保证数据链路
　　进行多机房容灾和异地容灾。下图是多机房容灾示意图
　　(3) 如何进行压力测试
　　数据压测：数据压测主要是洪流存储压测，就是把数小时甚至几天的数据累积起来，在某个时刻全部释放。
　　产品压力测试：
　　① 产品本身的压力测试
　　采集大屏服务器所有读操作的url，通过压测平台进行压测流量回放，按照QPS目标：500次/秒进行压测。在压测过程中，迭代优化服务器性能，提升大屏应用的数据处理性能。
　　② 前端页面稳定性测试
　　在浏览器中打开大屏页面，进行8-24小时的前端页面稳定性测试。监控大屏前端JS对客户端浏览器的内存和CPU消耗，检测并修复前端JS内存泄露等问题，提高前端页面的稳定性。
　　解决方案:目前网站怎么优化才好？浅析当下网站优化的新思维新方法
　　网站优化在这个行业由来已久，许多优化方法已经约定俗成，并被反复采纳和使用。不得不说，搜索引擎的算法日新月异，用旧的概念和方法做优化可能有点偏。需要一些新思路和新方法。这些东西需要长期观察和总结最新的优质站点。
　　1、不要老是传统的企业网站。营销网站更受搜索引擎欢迎。
　　传统的网站模式千篇一律，缺乏新意，造成了人们的视觉疲劳。一个营销网站，利用适当的图文，直观地展示产品的特点和优势，才能吸引大家的眼球。
　　
　　2、网站内部页面细节需要更新，内部链接网络要逐步编制。
　　尝试阅读新闻列表页面上的部分内容介绍。以往的企业网站大多直接展示新闻标题列表；公司简介和联系我们页面。侧边栏最好设置新闻推荐等一些栏目，避免内链太少；尽量在商品详情页的侧边栏展示一些商品推荐，增加商品的丰富度；在新闻详情页下，最好设置相关阅读等，增加文章的连贯性。总而言之，内部内容应该编成网络。
　　3、网站关键词不一定越少越好。
　　很多人有一个误区，认为关键词设置的越少，网站赋予这个关键词的权重越高，这个词越容易出现。有一定的道理，但这种现象在实际操作中并不明显。关键词设置要遵循的原则是关键词一定要有相关性，尽量多设置，十几个也可以。那么文章的信息量就尽可能的大，质量就尽可能的高，体现出这些关键词的密度。关键词会一个接一个的出现，带动一个接一个，互相影响，更好的达到优化效果。
　　
　　4.外链作用不大，反链却很有用。
　　外链现在是一个辅助功能，优质的外链平台越来越少，所以做好内链显得更为重要。尽可能多做高质量的友情链接，对网站是非常有利的。
　　5、优质的内链和流量起到核心作用。
　　内链怎么做，首先内容一定要高质量，尽量伪原创和原创，即使是粘贴复制，也尽量插入一些图片修改一下。一天四五篇新闻是正确的做法。一个制作精良的网站每天必须有四篇新闻文章。无论你多么原创，它都是无用的。流量不用多说，正规的引流必不可少。查看全部

　　解决方案:数据技术篇之实时技术
　　第 5 章实时技术
　　在大数据系统中，离线批处理技术可以满足很多数据使用场景的需求，但在DT时代，每天面对的信息瞬息万变，越来越多的应用场景对数据的时效性提出了更高的要求。要求。数据的价值是时效性的。当一条数据产生时，如果不能及时处理并在业务系统中使用，数据就无法保持最高的“新鲜度”和价值最大化。因此，阿里巴巴提出了流式实时处理技术来补充离线批处理技术。
　　流式数据处理一般具有以下特点：
　　时效性高
　　常驻代表团
　　高性能要求
　　应用限制
　　5.1 流式架构
　　按功能分，主要包括：
　　资料采集
　　数据处理
　　数据存储
　　数据服务
　　按数据采集类型可分为：
　　数据库变更日志：如MySQL binlog log、Hbase hlog log、OceanBase change log、Oracle change log等。
　　引擎访问日志：如用户访问网站产生的Apache引擎日志、搜索引擎的接口查询日志等。
　　数据采集原则：
　　数据大小限制：当达到限制条件时，当前采集的新数据将被视为一批（例如一批512KB）。
　　time threshold limit：当时间达到一定条件时，会将目前采集的新数据也作为一个batch，避免数据量小的时候不一直采集（比如写一个batch in 30秒）
　　消息系统和数据中间件
　　消息系统：
　　消息系统是数据库变更的上游，其数据延迟远低于数据中间件，但支持的吞吐量有限。一般用作业务数据库变更的消息传递，如下单、支付等消息。
　　消息中间件：
　　作为数据交换平台，将采集的数据分发到下游处理大业务数据（每天几十TB的容量）
　　时间敏感的吞吐量
　　消息系统
　　毫秒
　　低的
　　数据中间件
　　第二
　　高的
　　阿里采用的六九三引擎系统是阿里源提供的流计算系统：
　　流计算系统涵盖了从数据采集到数据生产的所有环节，力求保障流计算的严谨可靠发展。 SQL语义提供的流式数据分析能力（StreamSQL），让流式数据分析的门槛不复存在。它在Storm的基础上包裹了一层SQL语义，方便开发者通过编写SQL实现实时计算，无需关心计算状态的细节，大大提高开发效率，降低流计算的门槛。当然，它也支持传统模式的开发，就像Hadoop中的Hive MapReduce关系一样，根据不同的应用场景选择不同的方式。此外，StreamCompute还提供流计算开发平台。在该平台上，无需登录服务器操作即可完成应用的相关运维，大大提高了运维效率。
　　业界广泛使用的流计算系统：
　　Twitter的开源Storm系统
　　雅虎的开源S4系统
　　阿帕奇公园流媒体
　　

　　弗林克
　　流数据处理原理，以Storm为例：
　　spout：topology的输入，从数据中间件中读取数据，按照自定义的分发规则发送给下游的bolt。可以有多个输入源。
　　bolt：业务处理单元，可以根据处理逻辑分为多个步骤，其中的数据分布规则也是自定义的。
　　实时任务的典型问题：
　　(1)去重指标
　　去重分为：
　　精确的重复数据删除。在这种情况下，必须保留详细数据。当遇到内存问题时，可以使用数据倾斜来处理，可以将一个节点的内存压力分摊到多个节点上。
　　模糊去重。当需要去重的详细数据量非常大，对业务的准确性要求不高时，可以使用相关的去重算法，将内存占用降低到千分之一甚至万分之一，提高内存利用率
　　去重方法：
　　①布隆过滤器
　　该算法是位数组算法的应用，不保存真正的明细数据，只保存明细数据哈希值对应的标记位。当然会出现hash值冲突，但是错误率是可以控制的，计算出来的去重值比真实值要小。使用该算法存储1亿条数据只需要100MB的空间。
　　适用于统计精度不高，统计维度值较多的场景。比如统计全网各个商户的UV数据显示，记录数达到千万条。因为各个维度之间，Bloom filter是可以共享的
　　② 基数估计
　　该算法还利用散列的原理，根据数据的分散程度估计现有数据集的边界，从而得到去重值的近似和。此处估计的重复数据删除值可能大于或小于实际值。使用该算法存储1亿条数据只需要几KB的内存。
　　适用场景：统计精度不高，统计维度很粗。比如整个市场的UV数据，每天只有一条记录。基数估计不能在各个维度的值之间共享。比如统计全天几个小时的UV数据，需要24个基数估计对象，不适合细粒度的统计场景。
　　(2) 数据倾斜
　　解决方案：
　　①去重指标入桶
　　通过对去重后的值进行分桶，将相同的值放入同一个桶中进行去重，最后将每个桶中的值相加得到总值。在这里，CPU 和内存资源。
　　② 非重复指标的桶
　　数据随机分布到每个桶中，最后汇总每个桶的值，主要是利用每个桶的CPU容量。
　　(3) 交易处理
　　保证交易的幂等性：
　　① 超时时间：由于数据处理是分批进行的，当一批数据处理超时后，将从拓扑的spout端重新发送数据。另外，批量处理的数据量不宜过大，应增加限流功能（限制一批数据的记录数或容量等），避免数据处理超时。
　　② 交易信息：每批数据都会附带一个交易ID信息。在重传的情况下，开发者可以根据交易信息判断数据第一次到达和重传时的不同处理逻辑。
　　③ 备份机制：开发者需要保证内存数据可以通过外存恢复，因此需要将计算中使用的中间结果数据备份到外存。
　　实时任务在运行过程中，会计算出很多维度和指标，这些数据需要存储在存储系统中，用于恢复或关联。涉及三种类型的数据：
　　中间计算结果：在实时应用处理过程中，会保存一些状态（如去重指标的详细数据），用于发生故障时利用数据库中的数据恢复内存站点。
　　最终结果数据：指经过ETL处理后的实时结果数据。这些数据是实时更新的，写入频率非常高，可以直接供下游使用。
　　维表数据：在离线计算系统中，通过同步工具导入到在线存储系统中，实现实时任务与实时流数据的关联。维度表的使用将在后面的章节中讨论。
　　对于海量数据的实时计算，一般采用非关系型数据库来应对大量的并发读写。以下是数据统计中表名设计的一些时间体会：
　　(1)表名设计
　　设计规则：汇总层识别+数据域+主维度+时间维度
　　例如：dws_trd_slr_dtr，表示汇总层的交易数据，按照卖家主维度（slr）+截至当日0点（dtr）统计汇总。
　　这样做的好处是，所有主维度相同的数据都放在一张物理表中，避免了表太多，难以维护。另外从表名可以直观的看出存储了哪些数据内容，方便排查问题。
　　(2) rowkey设计
　　设计规则：MD5+主维度+维度标识+子维度1+时间维度+子维度2
　　例如：卖家ID的MD5前四位+卖家ID+app+一级类目ID+ddd+二级类目ID
　　

　　使用MD5的前四位作为rowkey的第一部分，可以对数据进行哈希处理，使服务器整体负载均衡，避免热点。上例中卖家ID在主维度，查数据时必须传入。每个统计维度都会生成一个维度ID，用于rowkey上的区分。
　　5.2 流数据模型
　　流式数据模型一般分为五层：
　　(1)ODS：改变订单粒度的过程，一个订单有多条记录。
　　(2) DWD：订单粒度的支付记录，一个订单只有一条记录
　　(3) DWS：卖家实时交易金额，一个卖家只有一条记录，指标实时刷新。
　　(4)ADS：外卖专区的实时交易金额，仅供外卖商家使用
　　(5)DIM：订单商品类别与行业对应关系的维度表。
　　在流计算中，经常需要将两个实时流关联一个主键，得到对应的时间安排。下图是订单信息表和支付信息表的关系示意图
　　在上面的例子中，两个表的数据是实时采集的，每有一条新的数据到来，就在内存中的另一张表的当前全量数据中查找。如果能找到，则表示关联成功，直接输出：如果没有找到，则将数据放入内存中自己表的数据集中等待。另外，无论关联是否成功，都需要将内存中的数据备份到外部存储系统中。当任务重启时，可以从外部存储系统恢复内存数据，保证数据不丢失。因为重启时，任务继续运行，不会重新运行之前的数据。
　　另外，订单记录的变更可能会发生多次（比如订单的多个字段被多次更新）。这种情况下，需要根据订单ID进行去重，避免A表和B表多次关联成功；否则输出到下游会有多条记录，这样得到的数据会重复。
　　(1) 为什么要用维表
　　数据未及时准备好
　　无法准确获取全量最新数据
　　资料乱序
　　(2)维表的使用形式
　　满载
　　增量加载
　　5.3 大促特色及保障
　　毫秒延迟
　　洪峰明显
　　高安全性
　　(1) 如何优化实时任务
　　独享资源与共享资源策略
　　合理选择缓存机制，尽量减少读写库的次数
　　合并计算单元以降低拓扑级别
　　共享内存对象以避免字符复制
　　平衡高吞吐量和低延迟
　　(2) 如何保证数据链路
　　进行多机房容灾和异地容灾。下图是多机房容灾示意图
　　(3) 如何进行压力测试
　　数据压测：数据压测主要是洪流存储压测，就是把数小时甚至几天的数据累积起来，在某个时刻全部释放。
　　产品压力测试：
　　① 产品本身的压力测试
　　采集大屏服务器所有读操作的url，通过压测平台进行压测流量回放，按照QPS目标：500次/秒进行压测。在压测过程中，迭代优化服务器性能，提升大屏应用的数据处理性能。
　　② 前端页面稳定性测试
　　在浏览器中打开大屏页面，进行8-24小时的前端页面稳定性测试。监控大屏前端JS对客户端浏览器的内存和CPU消耗，检测并修复前端JS内存泄露等问题，提高前端页面的稳定性。
　　解决方案:目前网站怎么优化才好？浅析当下网站优化的新思维新方法
　　网站优化在这个行业由来已久，许多优化方法已经约定俗成，并被反复采纳和使用。不得不说，搜索引擎的算法日新月异，用旧的概念和方法做优化可能有点偏。需要一些新思路和新方法。这些东西需要长期观察和总结最新的优质站点。
　　1、不要老是传统的企业网站。营销网站更受搜索引擎欢迎。
　　传统的网站模式千篇一律，缺乏新意，造成了人们的视觉疲劳。一个营销网站，利用适当的图文，直观地展示产品的特点和优势，才能吸引大家的眼球。
　　

　　2、网站内部页面细节需要更新，内部链接网络要逐步编制。
　　尝试阅读新闻列表页面上的部分内容介绍。以往的企业网站大多直接展示新闻标题列表；公司简介和联系我们页面。侧边栏最好设置新闻推荐等一些栏目，避免内链太少；尽量在商品详情页的侧边栏展示一些商品推荐，增加商品的丰富度；在新闻详情页下，最好设置相关阅读等，增加文章的连贯性。总而言之，内部内容应该编成网络。
　　3、网站关键词不一定越少越好。
　　很多人有一个误区，认为关键词设置的越少，网站赋予这个关键词的权重越高，这个词越容易出现。有一定的道理，但这种现象在实际操作中并不明显。关键词设置要遵循的原则是关键词一定要有相关性，尽量多设置，十几个也可以。那么文章的信息量就尽可能的大，质量就尽可能的高，体现出这些关键词的密度。关键词会一个接一个的出现，带动一个接一个，互相影响，更好的达到优化效果。
　　

　　4.外链作用不大，反链却很有用。
　　外链现在是一个辅助功能，优质的外链平台越来越少，所以做好内链显得更为重要。尽可能多做高质量的友情链接，对网站是非常有利的。
　　5、优质的内链和流量起到核心作用。
　　内链怎么做，首先内容一定要高质量，尽量伪原创和原创，即使是粘贴复制，也尽量插入一些图片修改一下。一天四五篇新闻是正确的做法。一个制作精良的网站每天必须有四篇新闻文章。无论你多么原创，它都是无用的。流量不用多说，正规的引流必不可少。

优化的解决方案:Openresty+Lua+Kafka实现日志实时采集

采集交流 • 优采云发表了文章 • 0 个评论 • 246 次浏览 • 2022-12-17 01:33 • 来自相关话题

优化的解决方案:Openresty+Lua+Kafka实现日志实时采集
　　发表于 2022 年 6 月 20 日，由 admin
　　在很多数据采集场景中，Flume是一款高性能的采集日志工具，相信大家都有所了解。许多人认为 Flume 是一个组件。他们中的大多数人会想到 Flume 和 Kafka 的组合来进行日志记录采集。该方案具有高性能、高吞吐量、数据可靠性等诸多优点。但是如果我们需要实时的采集日志，这显然不是一个好的方案。原因如下：
　　目前，Flume 可以支持实时监控某个目录下的数据文件。一旦目录中的文件采集完成，它将被标记为完成标志。如果以后这个文件中有更多的数据，Flume 将不会被检测到。
　　所以，我们更多的是用这个方案来计时采集，只要有新的数据目录生成，我们就会采集这个目录下的数据文件。
　　那么这篇文章就给大家介绍一下基于Openresty+Lua+Kafka的日志实时采集。
　　很多时候，我们需要对用户的埋点数据进行一个实时的采集，然后利用这些数据对用户的行为做一些实时的分析。所以，当然，第一步是弄清楚如何采集实时数据。
　　我们这里采用的方案是Openresty+Lua+Kafka。
　　那么什么是 Openresty？这是官方报价：
　　OpenResty 是一个基于 Nginx 和 Lua 的高性能 Web 平台，集成了大量优秀的 Lua 库、第三方模块及其大部分依赖。用于方便地构建能够处理超高并发和高扩展性的动态Web应用程序、Web服务和动态网关。
　　OpenResty 通过汇集各种精心设计的 Nginx 模块，有效地将 Nginx 变成一个强大的通用 Web 应用平台。这样，Web开发人员和系统工程师就可以使用Lu脚本语言调动Nginx支持的各种C和Lua模块，快速构建一个能够处理10K甚至1000多个单机并发连接的高性能Web应用系统。
　　OpenResty 的目标是让你的 web 服务直接运行在 Nginx 服务内部，充分利用 Nginx 的非阻塞 I/O 模型，不仅针对 HTTP 客户端请求，甚至针对远程后端，如 MySQL、PostgreSQL、Memcached 和Redis等均以一致的高性能响应。
　　简单的说，就是将客户端的请求（本文指的是用户的行为日志）通过Nginx投递到我们指定的地方（Kafka），而为了实现这个需求，我们使用了Lua脚本，因为Openresty封装了各种Lua模块已经安装好，其中之一就是对Kafka模块进行分包。我们只需要写一个简单的脚本，将用户的数据通过Nginx转发给Kafka，方便后面消费数据。
　　下面是一张架构图供大家理解：
　　这里简单总结一下使用Openresty+Lua+Kafka的优势：
　　1.支持多种业务数据，不同的业务数据，只需要配置不同的Lua脚本，就可以将不同的业务数据发送到Kafka的不同主题。
　　2、对用户触发的埋点数据进行实时采集
　　3、高可靠的集群，由于Openresty是基于Nginx的，其集群具有非常高的性能和稳定性。
　　4.高并发。与tomcat、apache等web服务器相比，Nginx的并发度远高于其他两者。一般情况下，处理几万并发并不难。
　　那我们就实践一下吧。
　　Openresty安装
　　本例采用单机部署形式。单机部署成功后，集群搭建和单机一样，只是在不同的机器上执行相同的步骤。
　　注：本实验基于centos7.0操作系统
　　1、下载Openresty依赖：
　　yum install readline-devel pcre-devel openssl-devel gcc
　　2.编译安装Openresty：
　　#1.安装openresty:
mkdir /opt/software
mkdir /opt/module
cd /opt/software/ # 安装文件所在目录
wget https://openresty.org/download ... ar.gz
tar -xzf openresty-1.9.7.4.tar.gz -C /opt/module/
cd /opt/module/openresty-1.9.7.4
#2.配置:
# 指定目录为/opt/openresty,默认在/usr/local。

./configure --prefix=/opt/openresty \
--with-luajit \
--without-http_redis2_module \
--with-http_iconv_module
make
make install

　　3.安装lua-resty-kafka
　　因为我们需要通过nginx+lua脚本将数据转发给Kafka，所以在编写lua脚本的时候需要用到lua模块中对Kafka的一些依赖。
　　#下载lua-resty-kafka:
cd /opt/software/
wget https://github.com/doujiang24/ ... r.zip
unzip master.zip -d /opt/module/
#拷贝kafka相关依赖脚本到openresty
cp -rf /opt/module/lua-resty-kafka-master/lib/resty/kafka/ /opt/openresty/lualib/resty/
　　注：由于大家都熟悉kafka，这里就不介绍它的安装了。
　　Openresty安装完成后，目录结构如下：
　　drwxr-xr-x 2 root root 4096 Mar 24 14:26 bin
drwxr-xr-x 6 root root 4096 Mar 24 14:26 luajit
drwxr-xr-x 7 root root 4096 Mar 24 14:29 lualib
drwxr-xr-x 12 root root 4096 Mar 24 14:40 nginx
　　4.配置文件
　　编辑/opt/openresty/nginx/conf/nginx.conf
　　user nginx; #Linux的用户
worker_processes auto;
worker_rlimit_nofile 100000;
#error_log logs/error.log;
#error_log logs/error.log notice;
#error_log logs/error.log info;
#pid logs/nginx.pid;
events {
worker_connections 102400;
multi_accept on;
use epoll;
http {
include mime.types;
default_type application/octet-stream;

log_format main '$remote_addr - $remote_user [$time_local] "$request" '
'$status $body_bytes_sent "$http_referer" '
'"$http_user_agent" "$http_x_forwarded_for"';
access_log /var/log/nginx/access.log main;
resolver 8.8.8.8;
#resolver 127.0.0.1 valid=3600s;
sendfile on;
keepalive_timeout 65;
underscores_in_headers on;
gzip on;
include /opt/openresty/nginx/conf/conf.d/common.conf; #common.conf这个文件名字可自定义
}
　　编辑/opt/openresty/nginx/conf/conf.d/common.conf
　　##api
lua_package_path "/opt/openresty/lualib/resty/kafka/?.lua;;";
lua_package_cpath "/opt/openresty/lualib/?.so;;";
lua_shared_dict ngx_cache 128m; # cache
lua_shared_dict cache_lock 100k; # lock for cache
server {
listen 8887; #监听端口
server_name 192.168.3.215; #埋点日志的ip地址或域名，多个域名之间用空格分开
root html; #root指令用于指定虚拟主机的网页根目录，这个目录可以是相对路径，也可以是绝对路径。
lua_need_request_body on; #打开获取消息体的开关，以便能获取到消息体
access_log /var/log/nginx/message.access.log main;
error_log /var/log/nginx/message.error.log notice;
location = /lzp/message {
lua_code_cache on;
charset utf-8;
default_type 'application/json';
content_by_lua_file "/opt/openresty/nginx/lua/testMessage_kafka.lua";#引用的lua脚本
}
}
　　编辑/opt/openresty/nginx/lua/testMessage_kafka.lua
　　#创建目录mkdir /opt/openresty/nginx/lua/
vim /opt/openresty/nginx/lua/testMessage_kafka.lua
#编辑内存如下：
　　解决方案:【ROS实时采集Android的图像和IMU数据】的更多相关文章
　　
　　基于Python结合InfluxDB和Grafana图表实时采集Linux多主机性能数据的性能测试
　　
　　基于Python结合InfluxDB和Grafana图表实时采集Linux多主机性能数据通过：授予客户实现功能测试环境环境搭建使用前提使用方法运行程序效果展示无需在被监控主机上安装代理即可实现功能，一键配对Linux远程服务器对不同主机进行性能监控。性能数据采集命令，并实时展示支持跨堡垒机采集实时性能数据（注意：定制开发，不通用）支持docker容器（因为程序是从docker容器中实现获取性能的内部数据，所以目前只支持CPU、内存、I/O）使用前提可以是... 查看全部

优化的解决方案:Openresty+Lua+Kafka实现日志实时采集
　　发表于 2022 年 6 月 20 日，由 admin
　　在很多数据采集场景中，Flume是一款高性能的采集日志工具，相信大家都有所了解。许多人认为 Flume 是一个组件。他们中的大多数人会想到 Flume 和 Kafka 的组合来进行日志记录采集。该方案具有高性能、高吞吐量、数据可靠性等诸多优点。但是如果我们需要实时的采集日志，这显然不是一个好的方案。原因如下：
　　目前，Flume 可以支持实时监控某个目录下的数据文件。一旦目录中的文件采集完成，它将被标记为完成标志。如果以后这个文件中有更多的数据，Flume 将不会被检测到。
　　所以，我们更多的是用这个方案来计时采集，只要有新的数据目录生成，我们就会采集这个目录下的数据文件。
　　那么这篇文章就给大家介绍一下基于Openresty+Lua+Kafka的日志实时采集。
　　很多时候，我们需要对用户的埋点数据进行一个实时的采集，然后利用这些数据对用户的行为做一些实时的分析。所以，当然，第一步是弄清楚如何采集实时数据。
　　我们这里采用的方案是Openresty+Lua+Kafka。
　　那么什么是 Openresty？这是官方报价：
　　OpenResty 是一个基于 Nginx 和 Lua 的高性能 Web 平台，集成了大量优秀的 Lua 库、第三方模块及其大部分依赖。用于方便地构建能够处理超高并发和高扩展性的动态Web应用程序、Web服务和动态网关。
　　OpenResty 通过汇集各种精心设计的 Nginx 模块，有效地将 Nginx 变成一个强大的通用 Web 应用平台。这样，Web开发人员和系统工程师就可以使用Lu脚本语言调动Nginx支持的各种C和Lua模块，快速构建一个能够处理10K甚至1000多个单机并发连接的高性能Web应用系统。
　　OpenResty 的目标是让你的 web 服务直接运行在 Nginx 服务内部，充分利用 Nginx 的非阻塞 I/O 模型，不仅针对 HTTP 客户端请求，甚至针对远程后端，如 MySQL、PostgreSQL、Memcached 和Redis等均以一致的高性能响应。
　　简单的说，就是将客户端的请求（本文指的是用户的行为日志）通过Nginx投递到我们指定的地方（Kafka），而为了实现这个需求，我们使用了Lua脚本，因为Openresty封装了各种Lua模块已经安装好，其中之一就是对Kafka模块进行分包。我们只需要写一个简单的脚本，将用户的数据通过Nginx转发给Kafka，方便后面消费数据。
　　下面是一张架构图供大家理解：
　　这里简单总结一下使用Openresty+Lua+Kafka的优势：
　　1.支持多种业务数据，不同的业务数据，只需要配置不同的Lua脚本，就可以将不同的业务数据发送到Kafka的不同主题。
　　2、对用户触发的埋点数据进行实时采集
　　3、高可靠的集群，由于Openresty是基于Nginx的，其集群具有非常高的性能和稳定性。
　　4.高并发。与tomcat、apache等web服务器相比，Nginx的并发度远高于其他两者。一般情况下，处理几万并发并不难。
　　那我们就实践一下吧。
　　Openresty安装
　　本例采用单机部署形式。单机部署成功后，集群搭建和单机一样，只是在不同的机器上执行相同的步骤。
　　注：本实验基于centos7.0操作系统
　　1、下载Openresty依赖：
　　yum install readline-devel pcre-devel openssl-devel gcc
　　2.编译安装Openresty：
　　#1.安装openresty:
mkdir /opt/software
mkdir /opt/module
cd /opt/software/ # 安装文件所在目录
wget https://openresty.org/download ... ar.gz
tar -xzf openresty-1.9.7.4.tar.gz -C /opt/module/
cd /opt/module/openresty-1.9.7.4
#2.配置:
# 指定目录为/opt/openresty,默认在/usr/local。

./configure --prefix=/opt/openresty \
--with-luajit \
--without-http_redis2_module \
--with-http_iconv_module
make
make install

　　3.安装lua-resty-kafka
　　因为我们需要通过nginx+lua脚本将数据转发给Kafka，所以在编写lua脚本的时候需要用到lua模块中对Kafka的一些依赖。
　　#下载lua-resty-kafka:
cd /opt/software/
wget https://github.com/doujiang24/ ... r.zip
unzip master.zip -d /opt/module/
#拷贝kafka相关依赖脚本到openresty
cp -rf /opt/module/lua-resty-kafka-master/lib/resty/kafka/ /opt/openresty/lualib/resty/
　　注：由于大家都熟悉kafka，这里就不介绍它的安装了。
　　Openresty安装完成后，目录结构如下：
　　drwxr-xr-x 2 root root 4096 Mar 24 14:26 bin
drwxr-xr-x 6 root root 4096 Mar 24 14:26 luajit
drwxr-xr-x 7 root root 4096 Mar 24 14:29 lualib
drwxr-xr-x 12 root root 4096 Mar 24 14:40 nginx
　　4.配置文件
　　编辑/opt/openresty/nginx/conf/nginx.conf
　　user nginx; #Linux的用户
worker_processes auto;
worker_rlimit_nofile 100000;
#error_log logs/error.log;
#error_log logs/error.log notice;
#error_log logs/error.log info;
#pid logs/nginx.pid;
events {
worker_connections 102400;
multi_accept on;
use epoll;
http {
include mime.types;
default_type application/octet-stream;

log_format main '$remote_addr - $remote_user [$time_local] "$request" '
'$status $body_bytes_sent "$http_referer" '
'"$http_user_agent" "$http_x_forwarded_for"';
access_log /var/log/nginx/access.log main;
resolver 8.8.8.8;
#resolver 127.0.0.1 valid=3600s;
sendfile on;
keepalive_timeout 65;
underscores_in_headers on;
gzip on;
include /opt/openresty/nginx/conf/conf.d/common.conf; #common.conf这个文件名字可自定义
}
　　编辑/opt/openresty/nginx/conf/conf.d/common.conf
　　##api
lua_package_path "/opt/openresty/lualib/resty/kafka/?.lua;;";
lua_package_cpath "/opt/openresty/lualib/?.so;;";
lua_shared_dict ngx_cache 128m; # cache
lua_shared_dict cache_lock 100k; # lock for cache
server {
listen 8887; #监听端口
server_name 192.168.3.215; #埋点日志的ip地址或域名，多个域名之间用空格分开
root html; #root指令用于指定虚拟主机的网页根目录，这个目录可以是相对路径，也可以是绝对路径。
lua_need_request_body on; #打开获取消息体的开关，以便能获取到消息体
access_log /var/log/nginx/message.access.log main;
error_log /var/log/nginx/message.error.log notice;
location = /lzp/message {
lua_code_cache on;
charset utf-8;
default_type 'application/json';
content_by_lua_file "/opt/openresty/nginx/lua/testMessage_kafka.lua";#引用的lua脚本
}
}
　　编辑/opt/openresty/nginx/lua/testMessage_kafka.lua
　　#创建目录mkdir /opt/openresty/nginx/lua/
vim /opt/openresty/nginx/lua/testMessage_kafka.lua
#编辑内存如下：
　　解决方案:【ROS实时采集Android的图像和IMU数据】的更多相关文章

　　基于Python结合InfluxDB和Grafana图表实时采集Linux多主机性能数据的性能测试
　　

　　基于Python结合InfluxDB和Grafana图表实时采集Linux多主机性能数据通过：授予客户实现功能测试环境环境搭建使用前提使用方法运行程序效果展示无需在被监控主机上安装代理即可实现功能，一键配对Linux远程服务器对不同主机进行性能监控。性能数据采集命令，并实时展示支持跨堡垒机采集实时性能数据（注意：定制开发，不通用）支持docker容器（因为程序是从docker容器中实现获取性能的内部数据，所以目前只支持CPU、内存、I/O）使用前提可以是...

最新版:EditorTools2中文版 v2.6.19 电脑版

采集交流 • 优采云发表了文章 • 0 个评论 • 71 次浏览 • 2022-12-17 01:25 • 来自相关话题

　　最新版:EditorTools2中文版 v2.6.19 电脑版
　　EditorTools2免费版是一款专业的网页助手软件。EditorTools2中文版不仅绿色小巧，而且完全免费。还支持免安装、免激活、免注册等繁琐的安装步骤，让大家一键下载打开即可在线使用。它具有优采云采集器、免发布、易用、稳定、低功耗等亮点。更重要的是，运行时无需人工看守，24小时自动实时监控目标，全天候不间断为您提供内容更新。
　　EditorTools2免费版提供多种智能采集解决方案，全面保障您的网站优质及时的内容更新，满足长期运行需求，让您免于繁重的负担and boring 网站从更新工作中解脱出来，如此简单、高效、实用。并且支持信息的自由组合，是一款通过强大的数据整理功能对信息进行深度加工，创造新内容的实用电脑软件。
　　EditorTools2免费版的特点
　　1.【自动无人值守】
　　无需人工值守，24小时自动实时监控目标，实时高效采集，全天候为您提供内容更新。满足长期作业需求，让您从繁重的工作中解脱出来
　　2、【应用广泛】
　　最全能的采集软件，支持任何类型的网站采集，应用率高达99.9%，支持发布到所有类型的网站程序，甚至采集本地文件，无借口释放
　　3、【信息随心】
　　支持信息的自由组合，通过强大的数据整理功能对信息进行深度加工，创造新的内容
　　4.【任意格式文件下载】
　　无论静态还是动态，无论是图片、音乐、电影、软件，还是PDF、WORD文档甚至种子文件，只要你想要
　　5.【伪原创】
　　高速同义词替换，多词随机替换，段落随机排序，助力内容SEO
　　6. [无限多级页面采集]
　　从支持多级目录开始，无论是纵向多层信息页面，还是平行方向的多个内容页面，亦或是AJAX调用页面，都让你轻松采集
　　7.【自由扩展】
　　开放接口方式，免费二次开发，自定义任意功能，实现所有需求
　　软件功能
　　1、设定好计划后，可24小时自动工作，无需人工干预
　　2、与网站分离，通过独立制作的接口可以支持任何网站或数据库
　　3、灵活强大的采集规则不仅仅是采集文章，采集任何类型的信息
　　4、体积小、功耗低、稳定性好非常适合运行在服务器上
　　5.所有规则均可导入导出，资源灵活
　　6.使用FTP上传文件，稳定安全
　　7.下载上传支持断点续传
　　8.高速伪原创
　　9. 可以选择倒序、顺序、随机采集文章
　　10.支持自动列出网址
　　11、支持采集为网站，其数据分布在多层页面
　　12.自由设置采集数据项，每个数据项可以单独筛选排序
　　13.支持分页内容采集
　　14.支持任意格式和类型的文件（包括图片、视频）下载
　　15.可以破解防盗链文件
　　16.支持动态文件URL解析
　　17. 支持采集用于需要登录访问的网页
　　18.可以设置关键词采集
　　19.可设置敏感词防止采集
　　20.可以设置图片水印
　　21、支持发布带回复的文章，可广泛应用于论坛、博客等项目
　　22、与采集数据分离的发布参数项可以自由对应采集数据或预设值，大大增强发布规则的复用性
　　23.支持随机选择发布账号
　　24.支持任何已发布项目的语言翻译
　　25.支持转码和UBB码
　　26.可选择文件上传自动创建年月日目录
　　27.模拟发布支持网站无法安装界面的发布操作
　　28.程序能正常运行
　　29.防止网络运营商劫持HTTP功能
　　30.单个采集释放可以手动执行
　　31、详细的工作流程监控和信息反馈，让您快速了解工作状态
　　EditorTools2免费版教程
　　1. [使用登记]
　　1.通过注册获得ET的使用授权；
　　打开主菜单-授权注册，填写您在ET官方网站（非论坛）注册的有效账号，注册使用即可获得ET授权
　　
　　2.【系统设置】
　　打开主菜单-系统-基本设置，进行各项系统设置，如图
　　1、设置工作参数；
　　根据需要设置工作参数，见图
　　①. 开机自动运行ET：启动电脑进入系统后，ET程序会自动运行；
　　②. ET启动后自动工作：ET启动运行后，将自动执行上次使用ET时选择的工作计划。只有启用此项，才会自动保存当前选中的工作计划；
　　③. 启动后最小化：ET启动后，隐藏主窗口，只显示托盘图标；
　　④. Ignore blanks at the beginning and end of the rule：启用此项后，采集配置中的每条规则都会自动去掉开头和结尾的空格、回车、换行等空白字符，从而避免用户输入较多空格或换行导致规则分析失败；如果用户需要受益
　　⑤. 使用空格或换行符确定规则的起止边界，请取消勾选；
　　⑥. 方案执行间隔时间：当执行自动工作并选择多个方案时，当一个方案的当前列表采集完成后，间隔多长时间将采集替换为下一个方案；
　　⑦. 访问网络超时时间：设置访问网络无响应时强制断开连接的时间；
　　⑧. 网络重试次数：设置访问网络失败自动重试的次数，如采集网页、下载文件、FTP上传等，这是2.2版本新增的功能；
　　⑨. 访问网页失败后自动重启ET：设置访问网页失败一定次数后自动重启ET，解决一些可能导致网络拥堵无法继续正常工作的问题；该功能仅在自动工作时生效，停止自动工作失败计数将被清零，重试访问不计入；这是2.3.7版本的新特性；
　　2.设置代理
　　如果通过代理上网，请设置访问网页的代理参数，如图
　　Only for 采集：勾选此项，代理设置只会对采集网页生效，发布时不会使用代理。这是2.3.8版本的新功能
　　3.设置劫持特征码
　　很多地区的电信宽带用户在上网时会强制将访问信息替换成访问信息中的一些代码，这样用户只能通过代码中的框框查看自己原本想访问的网页，这通常是用于显示电信广告或执行其他隐蔽操作，这种行为称为劫持浏览器；出现这种情况时，ET的采集源代码只能获取这些劫持代码，无法获取采集网页源代码。通过设置这些劫持代码的特征字符串，ET会尝试突破劫持访问真实的网页源代码，并且最多可以重试访问URL 5次
　　4.设置用户代理
　　网站通过userAgent判断当前用户使用的是什么浏览器，并根据浏览器可以支持的功能提供相应的功能。浏览器在访问网页时，通常会发送一个标识字符串来告诉网站这是什么浏览器软件，而我们访问的部分网站会对UserAgent进行限制，我们可以在基本设置中修改UserAgent ,也可以点击'Get Local UserAgent'按钮获取本地IE默认UserAgent
　　5.设置支持的语言
　　采集一些网页，网站可能会勾选支持的语言，用户可以在这里调整。
　　6.锁定设置
　　打开主菜单-系统-锁设置，如图：
　　该函数用于设置打开每个配置窗口时的密码。设置锁定密码后，使用菜单锁定功能，防止用户离开计算机后，其他人无法访问和操作各项配置。
　　3.【前台操作】
　　1.【选择工作计划】
　　工作计划包括从源头获取原创信息、信息处理、最终发布到目标网站等一系列工作的所有设置说明。它是 ET 自动采集工作的指挥官。制定好后，我们在需要的方案（方案制定见用户手册-设置）后，就可以在主窗口选择工作方案，开始采集工作。
　　① 了解节目区域；
　　主窗口左上角的树状目录区为方案区，点击鼠标右键弹出操作菜单
　　②. 检查选项；
　　点击程序名前的选择框，选择要执行的程序，可以选择多个，
　　如果选择的场景缺少关键配置，会提示并取消勾选
　　ET在工作时，会先从当前的焦点方案开始执行，即蓝色高亮的方案，见图4中的'网站－discuz 6.0 (with reply)'
　　多个选定的程序将循环执行。
　　在主窗口右上角的文章列表区，会显示选中的焦点项目的待定文章。
　　右击程序名称，弹出菜单如图
　　点击Edit Scheme进入方案编辑窗口
　　双击方案名称，直接进入方案编辑窗口。
　　2.自动工作
　　选择好要执行的工作计划后，点击主窗口左下方的“自动”按钮即可开始全自动工作。从此，用户可以扔掉鼠标键盘和繁琐的网站更新，和朋友出去玩，网站有自己的ET默默为你采集更新。要停止自动工作，请单击“停止”按钮；
　　ET支持命令行启动，参数/auto可以启动自动工作，命令行使用示例：d:\editortools.exe /auto
　　3.手工作业
　　在调试解决方案时，通常使用采集手动操作。
　　①、采集目录；
　　
　　点击主窗口左下方的'采集Category'按钮，ET会对当前选中的焦点方案执行directory采集动作，如果没有焦点方案则依次执行
　　采集目录信息显示在主窗口右上角的文章列表区。
　　注意：修改计划的采集规则时，未发布的文章会自动清除，包括发送失败的文章，防止用户继续使用采集的错误文章条目
　　②、处理文章；
　　当文章列表区有文章需要处理时，点击主窗口左下方的‘处理文章’按钮，文章中的第一项文章列表区域将按顺序处理 Pending 文章execution采集action
　　文章加工过程中，工作记录会显示在主窗口右下方的信息区，
　　加工完成后，文章列表区对应条目会显示加工状态
　　③. 另一种手动文章方法
　　在文章列表区，双击一个文章条目将对文章执行采集动作，无论文章是否已被处理或不是。
　　4. 了解文章列表区
　　主窗口右上角的表格区是文章列表区，显示已执行计划的pending 文章，
　　①. 文章列表区各列说明；
　　文章采集Title：这是采集规则得到的文章标题-列表分析规则，如果采集规则没有设置解析title数据项规则，那么ET会使用这里的文章采集标题作为发布标题，文章采集标题可以更改，点击标题后面的省略号按钮即可进入编辑状态
　　Status - Send: 当此项的值为YES时，表示这篇文章文章已经发布成功
　　Status-Sensitive：当此项的值为YES时，表示文章文本收录敏感关键词
　　Status-Error: 0表示没有错误，其他错误码含义参考相关主题
　　Status - Processing：勾选文章项表示已经执行，可以点击取消勾选使其再次执行
　　②、转换显示码
　　右击文章列表区，弹出编码菜单
　　③. 双击执行文章采集；
　　上一节提到，可以双击文章列表区的一个文章条目，对其执行采集；
　　④、浏览按钮
　　点击文章条目的浏览按钮可以访问文章的网址，用于确认网址是否正确、查看网页源代码等。
　　5.认识信息栏
　　信息栏用于跟踪执行过程，反馈各种信息。是了解ET工作情况，解决采集遇到问题的重要工具。
　　①. 工作记录：
　　该栏记录了ET每一步的工作过程和状态，包括目录采集和文章处理两部分。我们可以通过工作记录知道采集执行是否正确完成。问题是什么？当出现问题时，用户可以根据信息栏中的提示和其他反馈内容，快速准确地找到故障原因并解决。
　　②、采集源码：
　　该栏显示采集页面在执行过程中的采集列表页、文章页面、文章页面等的源代码。通过使用本专栏源码，您可以轻松进行规则测试，提供规则定制依据。
　　注意有些网站会根据不同的访问浏览器显示不同的源码，所以自定义ET的采集规则时，以本栏源码为准，例如采集为'SMF 1.1 .5'在规则示例中，通过IE访问的源代码网站和通过采集器获取的优采云是不同的。
　　③. 分析数据：
　　该栏目展示了文章过程中各个数据项的信息，从解析的原创代码，到排序后的代码，再到URL修正后的代码。通过查看该栏目，用户可以了解设置的数据项分析规则是否准确，排序组规则是否完善，最终信息是否符合您的要求。
　　例如：当工作记录栏提示错误‘文数大于或小于发布设置’时，我们可以查看该栏‘文’数据项，判断是大于还是小于发布设置，无论是正常原因还是由于整理组设置不当，调整每一个设置。
　　④、发送代码
　　该栏显示ET向发布网站发送的数据，包括文章校验部分和文章发布部分；
　　通过该栏信息，用户可以通过一系列的分析和排序操作了解提交给发布网站的数据，从而查看其采集规则数据项和发布参数设置规则是正确的，完整的。
　　⑤. 退货信息
　　该栏显示了ET向发布网站发送数据后发布网站的反馈，包括文章检查反馈和文章发布反馈；
　　通过查看本专栏，我们可以清楚地看到采集进程出错的大部分原因。
　　某些接口返回错误信息时，信息可能是HTML代码。不熟悉 HTML 代码的用户很难阅读。点击WEB浏览按钮，可以在操作系统默认的浏览器中方便地查看。
　　运行要求
　　一、【操作系统要求】
　　EditorTools是一款win32软件，可运行于微软简体中文版Windows xp/2000/2003/2008/vista/win7等操作系统环境。我们对软件中的上述操作系统进行了大量的测试和实地考察，确保EditorTools能够在上述系统上安全、稳定地运行。
　　如果您选择在非简体中文的Windows操作系统下运行ET，您可能会遇到界面显示乱码等问题。你需要自己测试一下。通常安装标准的简体中文字体库（GB2312）即可解决。
　　2.【配套环境要求】
　　EditorTools2要求电脑有如下软件环境
　　mdac 2.8 或更高版本（ADO 数据库驱动程序）
　　注册scrrun.dll（用于读写脚本和文本文件）
　　注册vbscript.dll（VBScript脚本相关支持文件）
　　免费的:navicat premium中文免费版功能
　　navicat premium 中文免费版是一款非常强大的数据管理工具，可以有很多功能链接到各种数据库。它允许用户存储不同类型的文件，如过程、事件、触发器、视图等，这将使用户更容易使用它。
　　navicat premium中文免费版功能
　　1.无缝
　　数据可以无缝迁移，传输过程中可以同步，让用户享受无延迟的数据传输体验。
　　2.查询
　　它可以帮助用户更好的查询软件中的信息，帮助用户更好的编辑和创建，从而更快的生成代码。
　　
　　三、合作
　　让用户的连接设置、模型、查询等东西同步到这个软件的服务器上，方便用户实时访问。
　　4.工具
　　提供了很多丰富的工具供用户使用，让用户在查询和使用数据的时候有一个更快的过程。
　　navicat premium中文免费版使用方法
　　1、打开软件后，选择要连接的数据库类型，如图。
　　2、然后设置连接名称等信息，输入ip地址等信息。
　　
　　3、完成后可以点击链接测试按钮测试是否正确。
　　4.双击左边的链接，选择一个数据库，选择一个表，可以看到所有的表信息。
　　5、可以在表信息中添加数据，修改数据等操作，然后记得保存。查看全部

　　最新版:EditorTools2中文版 v2.6.19 电脑版
　　EditorTools2免费版是一款专业的网页助手软件。EditorTools2中文版不仅绿色小巧，而且完全免费。还支持免安装、免激活、免注册等繁琐的安装步骤，让大家一键下载打开即可在线使用。它具有优采云采集器、免发布、易用、稳定、低功耗等亮点。更重要的是，运行时无需人工看守，24小时自动实时监控目标，全天候不间断为您提供内容更新。
　　EditorTools2免费版提供多种智能采集解决方案，全面保障您的网站优质及时的内容更新，满足长期运行需求，让您免于繁重的负担and boring 网站从更新工作中解脱出来，如此简单、高效、实用。并且支持信息的自由组合，是一款通过强大的数据整理功能对信息进行深度加工，创造新内容的实用电脑软件。
　　EditorTools2免费版的特点
　　1.【自动无人值守】
　　无需人工值守，24小时自动实时监控目标，实时高效采集，全天候为您提供内容更新。满足长期作业需求，让您从繁重的工作中解脱出来
　　2、【应用广泛】
　　最全能的采集软件，支持任何类型的网站采集，应用率高达99.9%，支持发布到所有类型的网站程序，甚至采集本地文件，无借口释放
　　3、【信息随心】
　　支持信息的自由组合，通过强大的数据整理功能对信息进行深度加工，创造新的内容
　　4.【任意格式文件下载】
　　无论静态还是动态，无论是图片、音乐、电影、软件，还是PDF、WORD文档甚至种子文件，只要你想要
　　5.【伪原创】
　　高速同义词替换，多词随机替换，段落随机排序，助力内容SEO
　　6. [无限多级页面采集]
　　从支持多级目录开始，无论是纵向多层信息页面，还是平行方向的多个内容页面，亦或是AJAX调用页面，都让你轻松采集
　　7.【自由扩展】
　　开放接口方式，免费二次开发，自定义任意功能，实现所有需求
　　软件功能
　　1、设定好计划后，可24小时自动工作，无需人工干预
　　2、与网站分离，通过独立制作的接口可以支持任何网站或数据库
　　3、灵活强大的采集规则不仅仅是采集文章，采集任何类型的信息
　　4、体积小、功耗低、稳定性好非常适合运行在服务器上
　　5.所有规则均可导入导出，资源灵活
　　6.使用FTP上传文件，稳定安全
　　7.下载上传支持断点续传
　　8.高速伪原创
　　9. 可以选择倒序、顺序、随机采集文章
　　10.支持自动列出网址
　　11、支持采集为网站，其数据分布在多层页面
　　12.自由设置采集数据项，每个数据项可以单独筛选排序
　　13.支持分页内容采集
　　14.支持任意格式和类型的文件（包括图片、视频）下载
　　15.可以破解防盗链文件
　　16.支持动态文件URL解析
　　17. 支持采集用于需要登录访问的网页
　　18.可以设置关键词采集
　　19.可设置敏感词防止采集
　　20.可以设置图片水印
　　21、支持发布带回复的文章，可广泛应用于论坛、博客等项目
　　22、与采集数据分离的发布参数项可以自由对应采集数据或预设值，大大增强发布规则的复用性
　　23.支持随机选择发布账号
　　24.支持任何已发布项目的语言翻译
　　25.支持转码和UBB码
　　26.可选择文件上传自动创建年月日目录
　　27.模拟发布支持网站无法安装界面的发布操作
　　28.程序能正常运行
　　29.防止网络运营商劫持HTTP功能
　　30.单个采集释放可以手动执行
　　31、详细的工作流程监控和信息反馈，让您快速了解工作状态
　　EditorTools2免费版教程
　　1. [使用登记]
　　1.通过注册获得ET的使用授权；
　　打开主菜单-授权注册，填写您在ET官方网站（非论坛）注册的有效账号，注册使用即可获得ET授权
　　

　　2.【系统设置】
　　打开主菜单-系统-基本设置，进行各项系统设置，如图
　　1、设置工作参数；
　　根据需要设置工作参数，见图
　　①. 开机自动运行ET：启动电脑进入系统后，ET程序会自动运行；
　　②. ET启动后自动工作：ET启动运行后，将自动执行上次使用ET时选择的工作计划。只有启用此项，才会自动保存当前选中的工作计划；
　　③. 启动后最小化：ET启动后，隐藏主窗口，只显示托盘图标；
　　④. Ignore blanks at the beginning and end of the rule：启用此项后，采集配置中的每条规则都会自动去掉开头和结尾的空格、回车、换行等空白字符，从而避免用户输入较多空格或换行导致规则分析失败；如果用户需要受益
　　⑤. 使用空格或换行符确定规则的起止边界，请取消勾选；
　　⑥. 方案执行间隔时间：当执行自动工作并选择多个方案时，当一个方案的当前列表采集完成后，间隔多长时间将采集替换为下一个方案；
　　⑦. 访问网络超时时间：设置访问网络无响应时强制断开连接的时间；
　　⑧. 网络重试次数：设置访问网络失败自动重试的次数，如采集网页、下载文件、FTP上传等，这是2.2版本新增的功能；
　　⑨. 访问网页失败后自动重启ET：设置访问网页失败一定次数后自动重启ET，解决一些可能导致网络拥堵无法继续正常工作的问题；该功能仅在自动工作时生效，停止自动工作失败计数将被清零，重试访问不计入；这是2.3.7版本的新特性；
　　2.设置代理
　　如果通过代理上网，请设置访问网页的代理参数，如图
　　Only for 采集：勾选此项，代理设置只会对采集网页生效，发布时不会使用代理。这是2.3.8版本的新功能
　　3.设置劫持特征码
　　很多地区的电信宽带用户在上网时会强制将访问信息替换成访问信息中的一些代码，这样用户只能通过代码中的框框查看自己原本想访问的网页，这通常是用于显示电信广告或执行其他隐蔽操作，这种行为称为劫持浏览器；出现这种情况时，ET的采集源代码只能获取这些劫持代码，无法获取采集网页源代码。通过设置这些劫持代码的特征字符串，ET会尝试突破劫持访问真实的网页源代码，并且最多可以重试访问URL 5次
　　4.设置用户代理
　　网站通过userAgent判断当前用户使用的是什么浏览器，并根据浏览器可以支持的功能提供相应的功能。浏览器在访问网页时，通常会发送一个标识字符串来告诉网站这是什么浏览器软件，而我们访问的部分网站会对UserAgent进行限制，我们可以在基本设置中修改UserAgent ,也可以点击'Get Local UserAgent'按钮获取本地IE默认UserAgent
　　5.设置支持的语言
　　采集一些网页，网站可能会勾选支持的语言，用户可以在这里调整。
　　6.锁定设置
　　打开主菜单-系统-锁设置，如图：
　　该函数用于设置打开每个配置窗口时的密码。设置锁定密码后，使用菜单锁定功能，防止用户离开计算机后，其他人无法访问和操作各项配置。
　　3.【前台操作】
　　1.【选择工作计划】
　　工作计划包括从源头获取原创信息、信息处理、最终发布到目标网站等一系列工作的所有设置说明。它是 ET 自动采集工作的指挥官。制定好后，我们在需要的方案（方案制定见用户手册-设置）后，就可以在主窗口选择工作方案，开始采集工作。
　　① 了解节目区域；
　　主窗口左上角的树状目录区为方案区，点击鼠标右键弹出操作菜单
　　②. 检查选项；
　　点击程序名前的选择框，选择要执行的程序，可以选择多个，
　　如果选择的场景缺少关键配置，会提示并取消勾选
　　ET在工作时，会先从当前的焦点方案开始执行，即蓝色高亮的方案，见图4中的'网站－discuz 6.0 (with reply)'
　　多个选定的程序将循环执行。
　　在主窗口右上角的文章列表区，会显示选中的焦点项目的待定文章。
　　右击程序名称，弹出菜单如图
　　点击Edit Scheme进入方案编辑窗口
　　双击方案名称，直接进入方案编辑窗口。
　　2.自动工作
　　选择好要执行的工作计划后，点击主窗口左下方的“自动”按钮即可开始全自动工作。从此，用户可以扔掉鼠标键盘和繁琐的网站更新，和朋友出去玩，网站有自己的ET默默为你采集更新。要停止自动工作，请单击“停止”按钮；
　　ET支持命令行启动，参数/auto可以启动自动工作，命令行使用示例：d:\editortools.exe /auto
　　3.手工作业
　　在调试解决方案时，通常使用采集手动操作。
　　①、采集目录；
　　

　　点击主窗口左下方的'采集Category'按钮，ET会对当前选中的焦点方案执行directory采集动作，如果没有焦点方案则依次执行
　　采集目录信息显示在主窗口右上角的文章列表区。
　　注意：修改计划的采集规则时，未发布的文章会自动清除，包括发送失败的文章，防止用户继续使用采集的错误文章条目
　　②、处理文章；
　　当文章列表区有文章需要处理时，点击主窗口左下方的‘处理文章’按钮，文章中的第一项文章列表区域将按顺序处理 Pending 文章execution采集action
　　文章加工过程中，工作记录会显示在主窗口右下方的信息区，
　　加工完成后，文章列表区对应条目会显示加工状态
　　③. 另一种手动文章方法
　　在文章列表区，双击一个文章条目将对文章执行采集动作，无论文章是否已被处理或不是。
　　4. 了解文章列表区
　　主窗口右上角的表格区是文章列表区，显示已执行计划的pending 文章，
　　①. 文章列表区各列说明；
　　文章采集Title：这是采集规则得到的文章标题-列表分析规则，如果采集规则没有设置解析title数据项规则，那么ET会使用这里的文章采集标题作为发布标题，文章采集标题可以更改，点击标题后面的省略号按钮即可进入编辑状态
　　Status - Send: 当此项的值为YES时，表示这篇文章文章已经发布成功
　　Status-Sensitive：当此项的值为YES时，表示文章文本收录敏感关键词
　　Status-Error: 0表示没有错误，其他错误码含义参考相关主题
　　Status - Processing：勾选文章项表示已经执行，可以点击取消勾选使其再次执行
　　②、转换显示码
　　右击文章列表区，弹出编码菜单
　　③. 双击执行文章采集；
　　上一节提到，可以双击文章列表区的一个文章条目，对其执行采集；
　　④、浏览按钮
　　点击文章条目的浏览按钮可以访问文章的网址，用于确认网址是否正确、查看网页源代码等。
　　5.认识信息栏
　　信息栏用于跟踪执行过程，反馈各种信息。是了解ET工作情况，解决采集遇到问题的重要工具。
　　①. 工作记录：
　　该栏记录了ET每一步的工作过程和状态，包括目录采集和文章处理两部分。我们可以通过工作记录知道采集执行是否正确完成。问题是什么？当出现问题时，用户可以根据信息栏中的提示和其他反馈内容，快速准确地找到故障原因并解决。
　　②、采集源码：
　　该栏显示采集页面在执行过程中的采集列表页、文章页面、文章页面等的源代码。通过使用本专栏源码，您可以轻松进行规则测试，提供规则定制依据。
　　注意有些网站会根据不同的访问浏览器显示不同的源码，所以自定义ET的采集规则时，以本栏源码为准，例如采集为'SMF 1.1 .5'在规则示例中，通过IE访问的源代码网站和通过采集器获取的优采云是不同的。
　　③. 分析数据：
　　该栏目展示了文章过程中各个数据项的信息，从解析的原创代码，到排序后的代码，再到URL修正后的代码。通过查看该栏目，用户可以了解设置的数据项分析规则是否准确，排序组规则是否完善，最终信息是否符合您的要求。
　　例如：当工作记录栏提示错误‘文数大于或小于发布设置’时，我们可以查看该栏‘文’数据项，判断是大于还是小于发布设置，无论是正常原因还是由于整理组设置不当，调整每一个设置。
　　④、发送代码
　　该栏显示ET向发布网站发送的数据，包括文章校验部分和文章发布部分；
　　通过该栏信息，用户可以通过一系列的分析和排序操作了解提交给发布网站的数据，从而查看其采集规则数据项和发布参数设置规则是正确的，完整的。
　　⑤. 退货信息
　　该栏显示了ET向发布网站发送数据后发布网站的反馈，包括文章检查反馈和文章发布反馈；
　　通过查看本专栏，我们可以清楚地看到采集进程出错的大部分原因。
　　某些接口返回错误信息时，信息可能是HTML代码。不熟悉 HTML 代码的用户很难阅读。点击WEB浏览按钮，可以在操作系统默认的浏览器中方便地查看。
　　运行要求
　　一、【操作系统要求】
　　EditorTools是一款win32软件，可运行于微软简体中文版Windows xp/2000/2003/2008/vista/win7等操作系统环境。我们对软件中的上述操作系统进行了大量的测试和实地考察，确保EditorTools能够在上述系统上安全、稳定地运行。
　　如果您选择在非简体中文的Windows操作系统下运行ET，您可能会遇到界面显示乱码等问题。你需要自己测试一下。通常安装标准的简体中文字体库（GB2312）即可解决。
　　2.【配套环境要求】
　　EditorTools2要求电脑有如下软件环境
　　mdac 2.8 或更高版本（ADO 数据库驱动程序）
　　注册scrrun.dll（用于读写脚本和文本文件）
　　注册vbscript.dll（VBScript脚本相关支持文件）
　　免费的:navicat premium中文免费版功能
　　navicat premium 中文免费版是一款非常强大的数据管理工具，可以有很多功能链接到各种数据库。它允许用户存储不同类型的文件，如过程、事件、触发器、视图等，这将使用户更容易使用它。
　　navicat premium中文免费版功能
　　1.无缝
　　数据可以无缝迁移，传输过程中可以同步，让用户享受无延迟的数据传输体验。
　　2.查询
　　它可以帮助用户更好的查询软件中的信息，帮助用户更好的编辑和创建，从而更快的生成代码。
　　

　　三、合作
　　让用户的连接设置、模型、查询等东西同步到这个软件的服务器上，方便用户实时访问。
　　4.工具
　　提供了很多丰富的工具供用户使用，让用户在查询和使用数据的时候有一个更快的过程。
　　navicat premium中文免费版使用方法
　　1、打开软件后，选择要连接的数据库类型，如图。
　　2、然后设置连接名称等信息，输入ip地址等信息。
　　

　　3、完成后可以点击链接测试按钮测试是否正确。
　　4.双击左边的链接，选择一个数据库，选择一个表，可以看到所有的表信息。
　　5、可以在表信息中添加数据，修改数据等操作，然后记得保存。

解决方案:Android 实时视频采集/编码/传输/解码/播放—方案调研

采集交流 • 优采云发表了文章 • 0 个评论 • 117 次浏览 • 2022-12-15 11:35 • 来自相关话题

　　解决方案:Android 实时视频采集/编码/传输/解码/播放—方案调研
　　
　　这是一个用python实现的局域网视频聊天和文件传输工具。收录源码和exe文件，可直接运行或交换源码学习。系统名称：局域网视频聊天和文件传输工具 1、运行环境为windows系统，多台主机在同一局域网环境下。2、目录下有4个exe文件和一个jpg。只要确保将它们放在同一目录中即可。3、用户只需点击mchat.exe即可使用。4.系统首次运行时会自动生成data文件夹，里面存放的内容是视频聊天后录制的视频，当用户需要发送文件时，需要将对应的文件5、系统分为3个模块（1）发送文件，单击此按钮时，本机将成为服务器以监视其他客户端的连接。此时其他客户端就可以访问数据目录下的文件了。(2)接收文件，点击该按钮时，输入要连接的主机的ip地址，连接成功后输入要传输的文件名。使用该功能时，对方需要运行服务器模块。(3) 视频聊天，点击该按钮时，输入需要聊天的主机IP地址，连接成功后即可开始。并且聊天视频会被录制并保存在数据目录中。要关闭当前聊天窗口，请按 esc 键。6、如要结束以上三个模块，请直接关闭窗口。该机器成为服务器以监视其他客户端的连接。此时其他客户端就可以访问数据目录下的文件了。(2)接收文件，点击该按钮时，输入要连接的主机的ip地址，连接成功后输入要传输的文件名。使用该功能时，对方需要运行服务器模块。(3) 视频聊天，点击该按钮时，输入需要聊天的主机IP地址，连接成功后即可开始。并且聊天视频会被录制并保存在数据目录中。要关闭当前聊天窗口，请按 esc 键。6、如要结束以上三个模块，请直接关闭窗口。该机器成为服务器以监视其他客户端的连接。此时其他客户端就可以访问数据目录下的文件了。(2)接收文件，点击该按钮时，输入要连接的主机的ip地址，连接成功后输入要传输的文件名。使用该功能时，对方需要运行服务器模块。(3) 视频聊天，点击该按钮时，输入需要聊天的主机IP地址，连接成功后即可开始。并且聊天视频会被录制并保存在数据目录中。要关闭当前聊天窗口，请按 esc 键。6、如要结束以上三个模块，请直接关闭窗口。点击此按钮时，输入要连接的主机的ip地址，连接成功后输入要传输的文件名。使用该功能时，对方需要运行服务器模块。(3) 视频聊天，点击该按钮时，输入需要聊天的主机IP地址，连接成功后即可开始。并且聊天视频会被录制并保存在数据目录中。要关闭当前聊天窗口，请按 esc 键。6、如要结束以上三个模块，请直接关闭窗口。点击此按钮时，输入要连接的主机的ip地址，连接成功后输入要传输的文件名。使用该功能时，对方需要运行服务器模块。(3) 视频聊天，点击该按钮时，输入需要聊天的主机IP地址，连接成功后即可开始。并且聊天视频会被录制并保存在数据目录中。要关闭当前聊天窗口，请按 esc 键。6、如要结束以上三个模块，请直接关闭窗口。输入需要聊天的主机IP地址，连接成功后开始。并且聊天视频会被录制并保存在数据目录中。要关闭当前聊天窗口，请按 esc 键。6、如要结束以上三个模块，请直接关闭窗口。输入需要聊天的主机IP地址，连接成功后开始。并且聊天视频会被录制并保存在数据目录中。要关闭当前聊天窗口，请按 esc 键。6、如要结束以上三个模块，请直接关闭窗口。
　　
　　内容分享:百度问答采集软件
　　问答采集和聚合采集是我们文章的采集，根据不同的文章类型，通过采集工具我们可以采集的问答内容会重新组合聚合，多个文章生成一个问答内容，自动生成文章目录完成问答聚合。
　　在网站构建中，我们通常创建带有部分的文章类型，例如“宠物”部分，通过问答采集和文章聚合采集，我们可以快速填写该栏目内容，通过文章聚合，可以将多个与“宠物”相关的文章聚合成一个集合文章进行发布。
　　问答采集和聚合采集有什么好处（如图）？
　　1. 关键词采集问答可以汇总来自多个平台的不同答案。
　　2、聚合采集后的答案，并自动生成目录发布，集百所学校之力进行问答回复，提高内容质量。
　　
　　3、通过重组多个文章段落，自动添加图片水印，图片链接本地化，提升文章原创度。
　　4. 标题可自由组合，可将原标题自动生成双标题、三标题。
　　最有价值的反向链接是永远存在的反向链接。通过留下高权重的反向链接网站可以给我们带来意想不到的收获。它们通常放在帖子中的文章或网站上。对于此类链接，请使用第三方网站锚点在文本中最自然出现的位置。
　　此类链接放置在高质量的网站站点上，这些站点没有垃圾邮件，并且对搜索引擎的信任度很高。此类链接的质量比临时链接高得多，但不会产生负面影响。
　　基于关系的反向链接也可以通过与其他平台建立伙伴关系和易货关系来免费获得链接。例如，通过：交换出版物；作为专家发表评论文章；兑换活动公告、优惠码、用户礼物等。
　　
　　我们可以通过定位具有相似出席率的平台和对可能有兴趣合作的主题感兴趣的受众来创建这种基于关系的链接。创建潜在合作伙伴列表后，仔细筛选出有影响力的参与者和大量受众，然后必须交换反向链接。
　　来宾博客链接，此选项是获得指向我们网站的反向链接的最简单方法。它们允许我们通过发布访问者内容来增加我们页面的访问量。例如，假设我们编写了一个有用的文章，其中收录对第三方资源提供者遇到的问题的解决方案。
　　我们将我们的作者链接添加到它。在这种情况下，合作伙伴会收到好的内容并在其帮助下推动流量，我们也会从中收到反向链接和转化。查看全部

　　解决方案:Android 实时视频采集/编码/传输/解码/播放—方案调研
　　

　　这是一个用python实现的局域网视频聊天和文件传输工具。收录源码和exe文件，可直接运行或交换源码学习。系统名称：局域网视频聊天和文件传输工具 1、运行环境为windows系统，多台主机在同一局域网环境下。2、目录下有4个exe文件和一个jpg。只要确保将它们放在同一目录中即可。3、用户只需点击mchat.exe即可使用。4.系统首次运行时会自动生成data文件夹，里面存放的内容是视频聊天后录制的视频，当用户需要发送文件时，需要将对应的文件5、系统分为3个模块（1）发送文件，单击此按钮时，本机将成为服务器以监视其他客户端的连接。此时其他客户端就可以访问数据目录下的文件了。(2)接收文件，点击该按钮时，输入要连接的主机的ip地址，连接成功后输入要传输的文件名。使用该功能时，对方需要运行服务器模块。(3) 视频聊天，点击该按钮时，输入需要聊天的主机IP地址，连接成功后即可开始。并且聊天视频会被录制并保存在数据目录中。要关闭当前聊天窗口，请按 esc 键。6、如要结束以上三个模块，请直接关闭窗口。该机器成为服务器以监视其他客户端的连接。此时其他客户端就可以访问数据目录下的文件了。(2)接收文件，点击该按钮时，输入要连接的主机的ip地址，连接成功后输入要传输的文件名。使用该功能时，对方需要运行服务器模块。(3) 视频聊天，点击该按钮时，输入需要聊天的主机IP地址，连接成功后即可开始。并且聊天视频会被录制并保存在数据目录中。要关闭当前聊天窗口，请按 esc 键。6、如要结束以上三个模块，请直接关闭窗口。该机器成为服务器以监视其他客户端的连接。此时其他客户端就可以访问数据目录下的文件了。(2)接收文件，点击该按钮时，输入要连接的主机的ip地址，连接成功后输入要传输的文件名。使用该功能时，对方需要运行服务器模块。(3) 视频聊天，点击该按钮时，输入需要聊天的主机IP地址，连接成功后即可开始。并且聊天视频会被录制并保存在数据目录中。要关闭当前聊天窗口，请按 esc 键。6、如要结束以上三个模块，请直接关闭窗口。点击此按钮时，输入要连接的主机的ip地址，连接成功后输入要传输的文件名。使用该功能时，对方需要运行服务器模块。(3) 视频聊天，点击该按钮时，输入需要聊天的主机IP地址，连接成功后即可开始。并且聊天视频会被录制并保存在数据目录中。要关闭当前聊天窗口，请按 esc 键。6、如要结束以上三个模块，请直接关闭窗口。点击此按钮时，输入要连接的主机的ip地址，连接成功后输入要传输的文件名。使用该功能时，对方需要运行服务器模块。(3) 视频聊天，点击该按钮时，输入需要聊天的主机IP地址，连接成功后即可开始。并且聊天视频会被录制并保存在数据目录中。要关闭当前聊天窗口，请按 esc 键。6、如要结束以上三个模块，请直接关闭窗口。输入需要聊天的主机IP地址，连接成功后开始。并且聊天视频会被录制并保存在数据目录中。要关闭当前聊天窗口，请按 esc 键。6、如要结束以上三个模块，请直接关闭窗口。输入需要聊天的主机IP地址，连接成功后开始。并且聊天视频会被录制并保存在数据目录中。要关闭当前聊天窗口，请按 esc 键。6、如要结束以上三个模块，请直接关闭窗口。
　　

　　内容分享:百度问答采集软件
　　问答采集和聚合采集是我们文章的采集，根据不同的文章类型，通过采集工具我们可以采集的问答内容会重新组合聚合，多个文章生成一个问答内容，自动生成文章目录完成问答聚合。
　　在网站构建中，我们通常创建带有部分的文章类型，例如“宠物”部分，通过问答采集和文章聚合采集，我们可以快速填写该栏目内容，通过文章聚合，可以将多个与“宠物”相关的文章聚合成一个集合文章进行发布。
　　问答采集和聚合采集有什么好处（如图）？
　　1. 关键词采集问答可以汇总来自多个平台的不同答案。
　　2、聚合采集后的答案，并自动生成目录发布，集百所学校之力进行问答回复，提高内容质量。
　　

　　3、通过重组多个文章段落，自动添加图片水印，图片链接本地化，提升文章原创度。
　　4. 标题可自由组合，可将原标题自动生成双标题、三标题。
　　最有价值的反向链接是永远存在的反向链接。通过留下高权重的反向链接网站可以给我们带来意想不到的收获。它们通常放在帖子中的文章或网站上。对于此类链接，请使用第三方网站锚点在文本中最自然出现的位置。
　　此类链接放置在高质量的网站站点上，这些站点没有垃圾邮件，并且对搜索引擎的信任度很高。此类链接的质量比临时链接高得多，但不会产生负面影响。
　　基于关系的反向链接也可以通过与其他平台建立伙伴关系和易货关系来免费获得链接。例如，通过：交换出版物；作为专家发表评论文章；兑换活动公告、优惠码、用户礼物等。
　　

　　我们可以通过定位具有相似出席率的平台和对可能有兴趣合作的主题感兴趣的受众来创建这种基于关系的链接。创建潜在合作伙伴列表后，仔细筛选出有影响力的参与者和大量受众，然后必须交换反向链接。
　　来宾博客链接，此选项是获得指向我们网站的反向链接的最简单方法。它们允许我们通过发布访问者内容来增加我们页面的访问量。例如，假设我们编写了一个有用的文章，其中收录对第三方资源提供者遇到的问题的解决方案。
　　我们将我们的作者链接添加到它。在这种情况下，合作伙伴会收到好的内容并在其帮助下推动流量，我们也会从中收到反向链接和转化。

推荐文章:wordpress文章采集,自媒体有哪些免费的文章采集网站

采集交流 • 优采云发表了文章 • 0 个评论 • 167 次浏览 • 2022-12-11 18:12 • 来自相关话题

　　推荐文章:wordpress文章采集,自媒体有哪些免费的文章采集网站
　　wordpress 文章采集, 自媒体有哪些免费的文章采集网站？
　　其他微信公众号文章的排版很漂亮，只能眼巴巴看着，想用却不知如何下手？
　　我要转一篇文章，好不容易复制过来，粘贴的时候发现格式全乱了？
　　今天教大家一个小技巧——文章采集，无论是排版还是文章内容，都可以一键导入到编辑器中，快来学习吧。
　　01采集演示
　　整个操作过程不到5秒，是不是超级简单？超级快速且易于使用？
　　02教程
　　接下来，我们来看看采集函数的使用方法。
　　⑴ 选择目标文章，复制文章链接。
　　电脑用户可以直接全选并复制浏览器地址栏中的文章链接。
　　▲ PC端保存文章链接
　　手机用户可以点击右上角的菜单按钮，选择复制链接，将链接发送到电脑端。
　　▲ 在移动端保存文章链接
　　⑵ 点击采集按钮。
　　Ant Editor()中有两个文章采集函数入口：
　　① 编辑菜单右上角的[采集文章]按钮；
　　▲ 采集按钮
　　
　　② 右功能按钮下方的[采集文章]按钮。
　　▲ 采集按钮
　　⑶ 粘贴文章链接和采集。
　　▲ 粘贴链接采集
　　小编支持采集微信公众号、QQ公众号、今日头条号、百度百家号、一点号、网易号、搜狐公众号、新浪博客、腾讯新闻、新浪新闻、天天快报、网易新闻、知乎专栏以及 [许多自媒体平台]文章上的更多内容。
　　03文章申请
　　将文章采集放入编辑区后，我们就可以进行后续的修改和排版了。
　　⑴采用原文排版。
　　如果只使用原文排版，导入文章采集后，只需要【替换文字和图片】即可。
　　文本替换：将要使用的文本写入编辑区，或使用无格式粘贴（Ctrl+Shift+V）将文本粘贴到编辑区，然后使用【格式刷】工具套用原来的格式文本到新输入的文本中。
　　▲格式刷
　　图片替换：在编辑区点击需要替换的图片，再点击右侧图片区的图片即可完成替换。
　　⑵ 借鉴原文内容。
　　如果不需要对原文进行排版，只需要使用文章的内容，在编辑区添加文章采集后，可以使用快捷键(Ctrl+A)全选，然后用【清除格式】按钮清除原文格式，然后排版文章的内容。
　　▲ 格式清晰
　　① 可以在编辑器中使用【秒刷】功能直接套用素材样式：选中要秒刷的内容，点击喜欢的样式，样式即可成功使用。‍
　　▲二刷
　　② 可使用【智能排列】在编辑器中一键套用全文模板：选择全文模板，设置基本参数，点击鼠标，全文模板将自动套用。操作简单易学，使用方便。
　　
　　▲ 智能排版
　　采集你学会如何使用这个功能了吗？如果你平时看到版面精美、内容丰富的文章，不妨先采集起来，以备日后之用。
　　优采云通用文章采集器没有页码的动态加载列表页怎么办采集？
　　采集内容不包括分页部分，只有文章内容是必需的。
　　只需在测试页下的分页规则中填写分页，系统就会自动采集分页。
　　因为每个页面的内容代码都是一样的，系统会自动判断。
　　wordpress如何将文章批量导入数据库？
　　进入WordPress后台：工具->导入，点击列表中的WordPress；如果你的WordPress网站没有安装WordPress Importer，会弹出安装页面，点击立即安装；安装完成后，点击“启用插件并运行导入工具”
　　;点击选择文件，选择xml文件，然后点击“上传并导入”
　　;在接下来的页面中，选择“下载并导入文件附件” ;由于要从远程服务器下载演示内容所需的图片，可能需要较长时间。
　　如何使用 WordPress 制作您自己的网站？
　　这个问题的范围比较广。可以理解为使用WordPress搭建网站。首先你要有自己的域名和主机，然后把域名解析成主机IP，然后下载WordPress安装包上传到主机根目录下。然后通过浏览器访问域名，按照要求一步步填写相关信息进行安装。
　　安装WordPress后，默认使用官方主机。建议换成国内优秀的WordPress主题，然后就可以登录后台发布文章了。
　　采集的文章内容如何快速收录？
　　文章成为收录基本上取决于两个因素。
　　一是文章的原创度，搜索引擎喜欢原创的内容，而且原创质量高原创，不是没有逻辑的文章原创，一般人做不到原创，你可以伪原创，采集文章别专心做采集一件，你可以采集整理和修改多篇文章，不要采集文章的第一段和最后一段，或者用自己的话翻译采集的内容。最好在段落的开头和结尾嵌入关键词，呼应标题。
　　另一个因素是发布平台的重量。同一个文章，发布在不同权重的平台上，权重高的可能很快收录，权重低的可能慢收录甚至收录。所以选择一个高权重的平台也是关键。
　　汇总:六点告诉你如何提高站点的收录
　　点击上方蓝字关注我，阅读美文
　　网站优化后，如果想让网站的关键词排名更高，首先要做的就是添加更多的网站内容，这样当网站当包括在内时，排名会相应增长。对于收录来说，只要网站优化到位，就没有大问题。下面我们将本站细分为包括这部分在内的改进方法，帮助大家网站改进更多收录。
　　1. 提高网站文章质量
　　网站上线后，最好保持三个月的高质量文章更新，这样搜索引擎才有机会开放logo权限。如果开启logo权限，就相当于搜索引擎对你的网站得到肯定，有潜力有优质的内容更新，是否可以依靠搜索引擎的信任度不断增加文章的更新或排名靠你的坚持，文章收录之后，尽量不要随意修改，否则会导致蜘蛛反复爬行，影响其他文章的收录。
　　
　　2、新址保护期
　　所谓新站保护，是指该域名在备案上线时间后六个月内没有做过任何相关的网站上线操作，可以直接参与公司的备案提交，然后开始出现对于百度新站链接提交的保护期，这个网络链接提交入口可以和搜索引擎的手动提交入口一起提交，他们一般都是在新站保护期内提交链接，除非你后来发现你的文章内容是低质量的，不然已经收录的文章不容易丢失。
　　3、人工提交，搜索引擎主动推送
　　百度搜索引擎验证企业网站系统后，会通过以下三个方面文章向我们提交词条，一是人工推送，即一个一个复制链接并提交或者分批提交 OK，同学们也可以不用收录通过学习其他个人账号分析搜索链接问题，然后提交。公司账号一天只能提交20条（不确定，忘了，可以去Verify）。
　　4.外链建设
　　
　　当网站发布文章时，如果依赖域名的蜘蛛只是爬行，依靠高权重平台的帮助将自己通过博客和文章收录是不现实的。中的论坛文章可以在链接中发布。
　　5.内链建设
　　文章收录前期可以做内部链接，但是需要自己开发站点专用的关键词+链接功能，比如发表一篇文章文章想要文章链接到关键词将自动链接到关键词。这样，您可以节省网站网站管理员手动添加他们自己的关键词链接的时间。（有些公司网站的bug比较多，比如完成这个功能后，会出现一些自己链接自己的现象文章，有没有这种开发需要自行查看）。
　　6、聚合页面的制作
　　有的网站大量发布了文章，有的文章反复发布。这个问题可能会影响公司网站收录在发展的瓶颈期，我们可以做聚合页面，也就是TAG页面，生成新的特殊页面供蜘蛛爬取，这样它们就有更多的人不主动参与排名ranking的文章结构分析。
　　如果想快速被百度收录，可以先适当提交文章质量，然后再做seo优化的基本操作，基本上没什么大问题，除非有问题域名或服务器速度太慢等原因，发现这些问题的朋友请尽快改正。查看全部

　　推荐文章:wordpress文章采集,自媒体有哪些免费的文章采集网站
　　wordpress 文章采集, 自媒体有哪些免费的文章采集网站？
　　其他微信公众号文章的排版很漂亮，只能眼巴巴看着，想用却不知如何下手？
　　我要转一篇文章，好不容易复制过来，粘贴的时候发现格式全乱了？
　　今天教大家一个小技巧——文章采集，无论是排版还是文章内容，都可以一键导入到编辑器中，快来学习吧。
　　01采集演示
　　整个操作过程不到5秒，是不是超级简单？超级快速且易于使用？
　　02教程
　　接下来，我们来看看采集函数的使用方法。
　　⑴ 选择目标文章，复制文章链接。
　　电脑用户可以直接全选并复制浏览器地址栏中的文章链接。
　　▲ PC端保存文章链接
　　手机用户可以点击右上角的菜单按钮，选择复制链接，将链接发送到电脑端。
　　▲ 在移动端保存文章链接
　　⑵ 点击采集按钮。
　　Ant Editor()中有两个文章采集函数入口：
　　① 编辑菜单右上角的[采集文章]按钮；
　　▲ 采集按钮
　　

　　② 右功能按钮下方的[采集文章]按钮。
　　▲ 采集按钮
　　⑶ 粘贴文章链接和采集。
　　▲ 粘贴链接采集
　　小编支持采集微信公众号、QQ公众号、今日头条号、百度百家号、一点号、网易号、搜狐公众号、新浪博客、腾讯新闻、新浪新闻、天天快报、网易新闻、知乎专栏以及 [许多自媒体平台]文章上的更多内容。
　　03文章申请
　　将文章采集放入编辑区后，我们就可以进行后续的修改和排版了。
　　⑴采用原文排版。
　　如果只使用原文排版，导入文章采集后，只需要【替换文字和图片】即可。
　　文本替换：将要使用的文本写入编辑区，或使用无格式粘贴（Ctrl+Shift+V）将文本粘贴到编辑区，然后使用【格式刷】工具套用原来的格式文本到新输入的文本中。
　　▲格式刷
　　图片替换：在编辑区点击需要替换的图片，再点击右侧图片区的图片即可完成替换。
　　⑵ 借鉴原文内容。
　　如果不需要对原文进行排版，只需要使用文章的内容，在编辑区添加文章采集后，可以使用快捷键(Ctrl+A)全选，然后用【清除格式】按钮清除原文格式，然后排版文章的内容。
　　▲ 格式清晰
　　① 可以在编辑器中使用【秒刷】功能直接套用素材样式：选中要秒刷的内容，点击喜欢的样式，样式即可成功使用。‍
　　▲二刷
　　② 可使用【智能排列】在编辑器中一键套用全文模板：选择全文模板，设置基本参数，点击鼠标，全文模板将自动套用。操作简单易学，使用方便。
　　

　　▲ 智能排版
　　采集你学会如何使用这个功能了吗？如果你平时看到版面精美、内容丰富的文章，不妨先采集起来，以备日后之用。
　　优采云通用文章采集器没有页码的动态加载列表页怎么办采集？
　　采集内容不包括分页部分，只有文章内容是必需的。
　　只需在测试页下的分页规则中填写分页，系统就会自动采集分页。
　　因为每个页面的内容代码都是一样的，系统会自动判断。
　　wordpress如何将文章批量导入数据库？
　　进入WordPress后台：工具->导入，点击列表中的WordPress；如果你的WordPress网站没有安装WordPress Importer，会弹出安装页面，点击立即安装；安装完成后，点击“启用插件并运行导入工具”
　　;点击选择文件，选择xml文件，然后点击“上传并导入”
　　;在接下来的页面中，选择“下载并导入文件附件” ;由于要从远程服务器下载演示内容所需的图片，可能需要较长时间。
　　如何使用 WordPress 制作您自己的网站？
　　这个问题的范围比较广。可以理解为使用WordPress搭建网站。首先你要有自己的域名和主机，然后把域名解析成主机IP，然后下载WordPress安装包上传到主机根目录下。然后通过浏览器访问域名，按照要求一步步填写相关信息进行安装。
　　安装WordPress后，默认使用官方主机。建议换成国内优秀的WordPress主题，然后就可以登录后台发布文章了。
　　采集的文章内容如何快速收录？
　　文章成为收录基本上取决于两个因素。
　　一是文章的原创度，搜索引擎喜欢原创的内容，而且原创质量高原创，不是没有逻辑的文章原创，一般人做不到原创，你可以伪原创，采集文章别专心做采集一件，你可以采集整理和修改多篇文章，不要采集文章的第一段和最后一段，或者用自己的话翻译采集的内容。最好在段落的开头和结尾嵌入关键词，呼应标题。
　　另一个因素是发布平台的重量。同一个文章，发布在不同权重的平台上，权重高的可能很快收录，权重低的可能慢收录甚至收录。所以选择一个高权重的平台也是关键。
　　汇总:六点告诉你如何提高站点的收录
　　点击上方蓝字关注我，阅读美文
　　网站优化后，如果想让网站的关键词排名更高，首先要做的就是添加更多的网站内容，这样当网站当包括在内时，排名会相应增长。对于收录来说，只要网站优化到位，就没有大问题。下面我们将本站细分为包括这部分在内的改进方法，帮助大家网站改进更多收录。
　　1. 提高网站文章质量
　　网站上线后，最好保持三个月的高质量文章更新，这样搜索引擎才有机会开放logo权限。如果开启logo权限，就相当于搜索引擎对你的网站得到肯定，有潜力有优质的内容更新，是否可以依靠搜索引擎的信任度不断增加文章的更新或排名靠你的坚持，文章收录之后，尽量不要随意修改，否则会导致蜘蛛反复爬行，影响其他文章的收录。
　　

　　2、新址保护期
　　所谓新站保护，是指该域名在备案上线时间后六个月内没有做过任何相关的网站上线操作，可以直接参与公司的备案提交，然后开始出现对于百度新站链接提交的保护期，这个网络链接提交入口可以和搜索引擎的手动提交入口一起提交，他们一般都是在新站保护期内提交链接，除非你后来发现你的文章内容是低质量的，不然已经收录的文章不容易丢失。
　　3、人工提交，搜索引擎主动推送
　　百度搜索引擎验证企业网站系统后，会通过以下三个方面文章向我们提交词条，一是人工推送，即一个一个复制链接并提交或者分批提交 OK，同学们也可以不用收录通过学习其他个人账号分析搜索链接问题，然后提交。公司账号一天只能提交20条（不确定，忘了，可以去Verify）。
　　4.外链建设
　　

　　当网站发布文章时，如果依赖域名的蜘蛛只是爬行，依靠高权重平台的帮助将自己通过博客和文章收录是不现实的。中的论坛文章可以在链接中发布。
　　5.内链建设
　　文章收录前期可以做内部链接，但是需要自己开发站点专用的关键词+链接功能，比如发表一篇文章文章想要文章链接到关键词将自动链接到关键词。这样，您可以节省网站网站管理员手动添加他们自己的关键词链接的时间。（有些公司网站的bug比较多，比如完成这个功能后，会出现一些自己链接自己的现象文章，有没有这种开发需要自行查看）。
　　6、聚合页面的制作
　　有的网站大量发布了文章，有的文章反复发布。这个问题可能会影响公司网站收录在发展的瓶颈期，我们可以做聚合页面，也就是TAG页面，生成新的特殊页面供蜘蛛爬取，这样它们就有更多的人不主动参与排名ranking的文章结构分析。
　　如果想快速被百度收录，可以先适当提交文章质量，然后再做seo优化的基本操作，基本上没什么大问题，除非有问题域名或服务器速度太慢等原因，发现这些问题的朋友请尽快改正。

实时文章采集完美:建筑学工科生如何在建筑行业中脱颖而出

采集交流 • 优采云发表了文章 • 0 个评论 • 146 次浏览 • 2022-12-10 16:27 • 来自相关话题

　　实时文章采集完美:建筑学工科生如何在建筑行业中脱颖而出
　　
　　实时文章采集，并且每篇文章均可投稿。地址：facebook或者buzzfeed及其他主流媒体投稿的地址：投稿：大家可以站内私信我，也可以发邮件到coursedesign@fanhua.fy，sketchup3d方面的笔试问题，以及相关论文方面的问题，职位信息，公司环境以及推荐，设计建议以及其他问题，我都会一一回复。
　　
　　谢邀，怎么说呢，很喜欢游戏行业，也想毕业就去，但还没来得及，以后如果来得及的话也会去尝试游戏建模，看着现在这么多优秀的人，还是有动力的。
　　当然来得及！来得及！我建筑的同学一个个考注册，考中级，考高级（嗯，每年只要到中级考试就会被拖延），高级考试都排在八月，美术指导们已经开始加班了！基本你学习，能考上市建筑高级的，那么你这四年本专业就应该在建筑行业了。我这三年，觉得自己当时混四年建筑，真的是图样图森破！直到现在我都在努力考有计算机二级的考试，方便找工作（狗头）！！！如果你像我一样在学校学习渲染，ps等学位课的话，一个建筑学工科生如果喜欢，去读个bim！那将是很棒的！！如果想去游戏公司工作，赶紧的学u3d和opengl！否则人家一提opengl你就要跪了！！！你要是说你学adobe全家桶，会用coreldraw？那么ps一定要学！！！把顶点缩放模糊模糊上色写的漂亮点，那这个学位上你将是个很棒的业余爱好者了！你还要学模型渲染，特效渲染，音效渲染，爆炸渲染！还要学各种渲染器！搞渲染器一定会耗时费钱你还要对专业课学的很熟练！那你的专业是学校的不是自己编程做游戏的！！！建筑学大一每周两次课，大二之后每天一堂课这样子（我知道这话比较糙）还要实验一下这个专业！给排水设计能扛得住的才有可能当你天天疲惫学建筑的老师，专业要是不精通，工资一定不会高的！！！而且各种渲染器分区域渲染就是这样的，每次画效果图，你会吐啊！渲染器这四年吃点东西！保证你不会找不到女朋友，起码在你面前是长相不错的！！而且这四年你还能培养点其他爱好，比如说（找到对象的话）！把四年的学业搞好，争取接触多一点其他方面的东西，以后设计的路更宽！千万不要拿毕业设计当做吃饭的手艺，不能养家糊口的！！能吃饱，这才是正事！当你最后要毕业设计的时候，你才会怀念四年虚度光阴的日子，后悔当初没有认真学习这些学位课知识！（这句话在我寒假临近毕业时）以上！。查看全部

　　实时文章采集完美:建筑学工科生如何在建筑行业中脱颖而出
　　

　　实时文章采集，并且每篇文章均可投稿。地址：facebook或者buzzfeed及其他主流媒体投稿的地址：投稿：大家可以站内私信我，也可以发邮件到coursedesign@fanhua.fy，sketchup3d方面的笔试问题，以及相关论文方面的问题，职位信息，公司环境以及推荐，设计建议以及其他问题，我都会一一回复。
　　

　　谢邀，怎么说呢，很喜欢游戏行业，也想毕业就去，但还没来得及，以后如果来得及的话也会去尝试游戏建模，看着现在这么多优秀的人，还是有动力的。
　　当然来得及！来得及！我建筑的同学一个个考注册，考中级，考高级（嗯，每年只要到中级考试就会被拖延），高级考试都排在八月，美术指导们已经开始加班了！基本你学习，能考上市建筑高级的，那么你这四年本专业就应该在建筑行业了。我这三年，觉得自己当时混四年建筑，真的是图样图森破！直到现在我都在努力考有计算机二级的考试，方便找工作（狗头）！！！如果你像我一样在学校学习渲染，ps等学位课的话，一个建筑学工科生如果喜欢，去读个bim！那将是很棒的！！如果想去游戏公司工作，赶紧的学u3d和opengl！否则人家一提opengl你就要跪了！！！你要是说你学adobe全家桶，会用coreldraw？那么ps一定要学！！！把顶点缩放模糊模糊上色写的漂亮点，那这个学位上你将是个很棒的业余爱好者了！你还要学模型渲染，特效渲染，音效渲染，爆炸渲染！还要学各种渲染器！搞渲染器一定会耗时费钱你还要对专业课学的很熟练！那你的专业是学校的不是自己编程做游戏的！！！建筑学大一每周两次课，大二之后每天一堂课这样子（我知道这话比较糙）还要实验一下这个专业！给排水设计能扛得住的才有可能当你天天疲惫学建筑的老师，专业要是不精通，工资一定不会高的！！！而且各种渲染器分区域渲染就是这样的，每次画效果图，你会吐啊！渲染器这四年吃点东西！保证你不会找不到女朋友，起码在你面前是长相不错的！！而且这四年你还能培养点其他爱好，比如说（找到对象的话）！把四年的学业搞好，争取接触多一点其他方面的东西，以后设计的路更宽！千万不要拿毕业设计当做吃饭的手艺，不能养家糊口的！！能吃饱，这才是正事！当你最后要毕业设计的时候，你才会怀念四年虚度光阴的日子，后悔当初没有认真学习这些学位课知识！（这句话在我寒假临近毕业时）以上！。

解决方案:漫画趣解Flink实时数仓：搬橡果

采集交流 • 优采云发表了文章 • 0 个评论 • 76 次浏览 • 2022-12-10 14:52 • 来自相关话题

解决方案:漫画趣解Flink实时数仓：搬橡果
　　1 底漆（移动橡子）
　　入冬了，我和小伙伴们开始囤年货了。
　　今年干了半年多，我们收获了一整车的橡子。我们小松鼠喜欢把这些心爱的橡子放在储藏室里。
　　于是我今天早早起床，开始搬这些橡子。
　　过了一会儿，慧慧突然告诉我，她想吃昨天摘的一个灰色的小橡子。
　　我看着眼前堆积如山的年货，苦恼地摸了摸自己的脑袋：等我搬到那个给你。
　　慧慧很不高兴，嘀咕道：为什么我们昨天一脱下来就不能动呢？
　　我解释说：我们每年存的钱只够买一辆车一起搬家吗？
　　看着一旁生气的灰灰，我放慢了背的速度~
　　抬头看着高高的橡子堆，他叹了口气。他一边拿着，一边寻找自己想要的小橡子。. .
　　今天怕是走不动了~
　　2 慢还是快？
　　总而言之，我们在故事中遇到了一些小烦恼：
　　关键词：速度慢、体量大、时效性差、搜索快、溯源性差。.
　　带着这个小故事，我回到了本文的主题。
　　这些关键词也是企业实时数仓建设中经常遇到的一些困难和诉求。
　　2.1 企业实时数仓建设需求
　　大多数企业都面临着数据来源多、结构复杂的问题。为了更好地管理数据和赋能价值，他们往往在集团和部门内部建立数据仓库。
　　一般初期的数据仓库开发流程大致如下：
　　初始业务数据仓库开发过程
　　可以想象，随着业务需求的不断增加，这种烟囱式的开发模式会暴露出很多问题：
　　为此，大量企业的数据团队开始规划数据仓库，对数据进行分层。
　　数据仓库分层架构
　　数据组织成分层存储，每一层独立处理。整体遵循自下而上的构建思路，最大限度地为数据赋能。
　　2.2 稳定的离线数据仓库
　　商业场景
　　要求每天出具每日用户访问PV和UV流量报表，并将结果输出到业务数据库
　　在前期的规划中，在对实时数据要求不高的前提下，我们一开始基本上会选择搭建离线数仓。
　　离线数仓建设流程
　　1）技术实现
　　2）优点和缺点
　　3）改进
　　既然知道了 Hive 的计算速度比较慢，但是我们又不想放弃它高效的存储和查询功能。
　　那我们试试另一个计算引擎：Spark。
　　Spark离线数仓流程
　　整体流程不变，主要是Spark负责ods->dwd->dws层的数据处理。效果很明显，比Hive计算快很多。
　　注意Spark是内存级别的计算引擎，需要合理规划内存大小，防止OOM（内存泄漏）。
　　目前，两个离线数仓完美满足了业务需求。第二天领导看了报表统计，结果大家都很开心~
　　现在考虑另一种场景：你不想等到第二天才能看到结果，你需要实时显示指标。这时候就需要搭建一个实时数据仓库。
　　3 冗余还是可追溯性？
　　商业场景
　　实时统计每秒用户访问PV、UV流量报表，结果输出到业务数据库，支持历史数据回顾
　　既然要求达到实时效果，首先要考虑优化处理计算过程。因此，需要更换Spark，使用Flink计算引擎。
　　在技术实现上，业界常用的实时数仓架构有两种：Lambda架构和Kappa架构。
　　3.1 Lambda架构
　　
　　顾名思义，Lambda架构保留了实时和离线两种处理流程，即实时数仓和离线数仓最终会同时构建。
　　Lambda架构实时数仓流程
　　1）技术实现
　　2）优点和缺点
　　3）改进
　　针对同一个数据源被处理两次这一点，对上述Lambda架构进行了改进。
　　改进的 Lambda 实时数据仓库流程
　　通过定时刷新实时技术流各层计算结果到离线数仓，数据源唯一读取。大大减少了数据的重复计算，加快了程序的运行时间。
　　总结：数据存储，计算冗余；历史数据可追溯
　　3.2 Kappa架构
　　为了解决上述模式下数据的冗余存储和计算问题，降低技术架构的复杂度，这里引入另一种模式：Kappa架构。
　　Kappa实时数仓流程
　　1）技术实现
　　2）优点和缺点
　　总结：数据存储只计算一次；史料难以追溯
　　总的来说，虽然第一种Lambda架构有很多缺点，但它具有程序健壮性和数据完整性，所以在企业中使用会更多。
　　相反，Kappa 架构使用较少。因为Kappa架构只使用Kafka作为存储组件，需要同时满足数据完整性和实时读写，这显然很难实现。
　　Kappa架构的实时数仓之路将何去何从？
　　4 数据湖与实时数据仓库
　　我们理解Kafka的定位是消息队列，可以作为热点数据的缓存介质，但不适合数据的查询和存储。
　　如果我们能找到一个替代 Kafka 的实时数据库就好了。.
　　预期要求
　　1）能够支持数据回溯和数据更新
　　2）实现数据批量流式读写，支持实时访问
　　4.1 数据湖技术
　　近年来，随着数据湖技术的兴起，似乎出现了一线希望。
　　（图源网络）
　　目前市场上最流行的三种数据湖：Delta、Apache Hudi 和 Apache Iceberg。
　　其中Delta和Apache Hudi对大部分计算引擎的支持都不够，尤其是Delta完全源自Spark，不支持Flink。
　　其中Iceberg和Flink已经完全实现了对接机制。看看它的特点：
　　4.2 kappa架构升级
　　因此，考虑升级Kappa架构。使用Flink+Iceberg（Hudi）技术架构可以解决Kappa架构中的一些问题。
　　升级Kappa实时数仓流程
　　目前，Flink 社区对 Iceberg（Hudi）的构建已经逐渐成熟，不少已经开始基于 Flink + Iceberg（Hudi）构建企业级实时数仓。
　　更多实时数仓问题可以咨询我的wx：youlong525。
　　5 电商零售实时数仓实践
　　纸上谈兵总是肤浅，这里简单介绍一下老手之前做过的实时数仓案例。
　　使用的技术栈可能有点老，主要讨论构建思路。
　　5.1 技术架构
　　电商零售实时数仓技术架构
　　系统整体采用Flink+Spark+Kafka为主要技术栈，自下而上构建电商零售实时数据仓库，最终提供统一的数据服务。
　　1）底层利用Flink CDC技术实时抽取源数据，包括业务系统和第三方嵌入式数据（客户中心、营销中心、销售中心）。
　　// data格式
{
"data": [
{
"id": "13",
"order_id": "6BB4837EB74E4568DDA7DC67ED2CA2AD9",
"order_code": "order_x001",

"price": "135.00"
}
]
}
// flink cdc （示例）
CREATE TABLE order_detail_table (
id BIGINT,
order_id STRING,
order_code STRING,
price DECIMAL(10, 2)
) WITH (
'connector' = 'kafka',
'topic' = 'order_binlog',
'properties.bootstrap.servers' = 'localhost:9092',
'properties.group.id' = 'group001',
'canal-json.ignore-parse-errors'='true'
);

　　2）数据源经过计算引擎和决策引擎转换，构建实时详细、实时轻度汇总、实时高层汇总模型，对应数据仓库层：DWD、DWS , ADS 层。
　　初步规划技术栈为Spark Streaming + Kafka。后来由于实时性要求，改为Flink + Kafka来满足秒级响应。
　　电商实时数仓处理流程图
　　3）建立实时数据仓库模型后，将数据传输到存储介质中。包括ES、Redis、Mysql、Kafka等，最终对外提供API共享服务访问。
　　// 存储介质API服务
val esServices = new EsHandler[BaseHandler](dataFlows)
val kafkaServices = new KafkaHandler[BaseHandler](dataFlows)
val redisServices = new RedisHandler[BaseHandler](dataFlows)
val jdbcServices = new JDBCHandler[BaseHandler](dataFlows)
esServices.handle(args)
kafkaServices.handle(args)
redisServices.handle(args)
jdbcServices.handle(args)
　　4）最后对外提供API服务，为智能推荐、会员画像、数据挖掘、营销大屏等应用服务提供数据支持。
　　5.2 数据流
　　电商实时数仓数据流图
　　总体来说，从上到下，数据经过采集 -> 数据仓库详细处理、汇总 -> 应用步骤，提供实时数据仓库服务。
　　下面是用户分析的数据流程和技术路线：
　　采集用户行为数据，统计用户曝光和点击信息，构建用户画像。
　　电商实时数仓用户分析数据流程
　　6 实时数仓优化总结
　　1）实时数仓是Lambda架构还是Kappa架构？
　　这个没有标准答案。这里给个建议：一般中小型项目可能需要保证历史数据的完整性。推荐使用Lambda架构提供离线流程保障。目前Kappa架构用得不多，受场景和实时技术栈因素影响。
　　2）数据丢失了怎么办？
　　如果数据源丢失，可以重新消费（偏移位置）；如果Flink窗口数据有延迟：可以手动增加延迟时间来延迟关闭窗口；或者使用side output stream将延迟的数据保存起来，然后合并；也可以延迟数据写入存储介质，以便后续统一处理。
　　3）实时计算中的数据重复怎么办？
　　4）如何进行多个实时流的JOIN
　　Flink 内部提供了 JOIN 算子操作，包括 JOIN、window JOIN、Interval Join、connect 等算子。具体可以参考我的Flink双流JOIN文章。
　　5）如何调度实时任务和离线任务
　　给YARN任务打标签，分离离线和实时任务，提交作业时指定Label；同时调整Yarn调度参数，合理分配多个容器执行。
　　技巧:爱站SEO工具包使用异地排名操作方法
　　爱站 SEO 工具包值得
　　使用，但爱站 SEO 工具包如何使用站外排名？那么下面我们来介绍一下使用站外排名爱站SEO工具包的操作方法，相信一定会对大家有所帮助。1.打开爱站工具包，您将在异地查看爱站 SEO 工具包值得
　　
　　使用，但爱站 SEO 工具包如何使用站外排名？那么下面我们来介绍一下使用站外排名爱站SEO工具包的操作方法，相信一定会对大家有所帮助。
　　1.打开爱站工具包，您将看到此工具用于站外排名。
　　
　　2、点击远程查询，在搜索引擎中输入你想找的搜索引擎，输入你关键词
　　想要在关键词列中查找，在域名区域输入域名地址，直接点击查询，会看到可以查询的结果，如图所示：查看全部

　　解决方案:漫画趣解Flink实时数仓：搬橡果
　　1 底漆（移动橡子）
　　入冬了，我和小伙伴们开始囤年货了。
　　今年干了半年多，我们收获了一整车的橡子。我们小松鼠喜欢把这些心爱的橡子放在储藏室里。
　　于是我今天早早起床，开始搬这些橡子。
　　过了一会儿，慧慧突然告诉我，她想吃昨天摘的一个灰色的小橡子。
　　我看着眼前堆积如山的年货，苦恼地摸了摸自己的脑袋：等我搬到那个给你。
　　慧慧很不高兴，嘀咕道：为什么我们昨天一脱下来就不能动呢？
　　我解释说：我们每年存的钱只够买一辆车一起搬家吗？
　　看着一旁生气的灰灰，我放慢了背的速度~
　　抬头看着高高的橡子堆，他叹了口气。他一边拿着，一边寻找自己想要的小橡子。. .
　　今天怕是走不动了~
　　2 慢还是快？
　　总而言之，我们在故事中遇到了一些小烦恼：
　　关键词：速度慢、体量大、时效性差、搜索快、溯源性差。.
　　带着这个小故事，我回到了本文的主题。
　　这些关键词也是企业实时数仓建设中经常遇到的一些困难和诉求。
　　2.1 企业实时数仓建设需求
　　大多数企业都面临着数据来源多、结构复杂的问题。为了更好地管理数据和赋能价值，他们往往在集团和部门内部建立数据仓库。
　　一般初期的数据仓库开发流程大致如下：
　　初始业务数据仓库开发过程
　　可以想象，随着业务需求的不断增加，这种烟囱式的开发模式会暴露出很多问题：
　　为此，大量企业的数据团队开始规划数据仓库，对数据进行分层。
　　数据仓库分层架构
　　数据组织成分层存储，每一层独立处理。整体遵循自下而上的构建思路，最大限度地为数据赋能。
　　2.2 稳定的离线数据仓库
　　商业场景
　　要求每天出具每日用户访问PV和UV流量报表，并将结果输出到业务数据库
　　在前期的规划中，在对实时数据要求不高的前提下，我们一开始基本上会选择搭建离线数仓。
　　离线数仓建设流程
　　1）技术实现
　　2）优点和缺点
　　3）改进
　　既然知道了 Hive 的计算速度比较慢，但是我们又不想放弃它高效的存储和查询功能。
　　那我们试试另一个计算引擎：Spark。
　　Spark离线数仓流程
　　整体流程不变，主要是Spark负责ods->dwd->dws层的数据处理。效果很明显，比Hive计算快很多。
　　注意Spark是内存级别的计算引擎，需要合理规划内存大小，防止OOM（内存泄漏）。
　　目前，两个离线数仓完美满足了业务需求。第二天领导看了报表统计，结果大家都很开心~
　　现在考虑另一种场景：你不想等到第二天才能看到结果，你需要实时显示指标。这时候就需要搭建一个实时数据仓库。
　　3 冗余还是可追溯性？
　　商业场景
　　实时统计每秒用户访问PV、UV流量报表，结果输出到业务数据库，支持历史数据回顾
　　既然要求达到实时效果，首先要考虑优化处理计算过程。因此，需要更换Spark，使用Flink计算引擎。
　　在技术实现上，业界常用的实时数仓架构有两种：Lambda架构和Kappa架构。
　　3.1 Lambda架构
　　

顾名思义，Lambda架构保留了实时和离线两种处理流程，即实时数仓和离线数仓最终会同时构建。
　　Lambda架构实时数仓流程
　　1）技术实现
　　2）优点和缺点
　　3）改进
　　针对同一个数据源被处理两次这一点，对上述Lambda架构进行了改进。
　　改进的 Lambda 实时数据仓库流程
　　通过定时刷新实时技术流各层计算结果到离线数仓，数据源唯一读取。大大减少了数据的重复计算，加快了程序的运行时间。
　　总结：数据存储，计算冗余；历史数据可追溯
　　3.2 Kappa架构
　　为了解决上述模式下数据的冗余存储和计算问题，降低技术架构的复杂度，这里引入另一种模式：Kappa架构。
　　Kappa实时数仓流程
　　1）技术实现
　　2）优点和缺点
　　总结：数据存储只计算一次；史料难以追溯
　　总的来说，虽然第一种Lambda架构有很多缺点，但它具有程序健壮性和数据完整性，所以在企业中使用会更多。
　　相反，Kappa 架构使用较少。因为Kappa架构只使用Kafka作为存储组件，需要同时满足数据完整性和实时读写，这显然很难实现。
　　Kappa架构的实时数仓之路将何去何从？
　　4 数据湖与实时数据仓库
　　我们理解Kafka的定位是消息队列，可以作为热点数据的缓存介质，但不适合数据的查询和存储。
　　如果我们能找到一个替代 Kafka 的实时数据库就好了。.
　　预期要求
　　1）能够支持数据回溯和数据更新
　　2）实现数据批量流式读写，支持实时访问
　　4.1 数据湖技术
　　近年来，随着数据湖技术的兴起，似乎出现了一线希望。
　　（图源网络）
　　目前市场上最流行的三种数据湖：Delta、Apache Hudi 和 Apache Iceberg。
　　其中Delta和Apache Hudi对大部分计算引擎的支持都不够，尤其是Delta完全源自Spark，不支持Flink。
　　其中Iceberg和Flink已经完全实现了对接机制。看看它的特点：
　　4.2 kappa架构升级
　　因此，考虑升级Kappa架构。使用Flink+Iceberg（Hudi）技术架构可以解决Kappa架构中的一些问题。
　　升级Kappa实时数仓流程
　　目前，Flink 社区对 Iceberg（Hudi）的构建已经逐渐成熟，不少已经开始基于 Flink + Iceberg（Hudi）构建企业级实时数仓。
　　更多实时数仓问题可以咨询我的wx：youlong525。
　　5 电商零售实时数仓实践
　　纸上谈兵总是肤浅，这里简单介绍一下老手之前做过的实时数仓案例。
　　使用的技术栈可能有点老，主要讨论构建思路。
　　5.1 技术架构
　　电商零售实时数仓技术架构
　　系统整体采用Flink+Spark+Kafka为主要技术栈，自下而上构建电商零售实时数据仓库，最终提供统一的数据服务。
　　1）底层利用Flink CDC技术实时抽取源数据，包括业务系统和第三方嵌入式数据（客户中心、营销中心、销售中心）。
　　// data格式
{
"data": [
{
"id": "13",
"order_id": "6BB4837EB74E4568DDA7DC67ED2CA2AD9",
"order_code": "order_x001",

"price": "135.00"
}
]
}
// flink cdc （示例）
CREATE TABLE order_detail_table (
id BIGINT,
order_id STRING,
order_code STRING,
price DECIMAL(10, 2)
) WITH (
'connector' = 'kafka',
'topic' = 'order_binlog',
'properties.bootstrap.servers' = 'localhost:9092',
'properties.group.id' = 'group001',
'canal-json.ignore-parse-errors'='true'
);

　　2）数据源经过计算引擎和决策引擎转换，构建实时详细、实时轻度汇总、实时高层汇总模型，对应数据仓库层：DWD、DWS , ADS 层。
　　初步规划技术栈为Spark Streaming + Kafka。后来由于实时性要求，改为Flink + Kafka来满足秒级响应。
　　电商实时数仓处理流程图
　　3）建立实时数据仓库模型后，将数据传输到存储介质中。包括ES、Redis、Mysql、Kafka等，最终对外提供API共享服务访问。
　　// 存储介质API服务
val esServices = new EsHandler[BaseHandler](dataFlows)
val kafkaServices = new KafkaHandler[BaseHandler](dataFlows)
val redisServices = new RedisHandler[BaseHandler](dataFlows)
val jdbcServices = new JDBCHandler[BaseHandler](dataFlows)
esServices.handle(args)
kafkaServices.handle(args)
redisServices.handle(args)
jdbcServices.handle(args)
　　4）最后对外提供API服务，为智能推荐、会员画像、数据挖掘、营销大屏等应用服务提供数据支持。
　　5.2 数据流
　　电商实时数仓数据流图
　　总体来说，从上到下，数据经过采集 -> 数据仓库详细处理、汇总 -> 应用步骤，提供实时数据仓库服务。
　　下面是用户分析的数据流程和技术路线：
　　采集用户行为数据，统计用户曝光和点击信息，构建用户画像。
　　电商实时数仓用户分析数据流程
　　6 实时数仓优化总结
　　1）实时数仓是Lambda架构还是Kappa架构？
　　这个没有标准答案。这里给个建议：一般中小型项目可能需要保证历史数据的完整性。推荐使用Lambda架构提供离线流程保障。目前Kappa架构用得不多，受场景和实时技术栈因素影响。
　　2）数据丢失了怎么办？
　　如果数据源丢失，可以重新消费（偏移位置）；如果Flink窗口数据有延迟：可以手动增加延迟时间来延迟关闭窗口；或者使用side output stream将延迟的数据保存起来，然后合并；也可以延迟数据写入存储介质，以便后续统一处理。
　　3）实时计算中的数据重复怎么办？
　　4）如何进行多个实时流的JOIN
　　Flink 内部提供了 JOIN 算子操作，包括 JOIN、window JOIN、Interval Join、connect 等算子。具体可以参考我的Flink双流JOIN文章。
　　5）如何调度实时任务和离线任务
　　给YARN任务打标签，分离离线和实时任务，提交作业时指定Label；同时调整Yarn调度参数，合理分配多个容器执行。
　　技巧:爱站SEO工具包使用异地排名操作方法
　　爱站 SEO 工具包值得
　　使用，但爱站 SEO 工具包如何使用站外排名？那么下面我们来介绍一下使用站外排名爱站SEO工具包的操作方法，相信一定会对大家有所帮助。1.打开爱站工具包，您将在异地查看爱站 SEO 工具包值得

　　使用，但爱站 SEO 工具包如何使用站外排名？那么下面我们来介绍一下使用站外排名爱站SEO工具包的操作方法，相信一定会对大家有所帮助。
　　1.打开爱站工具包，您将看到此工具用于站外排名。
　　

　　2、点击远程查询，在搜索引擎中输入你想找的搜索引擎，输入你关键词
　　想要在关键词列中查找，在域名区域输入域名地址，直接点击查询，会看到可以查询的结果，如图所示：

分享文章:公众号排版文章批量导出-免费公众号文章批量导出排版

采集交流 • 优采云发表了文章 • 0 个评论 • 186 次浏览 • 2022-12-06 05:43 • 来自相关话题

　　分享文章:公众号排版文章批量导出-免费公众号文章批量导出排版
　　作为一名自媒体编辑，我一直密切关注着很多文章写的非常好的公众号文章，每次都会学习他们的写作方法和思维方式。但是，每当我专心学习时，在手机上一一检查与文章的链接就比较麻烦了。这是一个令人头疼的问题，我想永远在计算机上保存好文章。我相信很多人会和我一样想。
　　如果可以将官方帐户的所有历史记录文章下载到计算机上，那会更方便。
　　但是如何做一个小工具来实现这个功能，无疑是最方便的就是用Python写代码，但对于大多数白人来说，这仍然是一个非常复杂的事件，如果为了批量下载微信文章还要刻意学习Python语言，成本太大了。
　　
　　前段时间我自己写了一个，微信公众号文章搜索导出助手
　　自己用的效果还是很不错的，微信文章图片、视频音乐，包括文章留言都做完了！
　　
　　排版还是相当不错的
　　内容分享:今日头条一键采集器一键抓取头条文章内容
　　本插件可用于在发帖页面一键发采集今日头条文章，支持图片本地化，可设置使用的论坛和用户组
　　两个版本的区别
　　单机版：不依赖其他插件，购买后即可使用，支持论坛和门户
　　
　　非单机版：免费，但依赖今日头条汽车采集插件，需先购买、下载安装今日头条汽车采集插件
　　评论：
　　本插件仅针对采集今日头条、图文资讯文章、图片库，不针对采集投票、视频、问答等。
　　
　　本插件需要php支持curl，curl可以正常获取https链接内容查看全部

　　分享文章:公众号排版文章批量导出-免费公众号文章批量导出排版
　　作为一名自媒体编辑，我一直密切关注着很多文章写的非常好的公众号文章，每次都会学习他们的写作方法和思维方式。但是，每当我专心学习时，在手机上一一检查与文章的链接就比较麻烦了。这是一个令人头疼的问题，我想永远在计算机上保存好文章。我相信很多人会和我一样想。
　　如果可以将官方帐户的所有历史记录文章下载到计算机上，那会更方便。
　　但是如何做一个小工具来实现这个功能，无疑是最方便的就是用Python写代码，但对于大多数白人来说，这仍然是一个非常复杂的事件，如果为了批量下载微信文章还要刻意学习Python语言，成本太大了。
　　

　　前段时间我自己写了一个，微信公众号文章搜索导出助手
　　自己用的效果还是很不错的，微信文章图片、视频音乐，包括文章留言都做完了！
　　

　　排版还是相当不错的
　　内容分享:今日头条一键采集器一键抓取头条文章内容
　　本插件可用于在发帖页面一键发采集今日头条文章，支持图片本地化，可设置使用的论坛和用户组
　　两个版本的区别
　　单机版：不依赖其他插件，购买后即可使用，支持论坛和门户
　　

　　非单机版：免费，但依赖今日头条汽车采集插件，需先购买、下载安装今日头条汽车采集插件
　　评论：
　　本插件仅针对采集今日头条、图文资讯文章、图片库，不针对采集投票、视频、问答等。
　　

　　本插件需要php支持curl，curl可以正常获取https链接内容

测评:快优助手和优采云采集器哪个好？优采云采集器和快优助手对比

采集交流 • 优采云发表了文章 • 0 个评论 • 112 次浏览 • 2022-12-02 17:46 • 来自相关话题

　　测评:快优助手和优采云
采集器哪个好？优采云
采集器和快优助手对比
　　除了让媒体号的运营更简单，快游助手还可以轻松管理矩阵号，或者对单个号进行深度运营设计，是最好用的免费运营工具之一。那么，快游助手和优采云
采集器
哪个更好呢？针对这个问题，今天小编为大家带来了优采云
采集器与快游助手的对比。
　　快游助手
　　快游助手是一款非常好用的自媒体运营工具。每天可更新上百万篇文章，涵盖各个行业和垂直领域。热门内容和优质原创文章，助您快速发现或创作优质内容。快游助手让媒体号的操作变得更简单，轻松管理矩阵号，或者单个大号的深度操作。
　　特征
　　1. 快速搜索/创造优质文章
　　每天更新超过百万篇文章，涵盖各个行业和垂直领域。热门内容和优质原创文章，助您快速发现或创作优质内容。
　　2.一站式账号管理、素材采集、内容创作、数据分析运营神器
　　所有平台/所有终端/全部免费。
　　3. 快速分析/多维数据分析
　　多维数据，让您每天了解最新的账户数据，助您写出爆款文章。
　　
　　4.强大的编辑器创建和采集
素材，并根据文章推导符合新媒体机制的推荐关键词
　　在线图片搜索/精美款式/多维分析。
　　小编推荐：快游助手下载
　　优采云
采集器
　　优采云
Collector是谷歌原技术团队打造的一款网页数据采集
软件。可视化点击，一键采集网页数据。全平台可用，Win/Mac/Linux，优采云
采集设备的采集导出全部免费，无限制使用，可后台运行，速度实时显示。
　　特征
　　1.可视化定制采集流程
　　全程问答指导，可视化操作，自定义采集流程。
　　自动记录和模拟网页操作顺序。
　　高级设置满足更多采集
需求。
　　2.点击提取网页数据
　　
　　鼠标点击选择要抓取的网页内容，操作简单。
　　可选择提取文本、链接、属性、html 标签等。
　　3.运行批量数据采集
　　软件根据采集流程和提取规则自动批量采集。
　　快速稳定，实时显示采集速度和过程。
　　软件可以切换到后台运行，不影响前台工作。
　　4.导出并发布采集
的数据
　　采集的数据自动制表，字段自由配置。
　　支持数据导出到Excel等本地文件。
　　并一键发布到CMS网站/数据库/微信公众号等媒体。
　　小编推荐：优采云
采集
下载
　　汇总:众大云采集织梦无限制
　　中大云采集
织梦无限是一款非常好用的网页数据采集
工具，可以帮助用户采集
网页的各种内容，通过关键词搜索智能采集
相关信息和实时热点。欢迎下载使用！
　　插件功能
　　1.中大云集可以批量注册马甲用户。发帖人和评论使用马甲，看起来和真实注册用户发的一模一样。
　　2、中大云采集
可以批量采集发布，任何优质内容都可以在短时间内转发到您的论坛和门户。
　　3、中大云采集可定时采集自动发布，实现无人值守。
　　
　　4、采集内容可进行简繁体转换、伪原创等二次加工。
　　5、中大云采集支持前台采集，可以授权指定普通注册用户在前台使用本采集器，让普通注册会员帮你采集内容。
　　6、采集
的内容图片可以正常显示并保存为帖子图片附件或传送门文章附件，图片永不丢失。
　　7、图片附件支持远程FTP存储，让您将图片单独存放到另一台服务器上。
　　8. 图片会加上您的论坛或门户设置的水印。
　　9.已经采集
的内容不会重复采集
，内容不会重复。
　　1、中大云发布的帖子或门户文章、群组与真实用户发布的完全一致，其他人无法知道是否使用采集器发帖。
　　
　　11、浏览量会自动随机设置，感觉你的帖子或传送门文章的浏览量和真实的一样。
　　12、中大云集可以指定帖子发布者（楼主）、门户文章作者、群发帖者。
　　13、采集
的内容可以发布到论坛任意版块、门户任意栏目、群任意圈子。
　　14、中大云集一键获取当日实时热点内容，一键发布。
　　15、不限制内容采集量和采集次数，让您的网站快速充斥优质内容。
　　16.插件内置文本提取算法。前台发布内容时，输入网址即可采集内容。查看全部

　　测评:快优助手和优采云
采集器哪个好？优采云
采集器和快优助手对比
　　除了让媒体号的运营更简单，快游助手还可以轻松管理矩阵号，或者对单个号进行深度运营设计，是最好用的免费运营工具之一。那么，快游助手和优采云
采集器
哪个更好呢？针对这个问题，今天小编为大家带来了优采云
采集器与快游助手的对比。
　　快游助手
　　快游助手是一款非常好用的自媒体运营工具。每天可更新上百万篇文章，涵盖各个行业和垂直领域。热门内容和优质原创文章，助您快速发现或创作优质内容。快游助手让媒体号的操作变得更简单，轻松管理矩阵号，或者单个大号的深度操作。
　　特征
　　1. 快速搜索/创造优质文章
　　每天更新超过百万篇文章，涵盖各个行业和垂直领域。热门内容和优质原创文章，助您快速发现或创作优质内容。
　　2.一站式账号管理、素材采集、内容创作、数据分析运营神器
　　所有平台/所有终端/全部免费。
　　3. 快速分析/多维数据分析
　　多维数据，让您每天了解最新的账户数据，助您写出爆款文章。
　　

　　4.强大的编辑器创建和采集
素材，并根据文章推导符合新媒体机制的推荐关键词
　　在线图片搜索/精美款式/多维分析。
　　小编推荐：快游助手下载
　　优采云
采集器
　　优采云
Collector是谷歌原技术团队打造的一款网页数据采集
软件。可视化点击，一键采集网页数据。全平台可用，Win/Mac/Linux，优采云
采集设备的采集导出全部免费，无限制使用，可后台运行，速度实时显示。
　　特征
　　1.可视化定制采集流程
　　全程问答指导，可视化操作，自定义采集流程。
　　自动记录和模拟网页操作顺序。
　　高级设置满足更多采集
需求。
　　2.点击提取网页数据
　　

　　鼠标点击选择要抓取的网页内容，操作简单。
　　可选择提取文本、链接、属性、html 标签等。
　　3.运行批量数据采集
　　软件根据采集流程和提取规则自动批量采集。
　　快速稳定，实时显示采集速度和过程。
　　软件可以切换到后台运行，不影响前台工作。
　　4.导出并发布采集
的数据
　　采集的数据自动制表，字段自由配置。
　　支持数据导出到Excel等本地文件。
　　并一键发布到CMS网站/数据库/微信公众号等媒体。
　　小编推荐：优采云
采集
下载
　　汇总:众大云采集织梦无限制
　　中大云采集
织梦无限是一款非常好用的网页数据采集
工具，可以帮助用户采集
网页的各种内容，通过关键词搜索智能采集
相关信息和实时热点。欢迎下载使用！
　　插件功能
　　1.中大云集可以批量注册马甲用户。发帖人和评论使用马甲，看起来和真实注册用户发的一模一样。
　　2、中大云采集
可以批量采集发布，任何优质内容都可以在短时间内转发到您的论坛和门户。
　　3、中大云采集可定时采集自动发布，实现无人值守。
　　

　　4、采集内容可进行简繁体转换、伪原创等二次加工。
　　5、中大云采集支持前台采集，可以授权指定普通注册用户在前台使用本采集器，让普通注册会员帮你采集内容。
　　6、采集
的内容图片可以正常显示并保存为帖子图片附件或传送门文章附件，图片永不丢失。
　　7、图片附件支持远程FTP存储，让您将图片单独存放到另一台服务器上。
　　8. 图片会加上您的论坛或门户设置的水印。
　　9.已经采集
的内容不会重复采集
，内容不会重复。
　　1、中大云发布的帖子或门户文章、群组与真实用户发布的完全一致，其他人无法知道是否使用采集器发帖。
　　

　　11、浏览量会自动随机设置，感觉你的帖子或传送门文章的浏览量和真实的一样。
　　12、中大云集可以指定帖子发布者（楼主）、门户文章作者、群发帖者。
　　13、采集
的内容可以发布到论坛任意版块、门户任意栏目、群任意圈子。
　　14、中大云集一键获取当日实时热点内容，一键发布。
　　15、不限制内容采集量和采集次数，让您的网站快速充斥优质内容。
　　16.插件内置文本提取算法。前台发布内容时，输入网址即可采集内容。

解决方案:【目标检测】英雄联盟能用YOLOv5实时目标检测了支持onnx推理

采集交流 • 优采云发表了文章 • 0 个评论 • 173 次浏览 • 2022-11-30 10:53 • 来自相关话题

解决方案:【目标检测】英雄联盟能用YOLOv5实时目标检测了支持onnx推理
　　目录
　　一、项目介绍
　　dcmyolo（梦想创造奇迹），中文：大智能物体检测工具包。该项目基于pytorch构建。构建的目的是提供一个性能更好的YOLO版本。同时拥有丰富的中文教程和详细的源码解读。提供了算法工具箱，给出了不同体积模型的实验数据，为算法的实现提供了指导。来的方便。为了方便开发者，项目开箱即用。推理阶段，直接把test dcmyolo目录放到项目中，实例化一个类，然后调用。
　　很多教程都是基于coco和voc数据集，我也会提供基于coco数据集的预训练模型。为了增加趣味性，我将以英雄联盟中英雄、小兵、塔的检测为例，详细介绍dcmyolo的使用。
　　项目链接：
　　资料链接：提取码：faye
　　测试视频：提取码：faye
　　预训练模型：提取码：faye
　　标注工具：提取码：faye
　　效果演示：英雄联盟可以使用YOLOv5实时目标检测_英雄联盟
　　2.项目结构
　　dcmyolo项目主目录
　　+数据存储训练和测试数据
　　- dcmyolo实现了项目的所有核心功能，移植时直接测试该目录即可
　　- 模型模型构建相关
　　+ backbone 各种backbone，目前只有CSPdarknet，未来会不断丰富
　　yolo_body.py构建模型的类，实例化后使用
　　+ model_data 存储模型文件
　　+ utils 工具类
　　labelme2voc.py 将labelme的json文件转为voc格式
　　voc2annotation_txt.py 将VOC格式转换成项目需要的格式
　　make_anchors.py 生成数据集的anchors文件
　　train_dcmyolo.py 执行训练
　　export.py 导出onnx等格式的文件
　　predict_dcmyolo.py 推理演示
　　predict_onnx.pypth 转换onnx，onnx进行推理demo
　　3.准备数据
　　我们需要制作三个文件train.txt、val.txt、test.txt，格式如下：
　　data/wangzhe/JPEGImages/1.jpg 910,504,1035,633,0 1759,113,1920,383,2
data/wangzhe/JPEGImages/10.jpg 805,189,1060,570,0 1,649,273,935,2 1636,70,1823,182,2
data/wangzhe/JPEGImages/100.jpg 896,258,1254,550,3
data/wangzhe/JPEGImages/101.jpg 869,416,1059,591,0 277,295,464,407,4 1024,311,1369,640,3
　　文件中一张图片为一行，一行中的每条信息以空格分隔。第一块是图片存放的路径。这里我们放在项目中的data/wangzhe/JPEGImages目录下；其余几块表示方框的位置和类别，每段用逗号分成5个部分，分别代表左上x、左上y、右下x、右下y，以及所属类别的索引他们属于哪个。
　　如果只有图片，没有标签，我们需要进行下面的数据标注和数据格式转换步骤。这个过程非常简单，而且是体力劳动。
　　如果使用开源数据集，我们需要自己将数据集的标注文件转换成上述格式，不需要下面的步骤。
　　如果你用的是我整理的英雄联盟手游数据，直接下载数据解压到项目的data目录下，就可以直接使用了，不需要下面的步骤。
　　1、数据标注
　　这一步是用来制作我们自己的数据集的。我们使用 labelme 作为标注工具。标注好后，我们使用脚本将标注文件转成voc格式，再从voc转成我们需要的格式。上面是labelme的下载链接，解压后使用方法如下：
　　（1）双击main.exe打开labelme
　　(2) 选择要标注的图片目录。这里我准备了100多张英雄联盟的截图，比如项目中的data/wangzhe_org/目录。
　　（3）右侧会列出该文件夹下的所有图片，选择一张图片，在图片区域右击选择矩形
　　（4）选择一个矩形框的目标（英雄），填写类别名称，点击确定完成一个目标的标注。注意：一定要选择从左上角到右下角的边框；在同一张图片中标记尽可能多的目标，不要错过它们；同一类别的名称必须相同，不同类别的名称不能相同；类别名称使用英文（区分大小写），无标点符号。
　　(5)标记一张图片后，选择下一张图片时，会提示保存json文件，保存到默认目录即可，不要更改目录。
　　2.数据转换格式
　　我们已经得到了labelme生成的json格式的标准文件，我们需要先将其转换成VOC格式，然后再转换成我们需要的格式。
　　(1) 转换成VOC格式
　　执行工程中的labelme2voc.py文件，示例如下：
　　'''
data/wangzhe_org/: 存放原图片和labelme生成的json文件的目录
data/wangzhe/: 目标目录
labels: 存放所有列表标签的文件，英雄联盟的数据集标签文件已经放在项目的dcmyolo/model_data/wangzhe_classes.txt文件中
'''
python labelme2voc.py data/wangzhe_org/ data/wangzhe/ --labels dcmyolo/model_data/wangzhe_classes.txt
　　其中，dcmyolo/model_data/wangzhe_classes.txt文件，共有3种标签文件如下：
　　Hero
Solider
Tower
　　VOC格式有以下4个文件，Annotations存放标签文件，AnnotationsVisualization存放用方框标注的图片，方便我们查看，JPEGImages存放图片，class_names.txt存放所有类别的标签。接下来我们将只使用 Annotations 和 JPEGImages：
　　（2）转换工程需要的格式
　　执行项目中的voc2annotation_txt.py文件，示例如下：
　　'''
classes_path: 存放标签种类的文件
data_dir: 存数据的目录，写到Annotations上一级
trainval_percent: 用于指定(训练集+验证集)与测试集的比例，默认情况下 9:1
train_percent: 用于指定(训练集+验证集)中训练集与验证集的比例，默认情况下 9:1
'''
python voc2annotation_txt.py --classes_path dcmyolo/model_data/wangzhe_classes.txt --data_dir data/wangzhe/ --trainval_percent 0.95 --train_percent 0.95
　　至此我们已经生成了项目需要的标签文件，可以进行训练了。
　　4.执行力训练
　　所有数据文件和配置文件的文件名和目录都是可以自定义的，下面我会按照自己的习惯存放这些文件。
　　
　　1.锚文件
　　文件放在dcmyolo/model_data/wangzhe_classes.txt
　　原来yolov5提到的改进之一就是不需要手动生成anchors。事实上，生成anchor的方法在训练之前就被丢弃了。我比较习惯手动生成anchor，也不麻烦。
　　anchors的作用下一篇讲原理的时候会提到，现在我们只需要生成即可，使用make_anchors.py生成：
　　'''
txt_path: 标注文件txt
anchors_path: anchors文件txt
clusters: 聚类的数目,一般情况下是9
input_size: 模型中图像的输入尺寸
'''
python make_anchors.py --txt_path data/wangzhe/train.txt --anchors_path dcmyolo/model_data/wangzhe_anchors.txt --clusters 9 --input_size 640
　　生成的文件 wangzhe_anchors.txt 如下所示：
　　25,44,30,58,37,64,50,68,42,91,55,104,71,113,62,141,91,256
　　2.标签文件
　　文件放在dcmyolo/model_data/wangzhe_classes.txt，内容是标注三类，每行一类：
　　Hero
Solider
Tower
　　3.预训练模型
　　下载好预训练模型后，解压放到dcmyolo/model_data/下。
　　预训练模型有两种，backbone和yolov5。Backbone只是在imagenet上预训练的分类模型，yolov5是在coco数据集上训练的yolov5模型。如果同时加载了backbone和yolov5预训练模型，backbone参数会被覆盖。yolov5预训练模型收录
了一些backbone没有的卷积层。如果fine-tuning推荐使用yolov5预训练模型，收敛会更快。
　　4.训练数据
　　将上述数据集解压，放到data目录下。
　　如果是自己标注的数据，将三个核心文件train.txt、val.txt、test.txt放在data/wangzhe/目录下，同时保证这三个文件中的图片路径正确. 结构如下，其中ImageSets目录为临时目录，不用于训练，可以省略。
　　5.修改配置
　　所有参数的定义和注释如下，为了节省篇幅，去掉了之前的parser.add_argument：
　　('--classes_path', type=str, default='dcmyolo/model_data/coco_classes.txt', help="类别标签文件路径")
('--anchors_path', type=str, default='dcmyolo/model_data/coco_anchors.txt', help="anchors文件路径")
('--train_annotation_path', type=str, default='data/coco/train.txt', help="存放训练集图片路径和标签的txt")
('--val_annotation_path', type=str, default='data/coco/val.txt', help="存放验证图片路径和标签的txt")
('--phi', type=str, default='s', help="所使用的YoloV5的版本。n、s、m、l、x")
# ---------------------------------------------------------------------#
# --backbone_model_dir参数
# 如果有backbone的预训练模型，可以backbone预训练模型目录，当model_path不存在的时候不加载整个模型的权值。
# 只写到模型文件的上一级目录即可，文件名会根据phi自动计算（前提是从百度网盘下载的模型文件名没改）
# ---------------------------------------------------------------------#
('--backbone_model_dir', type=str, default='dcmyolo/model_data/', help="backbone的预训练模型，写到上一级目录即可")
('--model_path', type=str, default='dcmyolo/model_data/pretrained.pth', help="yolov5预训练模型的路径")
('--save_period', type=int, default=10, help="多少个epoch保存一次权值")
('--save_dir', type=str, default='logs_wangzhe', help="权值与日志文件保存的文件夹")
('--input_shape', nargs='+', type=int, default=[640, 640], help="输入的shape大小，一定要是32的倍数")
('--use_fp16', action='store_true', help="是否使用混合精度训练")
#------------------------------------------------------------------#
# mosaic 马赛克数据增强。
# mosaic_prob 每个step有多少概率使用mosaic数据增强，默认50%。
#
# mixup 是否使用mixup数据增强，仅在mosaic=True时有效。
# 只会对mosaic增强后的图片进行mixup的处理。
# mixup_prob 有多少概率在mosaic后使用mixup数据增强，默认50%。
# 总的mixup概率为mosaic_prob * mixup_prob。
#
# special_aug_ratio 参考YoloX，由于Mosaic生成的训练图片，远远脱离自然图片的真实分布。
# 当mosaic=True时，本代码会在special_aug_ratio范围内开启mosaic。
# 默认为前70%个epoch，100个世代会开启70个世代。
#------------------------------------------------------------------#
('--use_mosaic', action='store_true', help="是否使用马赛克数据增强")
('--mosaic_prob', type=float, default=0.5, help="每个step有多少概率使用mosaic数据增强")
('--use_mixup', action='store_true', help="是否使用mixup数据增强，仅在mosaic=True时有效")
('--mixup_prob', type=float, default=0.5, help="有多少概率在mosaic后使用mixup数据增强")
('--special_aug_ratio', type=float, default=0.7, help="当mosaic=True时，会在该范围内开启mosaic")
('--epoch', type=int, default=100, help="总迭代次数")
('--batch_size', type=int, default=128, help="每批次取多少张图片")
('--label_smoothing', type=float, default=0, help="是否开启标签平滑")
('--init_lr', type=float, default=1e-2, help="初始学习率")
('--min_lr', type=float, default=1e-4, help="最小学习率")
('--optimizer_type', type=str, default="sgd", help="使用到的优化器种类，可选的有adam、sgd")
('--momentum', type=float, default=0.937, help="优化器内部使用到的momentum参数")
('--weight_decay', type=float, default=5e-4, help="权值衰减，可防止过拟合")
('--lr_decay_type', type=str, default="step", help="使用到的学习率下降方式，可选的有step、cos")
('--eval_flag', action='store_true', help="是否在训练时进行评估，评估对象为验证集")
('--eval_period', type=int, default=10, help="代表多少个epoch评估一次")
('--num_workers', type=int, default=4, help="多少个线程读取数据")
　　示例脚本 train_dcmyolo.sh：
　　for i in $(ps -ax |grep train_dcmyolo |awk '{print $1}')
do
id=`echo $i |awk -F"/" '{print $1}'`

kill -9 $id
done
nohup python -u train_dcmyolo.py \
--classes_path dcmyolo/model_data/wangzhe_classes.txt \
--anchors_path dcmyolo/model_data/coco_anchors.txt \
--train_annotation_path data/wangzhe/train.txt \
--val_annotation_path data/wangzhe/val.txt \
--save_dir logs_wangzhe \
--phi s \
--backbone_model_dir dcmyolo/model_data \
--model_path dcmyolo/model_data/yolov5_s.pth \
--input_shape 640 640 \
--batch_size 4 \
--epoch 1000 \
--save_period 100 \
> log_train_dcmyolo.log &
tail -f log_train_dcmyolo.log

　　6.执行力训练
　　执行以下脚本进行训练，训练结果会放在logs_wangzhe目录下。
　　./train_dcmyolo.sh
　　五、执行预测
　　推理和预测方法都在predict_dcmyolo.py中，可以检测图片、检测视频和热图。所有参数定义如下。同样为了节省空间，移除了parser.add_argument：
　　('--operation_type', type=str, default='', help="操作类型export_onnx / predict_image / predict_video")
('--model_path', type=str, default='', help="pth模型的路径")
('--classes_path', type=str, default='', help="分类标签文件")
('--anchors_path', type=str, default='', help="anchors文件")
('--onnx_path', type=str, default='', help="onnx保存路径")
('--video_path', type=str, default='', help="视频时才会用到，视频的路径")
('--video_save_path', type=str, default='', help="视频时才会用到，视频检测之后的保存路径")
('--phi', type=str, default='', help="所使用的YoloV5的版本。n、s、m、l、x")
('--no_simplify', action='store_false', help="不使用onnxsim简化模型")
('--input_shape', nargs='+', type=int, default=[640, 640], help="输入的shape大小，一定要是32的倍数")
('--append_nms', action='store_true', help="添加nms")
('--iou_threshold', type=float, default=0.3, help="两个bbox的iou超过这个值会被认为是同一物体")
('--score_threshold', type=float, default=0.5, help="检测物体的概率小于这个值将会被舍弃")
　　1.检测图片
　　检测图片，示例脚本如下：
　　python predict_dcmyolo.py --operation_type predict_image --model_path dcmyolo/model_data/wangzhe_best_weights.pth --classes_path dcmyolo/model_data/wangzhe_classes.txt --anchors_path dcmyolo/model_data/coco_anchors.txt
　　在控制台输入图片路径，会显示检测结果：
　　2.检测视频
　　测试视频可以从上面的链接下载。示例脚本如下，检测结果会放在指定的输出位置：
　　python predict_dcmyolo.py --operation_type predict_video --model_path dcmyolo/model_data/wangzhe_best_weights.pth --classes_path dcmyolo/model_data/wangzhe_classes.txt --anchors_path dcmyolo/model_data/coco_anchors.txt --video_path data/video/wangzhe1.mp4 --video_save_path_path data/video/wangzhe1_out.mp4
　　3.热图
　　示例脚本如下：
　　python predict_dcmyolo.py --operation_type heatmap --model_path dcmyolo/model_data/wangzhe_best_weights.pth --classes_path dcmyolo/model_data/wangzhe_classes.txt --anchors_path dcmyolo/model_data/coco_anchors.txt --heatmap_save_path data/heatmap.jpg
　　与检测图片类似，在控制台输入图片路径，即可显示热图。可以清楚地看到激活区域，证明模型确实很好地检测到了目标。
　　5.转换onnx
　　将模型导出为onnx格式，有利于模型加速，便于模型部署。所有onnx相关的方法都放在predict_onnx.py中。可以导出onnx文件，检测图片，检测视频。所有参数定义如下。同样为了节省空间，移除了parser.add_argument：
　　('--operation_type', type=str, default='', help="操作类型export_onnx / predict_image / predict_video")
('--model_path', type=str, default='', help="pth模型的路径")
('--classes_path', type=str, default='', help="分类标签文件")
('--anchors_path', type=str, default='', help="anchors文件")
('--onnx_path', type=str, default='', help="onnx保存路径")
('--video_path', type=str, default='', help="视频时才会用到，视频的路径")
('--video_save_path', type=str, default='', help="视频时才会用到，视频检测之后的保存路径")
('--phi', type=str, default='', help="所使用的YoloV5的版本。n、s、m、l、x")
('--no_simplify', action='store_false', help="不使用onnxsim简化模型")
('--input_shape', nargs='+', type=int, default=[640, 640], help="输入的shape大小，一定要是32的倍数")
('--append_nms', action='store_true', help="添加nms")
('--iou_threshold', type=float, default=0.3, help="两个bbox的iou超过这个值会被认为是同一物体")
('--score_threshold', type=float, default=0.5, help="检测物体的概率小于这个值将会被舍弃")
　　1.导出onnx文件
　　建议导出的onnx收录
nms，这样可以直接使用onnx输出的结果，不需要程序进行后期处理。加上--append_nms参数，可以让联通nms导出，onnx结果会报有指定的输出路径。示例脚本如下：
　　python predict_onnx.py --operation_type export_onnx --model_path dcmyolo/model_data/wangzhe_best_weights.pth --classes_path dcmyolo/model_data/wangzhe_classes.txt --anchors_path dcmyolo/model_data/coco_anchors.txt --onnx_path dcmyolo/model_data/wangzhe_best_weights.onnx --append_nms
　　2.检测图片
　　使用onnx模型检测图片，示例脚本如下：
　　python predict_onnx.py --operation_type predict_image --onnx_path dcmyolo/model_data/wangzhe_best_weights.onnx --classes_path dcmyolo/model_data/wangzhe_classes.txt
　　在控制台输入图片路径，即可显示检测结果。可以看到onnx和pytorch的结果是一致的。
　　3.检测视频
　　测试视频可以从上面的链接下载。示例脚本如下，检测结果会放在指定的输出位置：
　　python predict_onnx.py --operation_type predict_video --onnx_path dcmyolo/model_data/wangzhe_best_weights.onnx --classes_path dcmyolo/model_data/wangzhe_classes.txt --video_path data/video/wangzhe1.mp4 --video_save_path data/video/wangzhe1_out1.mp4
　　英雄联盟YOLOv5实时检测的功能这里简单介绍一下。下一篇我会介绍YOLOv5的实现原理。dcmyolo项目会持续维护，会增加越来越多的功能，敬请期待。
　　解决方案:基于web的文章管理系统（完整源码+论文全套+教学视频）
　　实现一个web文章管理系统，也就是说可以基于浏览器管理各种数据信息。也可以看作是一个B/S架构的文章管理系统。系统分为前后台，实现在线操作，实现文章管理系统的各项功能，实现用户管理、登录注册、权限管理等功能，管理与各种文章相关的实体管理系统。
　　文章管理系统是采用mvc设计模式开发的B/S架构项目，采用分层架构对项目进行架构，分为pojo+action+service，其中pojo表示文章的各个数据库表对应的实体系统，文章管理系统经过详细的需求分析和数据库设计，设计实现了以下模块，分别是登录模块，权限管理模块，用户管理模块，文章管理系统信息管理模块等。并通过java实现抽象类
　　开发环境系统需求分析及流程图
　　一般来说，这类项目的主要目的是掌握基本的web开发知识，所以在实施文章管理系统的课程设计时，需要先采集
其他文章管理系统的产品分析，进行深入的数据库web系统的设计，并基于mvc模式编写代码，使用layui搭建页面，进而完成文章管理系统各模块的开发
　　数据库课程设计
　　数据库设计是整个文章管理系统的关键。合理的数据库设计直接影响文章管理系统能否完美运行不报错。本系统采用mysql数据库作为数据存储，引擎采用innoddb。文章管理系统将按照数据库设计原则进行数据分表设计
　　系统演示视频运行截图
　　基于Web的文章管理系统-登录功能接口-网站实现
　　
　　基于Web的文章管理系统-前台首页-网页设计
　　基于Web的文章管理系统-后台信息管理页面-网页设计
　　文章管理系统系统架构图
　　预防措施
　　基于web的文章管理系统项目自带源码、试卷、sql数据库、答辩ppt、期中检查报告
　　
　　登录地址：8080/login.jsp
　　后台地址：8080/admin/login.jsp
　　测试用户cswork admin bishe 密码123456
　　测试管理员admin密码admin bishe
　　函数列表
　　文章管理系统系统登录模块，实现文章管理系统的登录注册功能
　　文章管理系统用户管理模块实现文章管理系统的信息管理和角色管理功能
　　前台信息管理模块，面向普通用户，实现普通用户对文章管理系统自定义查询的录入和修改
　　超级管理员管理，实现文章管理系统系统各模块后台管理员管理功能，同意核心数据最佳权限管理查看全部

　　解决方案:【目标检测】英雄联盟能用YOLOv5实时目标检测了支持onnx推理
　　目录
　　一、项目介绍
　　dcmyolo（梦想创造奇迹），中文：大智能物体检测工具包。该项目基于pytorch构建。构建的目的是提供一个性能更好的YOLO版本。同时拥有丰富的中文教程和详细的源码解读。提供了算法工具箱，给出了不同体积模型的实验数据，为算法的实现提供了指导。来的方便。为了方便开发者，项目开箱即用。推理阶段，直接把test dcmyolo目录放到项目中，实例化一个类，然后调用。
　　很多教程都是基于coco和voc数据集，我也会提供基于coco数据集的预训练模型。为了增加趣味性，我将以英雄联盟中英雄、小兵、塔的检测为例，详细介绍dcmyolo的使用。
　　项目链接：
　　资料链接：提取码：faye
　　测试视频：提取码：faye
　　预训练模型：提取码：faye
　　标注工具：提取码：faye
　　效果演示：英雄联盟可以使用YOLOv5实时目标检测_英雄联盟
　　2.项目结构
　　dcmyolo项目主目录
　　+数据存储训练和测试数据
　　- dcmyolo实现了项目的所有核心功能，移植时直接测试该目录即可
　　- 模型模型构建相关
　　+ backbone 各种backbone，目前只有CSPdarknet，未来会不断丰富
　　yolo_body.py构建模型的类，实例化后使用
　　+ model_data 存储模型文件
　　+ utils 工具类
　　labelme2voc.py 将labelme的json文件转为voc格式
　　voc2annotation_txt.py 将VOC格式转换成项目需要的格式
　　make_anchors.py 生成数据集的anchors文件
　　train_dcmyolo.py 执行训练
　　export.py 导出onnx等格式的文件
　　predict_dcmyolo.py 推理演示
　　predict_onnx.pypth 转换onnx，onnx进行推理demo
　　3.准备数据
　　我们需要制作三个文件train.txt、val.txt、test.txt，格式如下：
　　data/wangzhe/JPEGImages/1.jpg 910,504,1035,633,0 1759,113,1920,383,2
data/wangzhe/JPEGImages/10.jpg 805,189,1060,570,0 1,649,273,935,2 1636,70,1823,182,2
data/wangzhe/JPEGImages/100.jpg 896,258,1254,550,3
data/wangzhe/JPEGImages/101.jpg 869,416,1059,591,0 277,295,464,407,4 1024,311,1369,640,3
　　文件中一张图片为一行，一行中的每条信息以空格分隔。第一块是图片存放的路径。这里我们放在项目中的data/wangzhe/JPEGImages目录下；其余几块表示方框的位置和类别，每段用逗号分成5个部分，分别代表左上x、左上y、右下x、右下y，以及所属类别的索引他们属于哪个。
　　如果只有图片，没有标签，我们需要进行下面的数据标注和数据格式转换步骤。这个过程非常简单，而且是体力劳动。
　　如果使用开源数据集，我们需要自己将数据集的标注文件转换成上述格式，不需要下面的步骤。
　　如果你用的是我整理的英雄联盟手游数据，直接下载数据解压到项目的data目录下，就可以直接使用了，不需要下面的步骤。
　　1、数据标注
　　这一步是用来制作我们自己的数据集的。我们使用 labelme 作为标注工具。标注好后，我们使用脚本将标注文件转成voc格式，再从voc转成我们需要的格式。上面是labelme的下载链接，解压后使用方法如下：
　　（1）双击main.exe打开labelme
　　(2) 选择要标注的图片目录。这里我准备了100多张英雄联盟的截图，比如项目中的data/wangzhe_org/目录。
　　（3）右侧会列出该文件夹下的所有图片，选择一张图片，在图片区域右击选择矩形
　　（4）选择一个矩形框的目标（英雄），填写类别名称，点击确定完成一个目标的标注。注意：一定要选择从左上角到右下角的边框；在同一张图片中标记尽可能多的目标，不要错过它们；同一类别的名称必须相同，不同类别的名称不能相同；类别名称使用英文（区分大小写），无标点符号。
　　(5)标记一张图片后，选择下一张图片时，会提示保存json文件，保存到默认目录即可，不要更改目录。
　　2.数据转换格式
　　我们已经得到了labelme生成的json格式的标准文件，我们需要先将其转换成VOC格式，然后再转换成我们需要的格式。
　　(1) 转换成VOC格式
　　执行工程中的labelme2voc.py文件，示例如下：
　　'''
data/wangzhe_org/: 存放原图片和labelme生成的json文件的目录
data/wangzhe/: 目标目录
labels: 存放所有列表标签的文件，英雄联盟的数据集标签文件已经放在项目的dcmyolo/model_data/wangzhe_classes.txt文件中
'''
python labelme2voc.py data/wangzhe_org/ data/wangzhe/ --labels dcmyolo/model_data/wangzhe_classes.txt
　　其中，dcmyolo/model_data/wangzhe_classes.txt文件，共有3种标签文件如下：
　　Hero
Solider
Tower
　　VOC格式有以下4个文件，Annotations存放标签文件，AnnotationsVisualization存放用方框标注的图片，方便我们查看，JPEGImages存放图片，class_names.txt存放所有类别的标签。接下来我们将只使用 Annotations 和 JPEGImages：
　　（2）转换工程需要的格式
　　执行项目中的voc2annotation_txt.py文件，示例如下：
　　'''
classes_path:     存放标签种类的文件
data_dir:         存数据的目录，写到Annotations上一级
trainval_percent: 用于指定(训练集+验证集)与测试集的比例，默认情况下 9:1
train_percent:    用于指定(训练集+验证集)中训练集与验证集的比例，默认情况下 9:1
'''
python voc2annotation_txt.py --classes_path dcmyolo/model_data/wangzhe_classes.txt --data_dir data/wangzhe/ --trainval_percent 0.95 --train_percent 0.95
　　至此我们已经生成了项目需要的标签文件，可以进行训练了。
　　4.执行力训练
　　所有数据文件和配置文件的文件名和目录都是可以自定义的，下面我会按照自己的习惯存放这些文件。
　　

1.锚文件
　　文件放在dcmyolo/model_data/wangzhe_classes.txt
　　原来yolov5提到的改进之一就是不需要手动生成anchors。事实上，生成anchor的方法在训练之前就被丢弃了。我比较习惯手动生成anchor，也不麻烦。
　　anchors的作用下一篇讲原理的时候会提到，现在我们只需要生成即可，使用make_anchors.py生成：
　　'''
txt_path: 标注文件txt
anchors_path: anchors文件txt
clusters: 聚类的数目,一般情况下是9
input_size: 模型中图像的输入尺寸
'''
python make_anchors.py --txt_path data/wangzhe/train.txt --anchors_path dcmyolo/model_data/wangzhe_anchors.txt --clusters 9 --input_size 640
　　生成的文件 wangzhe_anchors.txt 如下所示：
　　25,44,30,58,37,64,50,68,42,91,55,104,71,113,62,141,91,256
　　2.标签文件
　　文件放在dcmyolo/model_data/wangzhe_classes.txt，内容是标注三类，每行一类：
　　Hero
Solider
Tower
　　3.预训练模型
　　下载好预训练模型后，解压放到dcmyolo/model_data/下。
　　预训练模型有两种，backbone和yolov5。Backbone只是在imagenet上预训练的分类模型，yolov5是在coco数据集上训练的yolov5模型。如果同时加载了backbone和yolov5预训练模型，backbone参数会被覆盖。yolov5预训练模型收录
了一些backbone没有的卷积层。如果fine-tuning推荐使用yolov5预训练模型，收敛会更快。
　　4.训练数据
　　将上述数据集解压，放到data目录下。
　　如果是自己标注的数据，将三个核心文件train.txt、val.txt、test.txt放在data/wangzhe/目录下，同时保证这三个文件中的图片路径正确. 结构如下，其中ImageSets目录为临时目录，不用于训练，可以省略。
　　5.修改配置
　　所有参数的定义和注释如下，为了节省篇幅，去掉了之前的parser.add_argument：
　　('--classes_path', type=str, default='dcmyolo/model_data/coco_classes.txt', help="类别标签文件路径")
('--anchors_path', type=str, default='dcmyolo/model_data/coco_anchors.txt', help="anchors文件路径")
('--train_annotation_path', type=str, default='data/coco/train.txt', help="存放训练集图片路径和标签的txt")
('--val_annotation_path', type=str, default='data/coco/val.txt', help="存放验证图片路径和标签的txt")
('--phi', type=str, default='s', help="所使用的YoloV5的版本。n、s、m、l、x")
# ---------------------------------------------------------------------#
# --backbone_model_dir参数
# 如果有backbone的预训练模型，可以backbone预训练模型目录，当model_path不存在的时候不加载整个模型的权值。
# 只写到模型文件的上一级目录即可，文件名会根据phi自动计算（前提是从百度网盘下载的模型文件名没改）
# ---------------------------------------------------------------------#
('--backbone_model_dir', type=str, default='dcmyolo/model_data/', help="backbone的预训练模型，写到上一级目录即可")
('--model_path', type=str, default='dcmyolo/model_data/pretrained.pth', help="yolov5预训练模型的路径")
('--save_period', type=int, default=10, help="多少个epoch保存一次权值")
('--save_dir', type=str, default='logs_wangzhe', help="权值与日志文件保存的文件夹")
('--input_shape', nargs='+', type=int, default=[640, 640], help="输入的shape大小，一定要是32的倍数")
('--use_fp16', action='store_true', help="是否使用混合精度训练")
#------------------------------------------------------------------#
# mosaic 马赛克数据增强。
# mosaic_prob 每个step有多少概率使用mosaic数据增强，默认50%。
#
# mixup 是否使用mixup数据增强，仅在mosaic=True时有效。
# 只会对mosaic增强后的图片进行mixup的处理。
# mixup_prob 有多少概率在mosaic后使用mixup数据增强，默认50%。
# 总的mixup概率为mosaic_prob * mixup_prob。
#
# special_aug_ratio 参考YoloX，由于Mosaic生成的训练图片，远远脱离自然图片的真实分布。
# 当mosaic=True时，本代码会在special_aug_ratio范围内开启mosaic。
# 默认为前70%个epoch，100个世代会开启70个世代。
#------------------------------------------------------------------#
('--use_mosaic', action='store_true', help="是否使用马赛克数据增强")
('--mosaic_prob', type=float, default=0.5, help="每个step有多少概率使用mosaic数据增强")
('--use_mixup', action='store_true', help="是否使用mixup数据增强，仅在mosaic=True时有效")
('--mixup_prob', type=float, default=0.5, help="有多少概率在mosaic后使用mixup数据增强")
('--special_aug_ratio', type=float, default=0.7, help="当mosaic=True时，会在该范围内开启mosaic")
('--epoch', type=int, default=100, help="总迭代次数")
('--batch_size', type=int, default=128, help="每批次取多少张图片")
('--label_smoothing', type=float, default=0, help="是否开启标签平滑")
('--init_lr', type=float, default=1e-2, help="初始学习率")
('--min_lr', type=float, default=1e-4, help="最小学习率")
('--optimizer_type', type=str, default="sgd", help="使用到的优化器种类，可选的有adam、sgd")
('--momentum', type=float, default=0.937, help="优化器内部使用到的momentum参数")
('--weight_decay', type=float, default=5e-4, help="权值衰减，可防止过拟合")
('--lr_decay_type', type=str, default="step", help="使用到的学习率下降方式，可选的有step、cos")
('--eval_flag', action='store_true', help="是否在训练时进行评估，评估对象为验证集")
('--eval_period', type=int, default=10, help="代表多少个epoch评估一次")
('--num_workers', type=int, default=4, help="多少个线程读取数据")
　　示例脚本 train_dcmyolo.sh：
　　for i in $(ps -ax |grep train_dcmyolo |awk '{print $1}')
do
id=`echo $i |awk -F"/" '{print $1}'`

kill -9 $id
done
nohup python -u train_dcmyolo.py \
--classes_path dcmyolo/model_data/wangzhe_classes.txt \
--anchors_path dcmyolo/model_data/coco_anchors.txt \
--train_annotation_path data/wangzhe/train.txt \
--val_annotation_path data/wangzhe/val.txt \
--save_dir logs_wangzhe \
--phi s \
--backbone_model_dir dcmyolo/model_data \
--model_path dcmyolo/model_data/yolov5_s.pth \
--input_shape 640 640 \
--batch_size 4 \
--epoch 1000 \
--save_period 100 \
> log_train_dcmyolo.log &
tail -f log_train_dcmyolo.log

　　6.执行力训练
　　执行以下脚本进行训练，训练结果会放在logs_wangzhe目录下。
　　./train_dcmyolo.sh
　　五、执行预测
　　推理和预测方法都在predict_dcmyolo.py中，可以检测图片、检测视频和热图。所有参数定义如下。同样为了节省空间，移除了parser.add_argument：
　　('--operation_type', type=str, default='', help="操作类型export_onnx / predict_image / predict_video")
('--model_path', type=str, default='', help="pth模型的路径")
('--classes_path', type=str, default='', help="分类标签文件")
('--anchors_path', type=str, default='', help="anchors文件")
('--onnx_path', type=str, default='', help="onnx保存路径")
('--video_path', type=str, default='', help="视频时才会用到，视频的路径")
('--video_save_path', type=str, default='', help="视频时才会用到，视频检测之后的保存路径")
('--phi', type=str, default='', help="所使用的YoloV5的版本。n、s、m、l、x")
('--no_simplify', action='store_false', help="不使用onnxsim简化模型")
('--input_shape', nargs='+', type=int, default=[640, 640], help="输入的shape大小，一定要是32的倍数")
('--append_nms', action='store_true', help="添加nms")
('--iou_threshold', type=float, default=0.3, help="两个bbox的iou超过这个值会被认为是同一物体")
('--score_threshold', type=float, default=0.5, help="检测物体的概率小于这个值将会被舍弃")
　　1.检测图片
　　检测图片，示例脚本如下：
　　python predict_dcmyolo.py --operation_type predict_image --model_path dcmyolo/model_data/wangzhe_best_weights.pth --classes_path dcmyolo/model_data/wangzhe_classes.txt --anchors_path dcmyolo/model_data/coco_anchors.txt
　　在控制台输入图片路径，会显示检测结果：
　　2.检测视频
　　测试视频可以从上面的链接下载。示例脚本如下，检测结果会放在指定的输出位置：
　　python predict_dcmyolo.py --operation_type predict_video --model_path dcmyolo/model_data/wangzhe_best_weights.pth --classes_path dcmyolo/model_data/wangzhe_classes.txt --anchors_path dcmyolo/model_data/coco_anchors.txt --video_path data/video/wangzhe1.mp4 --video_save_path_path data/video/wangzhe1_out.mp4
　　3.热图
　　示例脚本如下：
　　python predict_dcmyolo.py --operation_type heatmap --model_path dcmyolo/model_data/wangzhe_best_weights.pth --classes_path dcmyolo/model_data/wangzhe_classes.txt --anchors_path dcmyolo/model_data/coco_anchors.txt --heatmap_save_path data/heatmap.jpg
　　与检测图片类似，在控制台输入图片路径，即可显示热图。可以清楚地看到激活区域，证明模型确实很好地检测到了目标。
　　5.转换onnx
　　将模型导出为onnx格式，有利于模型加速，便于模型部署。所有onnx相关的方法都放在predict_onnx.py中。可以导出onnx文件，检测图片，检测视频。所有参数定义如下。同样为了节省空间，移除了parser.add_argument：
　　('--operation_type', type=str, default='', help="操作类型export_onnx / predict_image / predict_video")
('--model_path', type=str, default='', help="pth模型的路径")
('--classes_path', type=str, default='', help="分类标签文件")
('--anchors_path', type=str, default='', help="anchors文件")
('--onnx_path', type=str, default='', help="onnx保存路径")
('--video_path', type=str, default='', help="视频时才会用到，视频的路径")
('--video_save_path', type=str, default='', help="视频时才会用到，视频检测之后的保存路径")
('--phi', type=str, default='', help="所使用的YoloV5的版本。n、s、m、l、x")
('--no_simplify', action='store_false', help="不使用onnxsim简化模型")
('--input_shape', nargs='+', type=int, default=[640, 640], help="输入的shape大小，一定要是32的倍数")
('--append_nms', action='store_true', help="添加nms")
('--iou_threshold', type=float, default=0.3, help="两个bbox的iou超过这个值会被认为是同一物体")
('--score_threshold', type=float, default=0.5, help="检测物体的概率小于这个值将会被舍弃")
　　1.导出onnx文件
　　建议导出的onnx收录
nms，这样可以直接使用onnx输出的结果，不需要程序进行后期处理。加上--append_nms参数，可以让联通nms导出，onnx结果会报有指定的输出路径。示例脚本如下：
　　python predict_onnx.py --operation_type export_onnx --model_path dcmyolo/model_data/wangzhe_best_weights.pth --classes_path dcmyolo/model_data/wangzhe_classes.txt --anchors_path dcmyolo/model_data/coco_anchors.txt --onnx_path dcmyolo/model_data/wangzhe_best_weights.onnx --append_nms
　　2.检测图片
　　使用onnx模型检测图片，示例脚本如下：
　　python predict_onnx.py --operation_type predict_image --onnx_path dcmyolo/model_data/wangzhe_best_weights.onnx --classes_path dcmyolo/model_data/wangzhe_classes.txt
　　在控制台输入图片路径，即可显示检测结果。可以看到onnx和pytorch的结果是一致的。
　　3.检测视频
　　测试视频可以从上面的链接下载。示例脚本如下，检测结果会放在指定的输出位置：
　　python predict_onnx.py --operation_type predict_video --onnx_path dcmyolo/model_data/wangzhe_best_weights.onnx --classes_path dcmyolo/model_data/wangzhe_classes.txt --video_path data/video/wangzhe1.mp4 --video_save_path data/video/wangzhe1_out1.mp4
　　英雄联盟YOLOv5实时检测的功能这里简单介绍一下。下一篇我会介绍YOLOv5的实现原理。dcmyolo项目会持续维护，会增加越来越多的功能，敬请期待。
　　解决方案:基于web的文章管理系统（完整源码+论文全套+教学视频）
　　实现一个web文章管理系统，也就是说可以基于浏览器管理各种数据信息。也可以看作是一个B/S架构的文章管理系统。系统分为前后台，实现在线操作，实现文章管理系统的各项功能，实现用户管理、登录注册、权限管理等功能，管理与各种文章相关的实体管理系统。
　　文章管理系统是采用mvc设计模式开发的B/S架构项目，采用分层架构对项目进行架构，分为pojo+action+service，其中pojo表示文章的各个数据库表对应的实体系统，文章管理系统经过详细的需求分析和数据库设计，设计实现了以下模块，分别是登录模块，权限管理模块，用户管理模块，文章管理系统信息管理模块等。并通过java实现抽象类
　　开发环境系统需求分析及流程图
　　一般来说，这类项目的主要目的是掌握基本的web开发知识，所以在实施文章管理系统的课程设计时，需要先采集
其他文章管理系统的产品分析，进行深入的数据库web系统的设计，并基于mvc模式编写代码，使用layui搭建页面，进而完成文章管理系统各模块的开发
　　数据库课程设计
　　数据库设计是整个文章管理系统的关键。合理的数据库设计直接影响文章管理系统能否完美运行不报错。本系统采用mysql数据库作为数据存储，引擎采用innoddb。文章管理系统将按照数据库设计原则进行数据分表设计
　　系统演示视频运行截图
　　基于Web的文章管理系统-登录功能接口-网站实现

　　基于Web的文章管理系统-前台首页-网页设计
　　基于Web的文章管理系统-后台信息管理页面-网页设计
　　文章管理系统系统架构图
　　预防措施
　　基于web的文章管理系统项目自带源码、试卷、sql数据库、答辩ppt、期中检查报告
　　

　　登录地址：8080/login.jsp
　　后台地址：8080/admin/login.jsp
　　测试用户cswork admin bishe 密码123456
　　测试管理员admin密码admin bishe
　　函数列表
　　文章管理系统系统登录模块，实现文章管理系统的登录注册功能
　　文章管理系统用户管理模块实现文章管理系统的信息管理和角色管理功能
　　前台信息管理模块，面向普通用户，实现普通用户对文章管理系统自定义查询的录入和修改
　　超级管理员管理，实现文章管理系统系统各模块后台管理员管理功能，同意核心数据最佳权限管理

技巧:设计师必备能力之文章分类法与文章聚合法介绍

采集交流 • 优采云发表了文章 • 0 个评论 • 95 次浏览 • 2022-11-29 22:29 • 来自相关话题

　　技巧:设计师必备能力之文章分类法与文章聚合法介绍
　　实时文章采集能力是设计师必备能力之一，今天我们将重点介绍两种实时文章采集方法：文章分类法与文章聚合法。
　　1、我们首先介绍两种文章分类法：文章分类法与文章聚合法，在讲述文章分类法之前，我们先做一个简单的自测题：这两类文章分类法有哪些区别？哪些场景适合使用？如果已经有自己的文章分类结果，请直接跳到文章分类法部分。
　　2、在正式讲解这两种文章分类法之前，我们先来了解一下互联网上的自然搜索引擎算法，接下来你会发现文章分类法会帮你省去很多力气，如果有疑问可以关注公众号：晓讲讲，回复互联网自然搜索引擎算法你将了解互联网搜索算法，我们将此部分展开讲解。自然搜索引擎算法涉及了三大信息源：「社交网络平台」「第三方广告平台」「搜索引擎」。
　　
　　这三大信息源是构成搜索引擎流量的主要来源，如何在这三大信息源中获取我们想要的资源，我们要先有一个大致的框架，我们将接下来重点讲解三大信息源，为何采用自然搜索引擎搜索引擎分类的方法，因为这样的方法可以达到更高的搜索效率。
　　3、以今日头条为例，我们看看怎么在今日头条上建立自己的文章搜索库，了解如何在一个信息流平台上更容易建立自己的文章搜索库。
　　4、我们知道，自然搜索引擎平台的aso算法中，最重要的组成部分就是信息流页面位置，我们先看下如何从一个信息流页面，获取精准的aso排名。由于今日头条是一个信息流平台，所以我们先将位置进行划分：「低跳出率」「高点击率」「高app转化率」「精准度」、「转化率」、「时长」、「用户来源」、「来源获取成本」、「时长成本」、「广告点击率」、「单纯依靠点击获取收益」、「其他」。
　　在这个表格中，红色数据是用户获取广告点击的成本，如果想获取更多的广告点击，则需要付出更多的广告点击率。这里我们再举个栗子，假设我们获取了1000个广告点击，但我们获取的不是我们的第一批用户，而是第0个用户。
　　
　　5、想获取更多的第一批用户，我们需要考虑app的周转率，因为广告点击率会影响app的周转率，这里我们拿今日头条来举例，我们广告获取的是用户，但不会给用户直接安装app，
　　6、想保证用户的安装率，只有两种可能，要么你获取到的用户很有可能是它们想要的，或者你获取到的用户很有可能是一个潜在的有价值的用户。
　　7、为什么如此重要？
　　8、通过文章分类法，我们找到了你想要的文章，但如果我们获取的用户或者文章很多，
　　9、那么如何在一查看全部

　　技巧:设计师必备能力之文章分类法与文章聚合法介绍
　　实时文章采集能力是设计师必备能力之一，今天我们将重点介绍两种实时文章采集方法：文章分类法与文章聚合法。
　　1、我们首先介绍两种文章分类法：文章分类法与文章聚合法，在讲述文章分类法之前，我们先做一个简单的自测题：这两类文章分类法有哪些区别？哪些场景适合使用？如果已经有自己的文章分类结果，请直接跳到文章分类法部分。
　　2、在正式讲解这两种文章分类法之前，我们先来了解一下互联网上的自然搜索引擎算法，接下来你会发现文章分类法会帮你省去很多力气，如果有疑问可以关注公众号：晓讲讲，回复互联网自然搜索引擎算法你将了解互联网搜索算法，我们将此部分展开讲解。自然搜索引擎算法涉及了三大信息源：「社交网络平台」「第三方广告平台」「搜索引擎」。
　　

　　这三大信息源是构成搜索引擎流量的主要来源，如何在这三大信息源中获取我们想要的资源，我们要先有一个大致的框架，我们将接下来重点讲解三大信息源，为何采用自然搜索引擎搜索引擎分类的方法，因为这样的方法可以达到更高的搜索效率。
　　3、以今日头条为例，我们看看怎么在今日头条上建立自己的文章搜索库，了解如何在一个信息流平台上更容易建立自己的文章搜索库。
　　4、我们知道，自然搜索引擎平台的aso算法中，最重要的组成部分就是信息流页面位置，我们先看下如何从一个信息流页面，获取精准的aso排名。由于今日头条是一个信息流平台，所以我们先将位置进行划分：「低跳出率」「高点击率」「高app转化率」「精准度」、「转化率」、「时长」、「用户来源」、「来源获取成本」、「时长成本」、「广告点击率」、「单纯依靠点击获取收益」、「其他」。
　　在这个表格中，红色数据是用户获取广告点击的成本，如果想获取更多的广告点击，则需要付出更多的广告点击率。这里我们再举个栗子，假设我们获取了1000个广告点击，但我们获取的不是我们的第一批用户，而是第0个用户。
　　

　　5、想获取更多的第一批用户，我们需要考虑app的周转率，因为广告点击率会影响app的周转率，这里我们拿今日头条来举例，我们广告获取的是用户，但不会给用户直接安装app，
　　6、想保证用户的安装率，只有两种可能，要么你获取到的用户很有可能是它们想要的，或者你获取到的用户很有可能是一个潜在的有价值的用户。
　　7、为什么如此重要？
　　8、通过文章分类法，我们找到了你想要的文章，但如果我们获取的用户或者文章很多，
　　9、那么如何在一

推荐文章:优采云采集的文章中html标签在帖子中不显示格式

采集交流 • 优采云发表了文章 • 0 个评论 • 100 次浏览 • 2022-11-27 04:23 • 来自相关话题

　　推荐文章:优采云
采集的文章中html标签在帖子中不显示格式
　　优采云
采集文章中的html标签在帖子中不显示格式100
　　使用优采云
采集
文章并发布在网站上，如第一张图所示。HTML 标签仍然以文本格式表示，
　　标签不换行。默认选中我网站发布选项中的 html 标记。发布者有权发布 html。点击Edit Post...使用优采云
采集
文章并发布在网站上，如第一张图所示。HTML 标签仍然以文本格式表示，
　　
　　标签不换行。
　　默认选中我网站发布选项中的 html 标记。发布者有权发布 html。
　　点击编辑帖子，编辑页面无需人工干预，格式自动显示，保存后和第二张图一样。
　　请问，如何让帖子自动显示html标签的格式，而不用编辑帖子，即采集的帖子页面会直接像第二张图一样？
　　
　　
　　
　　让我回答
　　您可以在下方选择一个或多个关键词搜索相关信息。您也可以直接点击“搜索信息”搜索整题。
　　最新版:优采云
采集器最新免费版
　　优采云
采集器最新免费版是一款非常实用的数据采集器，基于人工智能技术，可以自动识别采集内容！界面简洁大方，符合手动浏览的思维方式，任务数量不限，喜欢的内容自由导出，保存Excel、TXT格式并导出到本地，可视化操作，自定义采集流程，网页数据即可轻松采集
，而且采集
网址数量没有限制！
　　软件特色
　　1、智能识别列表，镜像下载次数不限，从文件导入url，批量生成url
　　2.手动输入url，任务数量不限，支持云存储，以HTML格式导出到本地
　　3、一键采集数据，可模拟人的操作过程，滚动页面，等待加载
　　
　　软件亮点
　　1.模拟网页操作顺序，高级设置满足更多采集
需求
　　2.支持多任务同时运行，切换端同步更新
　　3.根据软件提示点击页面，结合条件筛选采集字段
　　4.问答引导，可视化操作，数据库发布到本地或云端服务器
　　
　　软件优势
　　1.简单步骤生成复杂采集规则，导出发布采集数据
　　2、自动导出、文件下载、自动生成复杂的数据采集规则
　　3、自定义采集流程，提供企业级服务，可选择提取文本、链接、属性
　　用户评价
　　根据软件给出的提示，结合智能识别算法，操作简单，在效率上满足采集要求。查看全部

　　推荐文章:优采云
采集的文章中html标签在帖子中不显示格式
　　优采云
采集文章中的html标签在帖子中不显示格式100
　　使用优采云
采集
文章并发布在网站上，如第一张图所示。HTML 标签仍然以文本格式表示，
　　标签不换行。默认选中我网站发布选项中的 html 标记。发布者有权发布 html。点击Edit Post...使用优采云
采集
文章并发布在网站上，如第一张图所示。HTML 标签仍然以文本格式表示，
　　

　　标签不换行。
　　默认选中我网站发布选项中的 html 标记。发布者有权发布 html。
　　点击编辑帖子，编辑页面无需人工干预，格式自动显示，保存后和第二张图一样。
　　请问，如何让帖子自动显示html标签的格式，而不用编辑帖子，即采集的帖子页面会直接像第二张图一样？
　　

　　
　　
　　让我回答
　　您可以在下方选择一个或多个关键词搜索相关信息。您也可以直接点击“搜索信息”搜索整题。
　　最新版:优采云
采集器最新免费版
　　优采云
采集器最新免费版是一款非常实用的数据采集器，基于人工智能技术，可以自动识别采集内容！界面简洁大方，符合手动浏览的思维方式，任务数量不限，喜欢的内容自由导出，保存Excel、TXT格式并导出到本地，可视化操作，自定义采集流程，网页数据即可轻松采集
，而且采集
网址数量没有限制！
　　软件特色
　　1、智能识别列表，镜像下载次数不限，从文件导入url，批量生成url
　　2.手动输入url，任务数量不限，支持云存储，以HTML格式导出到本地
　　3、一键采集数据，可模拟人的操作过程，滚动页面，等待加载
　　

　　软件亮点
　　1.模拟网页操作顺序，高级设置满足更多采集
需求
　　2.支持多任务同时运行，切换端同步更新
　　3.根据软件提示点击页面，结合条件筛选采集字段
　　4.问答引导，可视化操作，数据库发布到本地或云端服务器
　　

　　软件优势
　　1.简单步骤生成复杂采集规则，导出发布采集数据
　　2、自动导出、文件下载、自动生成复杂的数据采集规则
　　3、自定义采集流程，提供企业级服务，可选择提取文本、链接、属性
　　用户评价
　　根据软件给出的提示，结合智能识别算法，操作简单，在效率上满足采集要求。

经验总结:总结收集日志的几种方法

采集交流 • 优采云发表了文章 • 0 个评论 • 85 次浏览 • 2022-11-26 22:35 • 来自相关话题

　　经验总结:总结收集日志的几种方法
　　介绍
　　到目前为止，我们已经看到采集
日志的方式有很多种。甚至，我们有很多种方法来采集
相同的日志。在今天的文章中，我将对其进行简要回顾。
　　由 Filebeat 采集
　　Filebeat是最常用的日志采集
方式。使用Filebeat，我们还有以下方法：
　　按模块采集
　　为了更方便的使用Filebeat采集数据，Elastic提供了模块供使用：
　　我们可以使用以下命令获取支持的模块：
　　 ./filebeat modules list
　　通过模块的使用，我们可以生成相应的ingest pipelines、dashboards、index patterns、index templates、ILM等，这些模块是我们会经常用到的模块。开箱即用的工具。
　　这种方法的路径是 Filebeat => Elasticsearch。关于模块的使用，可以参考《Beats：Beats入门教程（一）》一文。
　　使用Filebeat的输入日志采集
　　即使是通过上面介绍的模块方式采集
的日志，我们也可以使用这种方式来实现。但是，我们需要自己创建仪表板、摄取管道、索引模板、生命周期管理策略等。其实这是一种比较流行的回执采集
方式，特别是对于那些模块不支持的自定义日志。
　　
　　采集
这些数据的方式是：Filebeat => Elasticsearch。我们可以阅读之前的文章《Beats：通过Filebeat将日志传递给Elasticsearch》。
　　完成 Filebeat 和 Logstash
　　我们知道Logstash可以用来清洗数据，可以使用Logstash来丰富数据和外部数据库。另一方面，Logstash的使用提供了缓冲的作用，特别是对于产生大量日志的情况。
　　该方法采集到的路径为：Filebeat => Logstash => Elasticsearch。可以看我之前的文章《Logstash：Logstash入门教程（二）》，或者《Logstash：将Apache日志导入Elasticsearch》一文。
　　通过 Kafaka 采集
数据
　　对于大量数据，Kafaka 是一种比较常见的解决方案。它充当缓冲区：
　　详细阅读请参考《Elastic：用Kafka部署Elastic Stack》一文。
　　通过 Logstash 采集
　　在某些情况下，我们甚至可以直接使用Logstash来采集
日志数据。关于Logstash和Filebeat的区别，可以看《Beats：Elastic Beats介绍及与Logstash的比较》一文。
　　该方法的采集路径为：Logstash => Elasticsearch。可以阅读《Logstash：数据转换、分析、抽取、丰富和核心操作》、《Elastic：使用Elastic Stack分析Spring Boot微服务日志（一）》两篇文章。
　　通过 Elastic Agent 采集
　　随着Elastic Stack的发展，Elastic在最新发布的版本中更推崇使用Elastic Agent来采集
日志。
　　关于使用Elastic Agent的日志采集方式，我们也分为两类：
　　
　　支持的集成
　　为了方便大家的使用，Elastic也提供了类似开箱即用模块的解决方案。在最新版本中，我们使用提供的集成来完成日志采集
。
　　我们可以阅读以下文章来理解：
　　自定义日志
　　在很多情况下，我们的日志可能不属于 Elastic 提供的集成类别。那么我们如何将这些日志采集
到Elasticsearch中呢？事实上，Elastic 提供了一个叫做 Custom Logs 的集成，专门处理这个繁琐的需求。如果您想了解更多相关信息，请阅读文章“可观察性：如何使用 Elastic Agent 将自定义日志摄取到 Elasticsearch”。
　　直接在客户端写入日志到Elasticsearch
　　我们也可以直接在客户端以编程方式将日志写入 Elasticsearch。请阅读文章：
　　使用其他非 Elastic Stack 解决方案
　　其实结合Elastic Stack还有很多其他的解决方案，比如：
　　以上，我们列举了上面我能想到的方法。在实际使用中，开发者可能有更多的方法。如果还有更多，请告诉我。我会把这一切写下来。
　　文末
　　嗨，我们来互动吧！
　　喜欢这篇文章吗？
　　欢迎留下你想说的话，留言100%被选中！
　　核心方法:SEO关键词研究
　　关键词研究可能是SEO最重要的部分，除非您知道自己关键词目标是什么，否则您将无法开始营销活动，也无法评估成本和回报，除非您知道自己在竞争什么。
　　开始
　　关键词研究是关于了解用户在搜索信息时使用的单词，这通常包括了解关键词的搜索量以及这些单词的竞争程度。
　　关键词研究是搜索引擎优化和搜索营销的关键部分。因为如果使用得当，他可以帮助我们在开发网站和构建内容时提供路径。根据搜索查询的数量，关键词可分为头部、身体、长尾。一般来说，关键词的单词越多，竞争越少，相对激烈，更容易获得良好的排名
　　据说，一般来说，因为这个定律不是绝对的，所以会发生意外。下面是一些长尾关键词与主体和头部关键词的难度指数对比。
　　这个案例是一个长尾关键词容易竞争的点
　　在此示例中，长尾与头部一样困难关键词
　　这个例子是长尾关键词更难竞争
　　关键词难度
　　数据是通过SEOmoz的关键词难度工具获得的，根据经验，一般包括品牌的长尾关键词更难竞争，9/10的长尾关键词一般比主体和头部更容易关键词
　　2 视角
　　SEO一般可以分为两个目标：
　　获取流量并增加转化次数
　　很多SEO的坏处是过分强调获得流量而不是转化。这并不是说获得流量是错误的，而是关于您网站的目标。例如，对于电子商务网站来说，获得高转化价值的流量大于纯流量。在广告或媒体行业，眼球可能更为重要，只有获得流量才是正确的。
　　所以我们需要考虑：
　　更高的流量会直接带来更高的收入吗？或者，您是否想确保从具有更好转化指标的关键词获得流量？关键词的价值
　　根据以上两点，关键词的值可以基于以下两个维度：
　　每月搜索量、收入潜力或与竞争水平相关的转化率
　　谷歌的关键字工具可用于查找相关的每月搜索量，但它没有提供更多信息。AdWords™ 提供了关键词程度的竞争，但您需要了解这些已经在这些关键词搜索结果中排名的网站的权威性。chrome的Mozbar扩展名，这个工具可以给我一些详细的数据。但对于更复杂的分析，建议使用 SerpIQ，如下图所示
　　
　　SEOmoz有一个名为关键字排名的报告，如下图所示
　　但他没有提供更详细的信息，以及SerpIQ，一种提供平均竞争指数的工具。
　　和搜索的意图
　　搜索每个位置的竞争索引
　　这些搜索结果网站的网页排名
　　反向链接数量
　　然后是域名的年龄
　　研究搜索者的意图
　　在优化转化率方面，了解目标受众的搜索意图至关重要。对关键词进行分类并根据不同的渠道和来源进行分析可以帮助我们了解用户的搜索意图。
　　开始学习
　　这里会用到的工具很多，谷歌提供的谷歌关键词工具一定少不了。使用此工具时，请记住选择完全匹配
　　以下是结果
　　给出这些关键词的搜索量和竞争水平，然后导出，通过Übersuggest获得更多关键词搜索建议
　　
　　如下图所示
　　这非常有用，因为它可以根据实际搜索行为捕获与目标关键字相关的所有潜在排列。您现在可以向下钻取到短语并选择要添加到列表中的子关键字。然后单击“获取”按钮生成一个允许您复制和粘贴的模态窗口。将您选择的相关关键字粘贴回Google关键字工具并重新运行以获取更多关键字数据的好处。提示：我发现当您一次输入少于 10 个关键字时，Google 关键字工具会提供更多建议关键字。
　　Wordtracker还有一个关键字建议工具虽然要真正从中获得任何果汁，你需要注册一个付费计划：/还有各种工具可以在付费搜索和自然搜索之间提供关键字使用和竞争力——其中一些非常好。SEMrush–为您提供有关搜索量，平均每次点击成本，竞争页面数量，相关关键字，排名结果，甚至当前购买广告空间的公司（单击放大）的奇妙见解。
　　SpyFu – 提供搜索量、每天的点击次数及其平均每日费用、当前对关键字出价的实际广告客户数量以及正在运行的实际 AdWord 广告（点击放大）。
　　– 是我快速了解风景的最爱之一。它非常快速地（通过使用选项卡）使您可以访问有关PPC广告，相关关键字短语，付费和自然竞争对手以及我的最爱的数据;拼写错误！您是否知道关键字研究每月估计有 110，000 次搜索！请参阅下面的仪表板屏幕截图（单击以放大）。
　　验证重大机遇
　　一旦你在Excel中有一个好的列表，重要的是要了解你的大机会，或者正如我的团队所说的那样;你的金票。首先，您需要通过Google趋势运行热门查询来了解季节性波动（点击放大）：
　　注意随时间推移的平均兴趣指数，因为它可能有点令人困惑; 这里的 100 代表有史以来最高的搜索量，它不是搜索次数的整数。所以你正在寻找的是目前的兴趣并没有完全下降，从图表来看，关键词研究的当前搜索量似乎比2010年8月下降了约50%。接下来，你使用一些第三方石蕊测试来了解一个话题到底有多受欢迎，一个安全的赌注是使用世界上最受欢迎的百科全书Wikipedia.Domas Mituzashas建立了一个统计引擎来跟踪维基百科的页面浏览量。在过去的90天里，我们可以看到这个词已经被浏览了7，554次（帽子提示Glen Allsoppfor分享了这一点）。点击放大。
　　创建关键字评估模型
　　评估关键词的相对机会还是很困难的。如果没有大量的数据存储和对竞争格局的详细见解，很容易将大量时间和金钱投入到定位永远不会带来稳定回报的关键字上。为了避免这种情况，而是只关注有排名和赚钱的地方，我认为最好使用评估方法。有许多方法，从复杂的公式（包括许多不同的启发式）到更简化的模型，旨在让您了解机会。
　　虽然我正在研究我的模型的缩减版本以赠送，但它还没有完全准备好——所以在这篇文章中，我们将使用平均简化版本。这比其他任何东西都更像是一个晴雨表，这些数据不应该用于制作商业案例，而只是为了给你一种机会感。我将使用SerpIQ的关键字竞争力评分，但您也可以使用SEOmoz的关键字难度评分或类似的东西来做到这一点。对机会进行评分需要一些简单的数学运算。
　　因此，对于此版本，我们将通过乘以竞争分数的反向折扣率（1减去竞争力指数百分比）来打折每月搜索量。对于这个例子，我将坚持我们的根短语，关键字研究，并使用其他2个密切相关的变体：
　　使用我们的快速和肮脏的评估模型（确切的每月搜索量 x （1 – CI%），我们得到：关键字研究机会得分（4，400 x （1-.68））= 1，408 关键字研究工具机会得分（720 x （1-.
　　65））= 252 关键字研究软件机会得分（480 x （1-.56））= 211.2 显示（快速记住）即使关键字研究在竞争方面要困难得多，在搜索流量定位关键字方面，它仍然是明显的赢家。这很有用，因为它考虑了与每月搜索量相关的机会，然后根据平均竞争对流量潜力进行折扣。
　　闭环
　　进行成功的关键字研究的一部分是每月留出时间来分析有效的方法，并相应地调整您的内容和链接策略。你在哪里看到SERP中最快的运动？某些术语在前 10/30/50 个位置之间的移动速度是否比其他术语快？哪些关键字最快到达第 1 页？最快进入前 5 名？问自己这些问题，请在下面的评论中与我分享您的想法——让我知道你的假设，或者更好的是你的
　　实际数据;分享你的研究，告诉我什么有效，什么无效，我很想和你聊天。查看全部

　　经验总结:总结收集日志的几种方法
　　介绍
　　到目前为止，我们已经看到采集
日志的方式有很多种。甚至，我们有很多种方法来采集
相同的日志。在今天的文章中，我将对其进行简要回顾。
　　由 Filebeat 采集
　　Filebeat是最常用的日志采集
方式。使用Filebeat，我们还有以下方法：
　　按模块采集
　　为了更方便的使用Filebeat采集数据，Elastic提供了模块供使用：
　　我们可以使用以下命令获取支持的模块：
　　 ./filebeat modules list
　　通过模块的使用，我们可以生成相应的ingest pipelines、dashboards、index patterns、index templates、ILM等，这些模块是我们会经常用到的模块。开箱即用的工具。
　　这种方法的路径是 Filebeat => Elasticsearch。关于模块的使用，可以参考《Beats：Beats入门教程（一）》一文。
　　使用Filebeat的输入日志采集
　　即使是通过上面介绍的模块方式采集
的日志，我们也可以使用这种方式来实现。但是，我们需要自己创建仪表板、摄取管道、索引模板、生命周期管理策略等。其实这是一种比较流行的回执采集
方式，特别是对于那些模块不支持的自定义日志。
　　

　　采集
这些数据的方式是：Filebeat => Elasticsearch。我们可以阅读之前的文章《Beats：通过Filebeat将日志传递给Elasticsearch》。
　　完成 Filebeat 和 Logstash
　　我们知道Logstash可以用来清洗数据，可以使用Logstash来丰富数据和外部数据库。另一方面，Logstash的使用提供了缓冲的作用，特别是对于产生大量日志的情况。
　　该方法采集到的路径为：Filebeat => Logstash => Elasticsearch。可以看我之前的文章《Logstash：Logstash入门教程（二）》，或者《Logstash：将Apache日志导入Elasticsearch》一文。
　　通过 Kafaka 采集
数据
　　对于大量数据，Kafaka 是一种比较常见的解决方案。它充当缓冲区：
　　详细阅读请参考《Elastic：用Kafka部署Elastic Stack》一文。
　　通过 Logstash 采集
　　在某些情况下，我们甚至可以直接使用Logstash来采集
日志数据。关于Logstash和Filebeat的区别，可以看《Beats：Elastic Beats介绍及与Logstash的比较》一文。
　　该方法的采集路径为：Logstash => Elasticsearch。可以阅读《Logstash：数据转换、分析、抽取、丰富和核心操作》、《Elastic：使用Elastic Stack分析Spring Boot微服务日志（一）》两篇文章。
　　通过 Elastic Agent 采集
　　随着Elastic Stack的发展，Elastic在最新发布的版本中更推崇使用Elastic Agent来采集
日志。
　　关于使用Elastic Agent的日志采集方式，我们也分为两类：
　　

　　支持的集成
　　为了方便大家的使用，Elastic也提供了类似开箱即用模块的解决方案。在最新版本中，我们使用提供的集成来完成日志采集
。
　　我们可以阅读以下文章来理解：
　　自定义日志
　　在很多情况下，我们的日志可能不属于 Elastic 提供的集成类别。那么我们如何将这些日志采集
到Elasticsearch中呢？事实上，Elastic 提供了一个叫做 Custom Logs 的集成，专门处理这个繁琐的需求。如果您想了解更多相关信息，请阅读文章“可观察性：如何使用 Elastic Agent 将自定义日志摄取到 Elasticsearch”。
　　直接在客户端写入日志到Elasticsearch
　　我们也可以直接在客户端以编程方式将日志写入 Elasticsearch。请阅读文章：
　　使用其他非 Elastic Stack 解决方案
　　其实结合Elastic Stack还有很多其他的解决方案，比如：
　　以上，我们列举了上面我能想到的方法。在实际使用中，开发者可能有更多的方法。如果还有更多，请告诉我。我会把这一切写下来。
　　文末
　　嗨，我们来互动吧！
　　喜欢这篇文章吗？
　　欢迎留下你想说的话，留言100%被选中！
　　核心方法:SEO关键词研究
　　关键词研究可能是SEO最重要的部分，除非您知道自己关键词目标是什么，否则您将无法开始营销活动，也无法评估成本和回报，除非您知道自己在竞争什么。
　　开始
　　关键词研究是关于了解用户在搜索信息时使用的单词，这通常包括了解关键词的搜索量以及这些单词的竞争程度。
　　关键词研究是搜索引擎优化和搜索营销的关键部分。因为如果使用得当，他可以帮助我们在开发网站和构建内容时提供路径。根据搜索查询的数量，关键词可分为头部、身体、长尾。一般来说，关键词的单词越多，竞争越少，相对激烈，更容易获得良好的排名
　　据说，一般来说，因为这个定律不是绝对的，所以会发生意外。下面是一些长尾关键词与主体和头部关键词的难度指数对比。
　　这个案例是一个长尾关键词容易竞争的点
　　在此示例中，长尾与头部一样困难关键词
　　这个例子是长尾关键词更难竞争
　　关键词难度
　　数据是通过SEOmoz的关键词难度工具获得的，根据经验，一般包括品牌的长尾关键词更难竞争，9/10的长尾关键词一般比主体和头部更容易关键词
　　2 视角
　　SEO一般可以分为两个目标：
　　获取流量并增加转化次数
　　很多SEO的坏处是过分强调获得流量而不是转化。这并不是说获得流量是错误的，而是关于您网站的目标。例如，对于电子商务网站来说，获得高转化价值的流量大于纯流量。在广告或媒体行业，眼球可能更为重要，只有获得流量才是正确的。
　　所以我们需要考虑：
　　更高的流量会直接带来更高的收入吗？或者，您是否想确保从具有更好转化指标的关键词获得流量？关键词的价值
　　根据以上两点，关键词的值可以基于以下两个维度：
　　每月搜索量、收入潜力或与竞争水平相关的转化率
　　谷歌的关键字工具可用于查找相关的每月搜索量，但它没有提供更多信息。AdWords™ 提供了关键词程度的竞争，但您需要了解这些已经在这些关键词搜索结果中排名的网站的权威性。chrome的Mozbar扩展名，这个工具可以给我一些详细的数据。但对于更复杂的分析，建议使用 SerpIQ，如下图所示
　　

　　SEOmoz有一个名为关键字排名的报告，如下图所示
　　但他没有提供更详细的信息，以及SerpIQ，一种提供平均竞争指数的工具。
　　和搜索的意图
　　搜索每个位置的竞争索引
　　这些搜索结果网站的网页排名
　　反向链接数量
　　然后是域名的年龄
　　研究搜索者的意图
　　在优化转化率方面，了解目标受众的搜索意图至关重要。对关键词进行分类并根据不同的渠道和来源进行分析可以帮助我们了解用户的搜索意图。
　　开始学习
　　这里会用到的工具很多，谷歌提供的谷歌关键词工具一定少不了。使用此工具时，请记住选择完全匹配
　　以下是结果
　　给出这些关键词的搜索量和竞争水平，然后导出，通过Übersuggest获得更多关键词搜索建议
　　

　　如下图所示
　　这非常有用，因为它可以根据实际搜索行为捕获与目标关键字相关的所有潜在排列。您现在可以向下钻取到短语并选择要添加到列表中的子关键字。然后单击“获取”按钮生成一个允许您复制和粘贴的模态窗口。将您选择的相关关键字粘贴回Google关键字工具并重新运行以获取更多关键字数据的好处。提示：我发现当您一次输入少于 10 个关键字时，Google 关键字工具会提供更多建议关键字。
　　Wordtracker还有一个关键字建议工具虽然要真正从中获得任何果汁，你需要注册一个付费计划：/还有各种工具可以在付费搜索和自然搜索之间提供关键字使用和竞争力——其中一些非常好。SEMrush–为您提供有关搜索量，平均每次点击成本，竞争页面数量，相关关键字，排名结果，甚至当前购买广告空间的公司（单击放大）的奇妙见解。
　　SpyFu – 提供搜索量、每天的点击次数及其平均每日费用、当前对关键字出价的实际广告客户数量以及正在运行的实际 AdWord 广告（点击放大）。
　　– 是我快速了解风景的最爱之一。它非常快速地（通过使用选项卡）使您可以访问有关PPC广告，相关关键字短语，付费和自然竞争对手以及我的最爱的数据;拼写错误！您是否知道关键字研究每月估计有 110，000 次搜索！请参阅下面的仪表板屏幕截图（单击以放大）。
　　验证重大机遇
　　一旦你在Excel中有一个好的列表，重要的是要了解你的大机会，或者正如我的团队所说的那样;你的金票。首先，您需要通过Google趋势运行热门查询来了解季节性波动（点击放大）：
　　注意随时间推移的平均兴趣指数，因为它可能有点令人困惑; 这里的 100 代表有史以来最高的搜索量，它不是搜索次数的整数。所以你正在寻找的是目前的兴趣并没有完全下降，从图表来看，关键词研究的当前搜索量似乎比2010年8月下降了约50%。接下来，你使用一些第三方石蕊测试来了解一个话题到底有多受欢迎，一个安全的赌注是使用世界上最受欢迎的百科全书Wikipedia.Domas Mituzashas建立了一个统计引擎来跟踪维基百科的页面浏览量。在过去的90天里，我们可以看到这个词已经被浏览了7，554次（帽子提示Glen Allsoppfor分享了这一点）。点击放大。
　　创建关键字评估模型
　　评估关键词的相对机会还是很困难的。如果没有大量的数据存储和对竞争格局的详细见解，很容易将大量时间和金钱投入到定位永远不会带来稳定回报的关键字上。为了避免这种情况，而是只关注有排名和赚钱的地方，我认为最好使用评估方法。有许多方法，从复杂的公式（包括许多不同的启发式）到更简化的模型，旨在让您了解机会。
　　虽然我正在研究我的模型的缩减版本以赠送，但它还没有完全准备好——所以在这篇文章中，我们将使用平均简化版本。这比其他任何东西都更像是一个晴雨表，这些数据不应该用于制作商业案例，而只是为了给你一种机会感。我将使用SerpIQ的关键字竞争力评分，但您也可以使用SEOmoz的关键字难度评分或类似的东西来做到这一点。对机会进行评分需要一些简单的数学运算。
　　因此，对于此版本，我们将通过乘以竞争分数的反向折扣率（1减去竞争力指数百分比）来打折每月搜索量。对于这个例子，我将坚持我们的根短语，关键字研究，并使用其他2个密切相关的变体：
　　使用我们的快速和肮脏的评估模型（确切的每月搜索量 x （1 – CI%），我们得到：关键字研究机会得分（4，400 x （1-.68））= 1，408 关键字研究工具机会得分（720 x （1-.
　　65））= 252 关键字研究软件机会得分（480 x （1-.56））= 211.2 显示（快速记住）即使关键字研究在竞争方面要困难得多，在搜索流量定位关键字方面，它仍然是明显的赢家。这很有用，因为它考虑了与每月搜索量相关的机会，然后根据平均竞争对流量潜力进行折扣。
　　闭环
　　进行成功的关键字研究的一部分是每月留出时间来分析有效的方法，并相应地调整您的内容和链接策略。你在哪里看到SERP中最快的运动？某些术语在前 10/30/50 个位置之间的移动速度是否比其他术语快？哪些关键字最快到达第 1 页？最快进入前 5 名？问自己这些问题，请在下面的评论中与我分享您的想法——让我知道你的假设，或者更好的是你的
　　实际数据;分享你的研究，告诉我什么有效，什么无效，我很想和你聊天。

实时文章采集

话题描述

相关话题

最佳回复者

1 人关注该话题