话题：云端内容采集 - 自动文章采集器-优采云官网

解决方案:云端内容采集+内容推送，游戏厂商如何以游戏生态在中国取得成功？

采集交流 • 优采云发表了文章 • 0 个评论 • 98 次浏览 • 2022-11-17 04:15 • 来自相关话题

　　解决方案:云端内容采集+内容推送，游戏厂商如何以游戏生态在中国取得成功？
　　云端内容采集+内容推送。游戏厂商可以在云端监控游戏内容的制作情况，如果设计有些ugc的游戏，还可以自动推送给玩家，以此获得收入。如果有相应的建站系统，直接也可以实现全平台共享内容。
　　
　　现在的appstore里面，已经有很多游戏社区提供第三方内容了。
　　已经有很多独立游戏从store上架了，游戏平台内是包含大量自己的游戏内容，包括玩法，声优等等。再说了，第三方平台一般只能在美国发售，对咱们来说影响力可能不足。（如果国内有这么一个网站和平台，
　　
　　steam已经有了，独立游戏就在自己的平台，
　　在未来在更加成熟和发达的市场将会有越来越多的游戏做独立化和工作室化生产实际上是内容和独立性，内容在于“不止于游戏”，而独立性则在于创造力，这两者是相辅相成的，只有创造力发达的平台或者说是环境里才能孕育出优秀的内容独立游戏indiegame,indiehousehouseprojects我曾经的回答：如何能够以游戏生态在中国取得成功？-rothleo的回答。
　　新游推荐一般有微博推荐和微信公众号，缺点是信息比较陈旧，内容专业性不强；其他还有一些社区，类似于独立游戏博客和独立游戏社区。做游戏社区并不是单纯为了扩大影响力和资金，游戏社区更重要的是提供更加全面的、精准的游戏推荐；独立游戏推荐本身需要解决的是相关游戏资讯、社区气氛、全网问答等问题；说白了，玩家看见你的，看不到别人的，中间要差个谁呢？独立游戏圈缺人；国内手游、页游、电影行业的战争啊。查看全部

　　解决方案:云端内容采集+内容推送，游戏厂商如何以游戏生态在中国取得成功？
　　云端内容采集+内容推送。游戏厂商可以在云端监控游戏内容的制作情况，如果设计有些ugc的游戏，还可以自动推送给玩家，以此获得收入。如果有相应的建站系统，直接也可以实现全平台共享内容。
　　

　　现在的appstore里面，已经有很多游戏社区提供第三方内容了。
　　已经有很多独立游戏从store上架了，游戏平台内是包含大量自己的游戏内容，包括玩法，声优等等。再说了，第三方平台一般只能在美国发售，对咱们来说影响力可能不足。（如果国内有这么一个网站和平台，
　　

　　steam已经有了，独立游戏就在自己的平台，
　　在未来在更加成熟和发达的市场将会有越来越多的游戏做独立化和工作室化生产实际上是内容和独立性，内容在于“不止于游戏”，而独立性则在于创造力，这两者是相辅相成的，只有创造力发达的平台或者说是环境里才能孕育出优秀的内容独立游戏indiegame,indiehousehouseprojects我曾经的回答：如何能够以游戏生态在中国取得成功？-rothleo的回答。
　　新游推荐一般有微博推荐和微信公众号，缺点是信息比较陈旧，内容专业性不强；其他还有一些社区，类似于独立游戏博客和独立游戏社区。做游戏社区并不是单纯为了扩大影响力和资金，游戏社区更重要的是提供更加全面的、精准的游戏推荐；独立游戏推荐本身需要解决的是相关游戏资讯、社区气氛、全网问答等问题；说白了，玩家看见你的，看不到别人的，中间要差个谁呢？独立游戏圈缺人；国内手游、页游、电影行业的战争啊。

最新版:怎样从列表页批量点击采集详情页内容.docx 11页

采集交流 • 优采云发表了文章 • 0 个评论 • 97 次浏览 • 2022-11-16 13:35 • 来自相关话题

　　最新版:怎样从列表页批量点击采集详情页内容.docx 11页
　　优采云·云采集网络爬虫软件优采云·云采集如何从列表页批量点击采集详情页内容新增标签是什么？指的是在浏览器中打开一个新页面，新标签页打开是指在浏览器中打开一个新页面并重新加载整个网页。常见应用场景当您在浏览器中点击某些页面选项时，例如点击京东商品列表中的商品，浏览器会打开一个新标签页，并加载该商品的详细页面。（如下图所示）此时需要将点击步骤设置为“在新标签页中打开页面”的高级选项。优采云中的页面介绍在优采云客户端中，新建标签选项一般是在“点击元素”这一步设置的，但不是所有的“点击元素” 需要设置一个新标签。只有满足一个条件才能设置，否则采集过程会出问题，无法采集数据。需要满足的条件是：当你在浏览器中执行相同的点击操作，浏览器自动打开一个新的标签页时，你需要在优采云的点击元素步骤中设置此项。操作示例示例URL：/news/gold-latest（黄金头条网站新闻频道）示例采集需求：采集页面第一条新闻news的详细内容。下面是具体的操作步骤 1、用户可以先在浏览器中测试一下，如下图，点击新闻标题的链接后，浏览器自动跳出一个新的页面，加载第一条的详细内容新闻，证明点击步骤是“
　　
　　在优采云中新建任务，打开样例网址3。因为需求只是针对第一条采集消息的详细内容，其他消息不需要采集，所以不循环，只要点击第一个新闻链接的标题，在提示框中选择“点击链接”即可。4、此时已经进入详情页，点击右上角“流程”，可以看到优采云流程图，包括“点击元素”步骤和右侧的高级选项，优采云已自动选中“在新选项卡中打开页面”。（如果优采云没有自动勾选，需要用户手动点击勾选）点击优采云中的文本内容，在采集中选择“采集该元素的文本”提示框。规则已完成。笔记：如果在浏览器中点击设置，但没有打开新标签页，而是在原网页中加载，说明该页面没有在新标签页中打开，可能是ajax加载页面，需要设置ajax加载设置。具体设置方法请参考《ajax功能点教程》。相关采集教程：网络爬虫视频教程/tutorial/videotutorial初学者视频采集tutorial/tutorial/videotutorial/videoxsrm优采云爬虫软件入门准备/tutorial/xsksrm/rmzb优采云爬虫软件功能使用教程/tutorial/gndxpath爬取网页文本/tutorial/gnd/xpath网页数据导出/tutorial/gnd/dataexport优采云——90万用户精选的网页数据采集器。但是在原网页加载，说明页面不是在新标签页打开，可能是ajax加载页面，需要设置ajax加载设置。具体设置方法请参考《ajax功能点教程》。相关采集教程：网络爬虫视频教程/tutorial/videotutorial初学者视频采集tutorial/tutorial/videotutorial/videoxsrm优采云爬虫软件入门准备/tutorial/xsksrm/rmzb优采云爬虫软件功能使用教程/tutorial/gndxpath爬取网页文本/tutorial/gnd/xpath网页数据导出/tutorial/gnd/dataexport优采云——90万用户精选的网页数据采集器。但是在原网页加载，说明页面不是在新标签页打开，可能是ajax加载页面，需要设置ajax加载设置。具体设置方法请参考《ajax功能点教程》。相关采集教程：网络爬虫视频教程/tutorial/videotutorial初学者视频采集tutorial/tutorial/videotutorial/videoxsrm优采云爬虫软件入门准备/tutorial/xsksrm/rmzb优采云爬虫软件功能使用教程/tutorial/gndxpath爬取网页文本/tutorial/gnd/xpath网页数据导出/tutorial/gnd/dataexport优采云——90万用户精选的网页数据采集器。具体设置方法请参考《ajax功能点教程》。相关采集教程：网络爬虫视频教程/tutorial/videotutorial初学者视频采集tutorial/tutorial/videotutorial/videoxsrm优采云爬虫软件入门准备/tutorial/xsksrm/rmzb优采云爬虫软件功能使用教程/tutorial/gndxpath爬取网页文本/tutorial/gnd/xpath网页数据导出/tutorial/gnd/dataexport优采云——90万用户精选的网页数据采集器。具体设置方法请参考《ajax功能点教程》。相关采集教程：网络爬虫视频教程/tutorial/videotutorial初学者视频采集tutorial/tutorial/videotutorial/videoxsrm优采云爬虫软件入门准备/tutorial/xsksrm/rmzb优采云爬虫软件功能使用教程/tutorial/gndxpath爬取网页文本/tutorial/gnd/xpath网页数据导出/tutorial/gnd/dataexport优采云——90万用户精选的网页数据采集器。
　　
　　1. 操作简单，任何人都可以使用：采集无需技术背景即可使用。流程完全可视化，点击鼠标即可完成操作，2分钟即可快速上手。2、功能强大，任何网站均可采集：对于点击、登录、翻页、识别验证码、瀑布流、Ajax脚本异步加载数据的网页，采集可通过处理简单的设置。3.云采集，你也可以关机了。采集任务配置完成后，可以关闭，任务可以在云端执行。庞大云采集集群24*7不间断运行，无需担心IP被封、网络中断。4.功能免费+增值服务，按需选择。免费版具有满足用户基本采集需求的所有功能。同时设置一些增值服务（如私有云），以满足高端付费企业用户的需求。
　　最新版:最新YGbook小说网自适应源码自动采集笔趣阁附详细图文安装教程
　　
　　通过新安装的直接安装压缩包中的安装教程执行本小说采集程序的好处是软解析不带小说采集的文字和图片，而是使用转码的情况在你的网站空间内实现建站！自带4条采集规则更快（相比原版我个人对源码做了一点优化，运行速度更流畅）网站源码深度SEO优化（网页快收录) 自适应（完美自适应手机/电脑端，设置已经自动填写，无需修改也会自适应）网站背景采集小说（无需要使用采集器，
　　教程
　　新颖的自动采集+【深度seo优化】+自适应=新颖的网站源码（原创模板）
　　默认图片地址：\\Public\\images\\nocover.jpg
　　
　　标志图片Public/bookpc/images/logo.png
　　请记住，采集之后的文章需要处理文章信息。至于自动采集，没仔细研究过。和之前的版本差别不大，有些东西已经优化了。，基本上第一次需要采集一些内容，后面的更新都是自动的，批量处理文章信息一定不能少。
　　这个好像写的很好，大家一起来试试这个源码，看看效果如何。
　　我已经下载了文件，嗯，写的很简单，我来细说一下，查看全部

　　在优采云中新建任务，打开样例网址3。因为需求只是针对第一条采集消息的详细内容，其他消息不需要采集，所以不循环，只要点击第一个新闻链接的标题，在提示框中选择“点击链接”即可。4、此时已经进入详情页，点击右上角“流程”，可以看到优采云流程图，包括“点击元素”步骤和右侧的高级选项，优采云已自动选中“在新选项卡中打开页面”。（如果优采云没有自动勾选，需要用户手动点击勾选）点击优采云中的文本内容，在采集中选择“采集该元素的文本”提示框。规则已完成。笔记：如果在浏览器中点击设置，但没有打开新标签页，而是在原网页中加载，说明该页面没有在新标签页中打开，可能是ajax加载页面，需要设置ajax加载设置。具体设置方法请参考《ajax功能点教程》。相关采集教程：网络爬虫视频教程/tutorial/videotutorial初学者视频采集tutorial/tutorial/videotutorial/videoxsrm优采云爬虫软件入门准备/tutorial/xsksrm/rmzb优采云爬虫软件功能使用教程/tutorial/gndxpath爬取网页文本/tutorial/gnd/xpath网页数据导出/tutorial/gnd/dataexport优采云——90万用户精选的网页数据采集器。但是在原网页加载，说明页面不是在新标签页打开，可能是ajax加载页面，需要设置ajax加载设置。具体设置方法请参考《ajax功能点教程》。相关采集教程：网络爬虫视频教程/tutorial/videotutorial初学者视频采集tutorial/tutorial/videotutorial/videoxsrm优采云爬虫软件入门准备/tutorial/xsksrm/rmzb优采云爬虫软件功能使用教程/tutorial/gndxpath爬取网页文本/tutorial/gnd/xpath网页数据导出/tutorial/gnd/dataexport优采云——90万用户精选的网页数据采集器。但是在原网页加载，说明页面不是在新标签页打开，可能是ajax加载页面，需要设置ajax加载设置。具体设置方法请参考《ajax功能点教程》。相关采集教程：网络爬虫视频教程/tutorial/videotutorial初学者视频采集tutorial/tutorial/videotutorial/videoxsrm优采云爬虫软件入门准备/tutorial/xsksrm/rmzb优采云爬虫软件功能使用教程/tutorial/gndxpath爬取网页文本/tutorial/gnd/xpath网页数据导出/tutorial/gnd/dataexport优采云——90万用户精选的网页数据采集器。具体设置方法请参考《ajax功能点教程》。相关采集教程：网络爬虫视频教程/tutorial/videotutorial初学者视频采集tutorial/tutorial/videotutorial/videoxsrm优采云爬虫软件入门准备/tutorial/xsksrm/rmzb优采云爬虫软件功能使用教程/tutorial/gndxpath爬取网页文本/tutorial/gnd/xpath网页数据导出/tutorial/gnd/dataexport优采云——90万用户精选的网页数据采集器。具体设置方法请参考《ajax功能点教程》。相关采集教程：网络爬虫视频教程/tutorial/videotutorial初学者视频采集tutorial/tutorial/videotutorial/videoxsrm优采云爬虫软件入门准备/tutorial/xsksrm/rmzb优采云爬虫软件功能使用教程/tutorial/gndxpath爬取网页文本/tutorial/gnd/xpath网页数据导出/tutorial/gnd/dataexport优采云——90万用户精选的网页数据采集器。
　　

　　1. 操作简单，任何人都可以使用：采集无需技术背景即可使用。流程完全可视化，点击鼠标即可完成操作，2分钟即可快速上手。2、功能强大，任何网站均可采集：对于点击、登录、翻页、识别验证码、瀑布流、Ajax脚本异步加载数据的网页，采集可通过处理简单的设置。3.云采集，你也可以关机了。采集任务配置完成后，可以关闭，任务可以在云端执行。庞大云采集集群24*7不间断运行，无需担心IP被封、网络中断。4.功能免费+增值服务，按需选择。免费版具有满足用户基本采集需求的所有功能。同时设置一些增值服务（如私有云），以满足高端付费企业用户的需求。
　　最新版:最新YGbook小说网自适应源码自动采集笔趣阁附详细图文安装教程
　　

　　通过新安装的直接安装压缩包中的安装教程执行本小说采集程序的好处是软解析不带小说采集的文字和图片，而是使用转码的情况在你的网站空间内实现建站！自带4条采集规则更快（相比原版我个人对源码做了一点优化，运行速度更流畅）网站源码深度SEO优化（网页快收录) 自适应（完美自适应手机/电脑端，设置已经自动填写，无需修改也会自适应）网站背景采集小说（无需要使用采集器，
　　教程
　　新颖的自动采集+【深度seo优化】+自适应=新颖的网站源码（原创模板）
　　默认图片地址：\\Public\\images\\nocover.jpg
　　

　　标志图片Public/bookpc/images/logo.png
　　请记住，采集之后的文章需要处理文章信息。至于自动采集，没仔细研究过。和之前的版本差别不大，有些东西已经优化了。，基本上第一次需要采集一些内容，后面的更新都是自动的，批量处理文章信息一定不能少。
　　这个好像写的很好，大家一起来试试这个源码，看看效果如何。
　　我已经下载了文件，嗯，写的很简单，我来细说一下，

最近发布:强大的UI组件集Telerik Web R3 2022亮点——发布全新主题、支持

采集交流 • 优采云发表了文章 • 0 个评论 • 76 次浏览 • 2022-11-15 14:33 • 来自相关话题

　　最近发布:强大的UI组件集Telerik Web R3 2022亮点——发布全新主题、支持
　　Telerik DevCraft 收录一个完整的堆栈，用于构建您的下一个 Web、移动和桌面应用程序。它为每个 .NET 平台使用 HTML 和 UI 库来加快开发速度。Telerik DevCraft 为构建现代和面向未来的业务应用程序提供了最完整的工具箱。
　　Telerik DevCraft R3 2022 官方下载
　　Telerik & Kendo UI 的新 Fluent 主题
　　全新的 Fluent 主题于 R3 2022 发布，正式可用于 Telerik 和 Kendo UI 库及其 Web UI 组件。与其他主题一样，新的 Fluent 主题遵循官方 Fluent 设计系统的指导方针，ASP.NET MVC、ASP.NET Core、Blazor、jQuery、Angular、React 和 Vue UI 组件可以立即使用 Fluent 设计系统进行样式设置，只要它们收录新主题。
　　如果您已经在 Web 应用程序中使用了 Fluent 主题中的组件，则通过添加 Fluent 主题，任何 Telerik 和 Kendo UI 组件都可以无缝地融入其中。
　　与最新的 .NET 7 预览版的兼容性
　　
　　释放
　　对于想要试用 Microsoft 最新功能的开发人员，适用于 Blazor 的 Telerik UI 和适用于 ASP.NET 核心库的 Telerik UI 与最新的 .NET 7 预览版 7 完全兼容。官方技术团队的目标是微软在今年 11 月发布。NET 7 提供全面支持。
　　辅助功能增强功能
　　在 R3 2022 中，所有 Telerik Web UI 组件的主要重点是进一步提高可访问性合规性级别，以及可用于参考点或直接 A11Y 测试的可用文档和演示。
　　新的 Telerik 文档处理功能
　　R3 2022 的所有 Telerik 文档处理库中都发布了新功能，以帮助开发人员更好地导航文档格式。新功能包括：
　　
　　更新字处理库
　　更新点差处理库
　　更新传播流处理库
　　更新 PdfProcessing 库
　　Telerik_KendoUI产品技术交流群：欢迎726377843加入群讨论
　　有关最新的剑道UI新闻，请关注Telerik中文网站！
　　解决方案:如何自动收集大批量现成的互联网业务
　　在过去的工作生活中，尽管创业初期的迷茫，但在个人和团队成熟之后，我们从未被“找项目”的问题所困扰。
　　因为我们有多种手段，从不同的角度去挖掘、采集、统计、捕捉存在于互联网各个角落的商机和业务。对我们来说，更重要的是项目的筛选。在我们看来，哪个机会多，哪个潜力大。除了之前分享的几个方法，今天再分享一个方法。如果说以前挖的是需求，那么今天这样挖的就是现成的业务。
　　信息挖掘是网络营销生存的基础，其次是信息筛选。今天，主要涉及信息挖掘。知识点： 1：在百度搜索时，加上“intitle”，搜索结果的标题必须有完整的关键词：
　　这几年这个功能变了，比如变聪明了，懂匹配了。偶尔有些东西没有完全包括在内，但不影响，大体上是一样的。2：百度搜索时，加上“inurl”，搜索后的结果链接必须有完整的字符：
　　单击这些结果，它们必须都是知乎列中的文章链接。3：百度搜索时，在搜索链接中加入“&rn=50”，一次可返回50条结果：
　　基于以上三点，这个文章就是利用这个功能来挖掘“互联网引流者手中的业务”。
　　“私域流量”这个词是近两年流行起来的。每个人都希望把流量放在自己的私域里，由自己控制，不受平台控制。能称为私域流量的地方并不多。基本上腾讯的产品是霸道的：微信、QQ、群、公众号、个人网站除了单纯的买卖流量，大部分人不会把流量引到号召以外的地方。所以，每一个引流人，不管做的是什么生意，最终都会想方设法在引流内容中留下自己的“私域流量”联系方式。为了向用户解释频道，在留下联系方式时必须加上必要的前缀，例如：“家伟”。考虑到平台的封禁政策，我们不得不绞尽脑汁想出各种谐音字，比如“嘉伟”、“+伟”。而这些前缀就是我们今天的关键词。我们需要通过申诉搜索引擎的特殊排序，批量采集别人的现成业务，加上这些前缀。Step 1：采集联合诉求，我们可以想到：
　　“inurl”后面的链接就是我们要采集的平台。对于这个平台，我们选择了号称“全球最大的中文社区”的百度贴吧。这个标题有点虚构，却是真实的。在移动端，百度贴吧依然是集“社交”和“论坛”为一体的顶级应用。在PC端，贴吧作为百度之子，几乎占据了其他兄弟产品的No.1。如果你搜索一个词，就会有贴吧。另外，我们都知道百度引流贴吧几乎是每个互联网新手老手都做过的事情。那么“inurl”怎么写呢？这个命令的意思是我们希望搜索结果链接中一定收录我们填写的字符串，关键词"加微" 我们在标题中搜索的是希望出现在贴吧主帖标题中的。贴吧主帖的链接是：
　　https://tieba.baidu.com/p/000000000
　　每个帖子的格式都一样，后面的一串数字代表不同的帖子。所以“inurl”的值应该是：
　　tieba.baidu.com/p/
　　这样就可以搜索到所有的百度贴吧话题帖：
　　以下是我们的搜索结果：
　　世上有各种各样的事，只有我们想不到的，没有别人做不到的。当然，并不是所有的业务都适合我们，也不是所有的业务都适合做，而我们要的是现成的，除了要知道ta在做什么，还要知道怎么做，所以就是有必要采集所有这些信息进行研究。信息的采集非常简单。不需要懂技术，用我之前分享的“网络爬虫”来采集就可以了。如果您不知道如何使用它，这是门户网站。请参阅其中的步骤 1：
　　对于这个集合，对于每个搜索结果，我们只需要标题和标题对应的链接：
　　下面新建一个ws project工程（不懂ws的可以从上面的文章学习，下面讲解的一些操作步骤忽略）：
　　
　　重点看三个红框的内容：我们在百度搜索：intitle:"jiawei" inurl:/p/intitle:"jiawei" inurl:/p/就是这次搜索的关键词。搜索后会在浏览器链接框（第一个红框）中显示对应的百度链接。一般我们搜索后显示的链接是类似这样的：
　　密串，这是因为链接中收录各种字段，每个字段都有对应的代表信息，又因为不是每个字段都是必填的，所以上面第一个红框里的链接是我预留的必填字段，其他不需要的字段直接去掉，这样就清楚多了。链接字段之间用“&”分隔，除了第一个字段用“?”，其他字段都需要在前面加上“&”来表示分隔。在上诉的搜索链接中：
　　wd字段等于的值就是我们要查找的关键词，里面会有一些"%"和数字，转义后浏览器会显示出来，不用担心，"rn"就是上面提到返回50个结果的作用。“pn”是百度的分页格式，pn=0表示第一页，pn=50表示第二页，以此类推，每页递增50。如果我们把这个链接复制到其他地方，它会是这样的：
　　https://www.baidu.com/s%3Fwd%3 ... n%3D0
　　“wd”后面的关键词就变成了一串乱码。这是浏览器的 URL 编码。别着急，理解就好了，那么现在回头看看上图：
　　这次我们为采集创建了一个新项目。这个项目的配置不会变，因为都是采集百度结果页，但是我们可能采集不同的词，比如“嘉伟”和“嘉伟”，链接需要改一下如果单词不同，则每次采集都需要更改“起始 URL”。当我们切换到其他关键词时：
　　先把浏览器链接中的“嘉伟”改成“嘉伟”，然后直接回车搜索。搜索后，将浏览器上的链接复制到下图红框中，保存并重新开始。一轮征集。当然，“pn”的值复制后需要改变，不能直接等于0。百度的搜索结果最多只能显示76页，而我们的搜索（每页返回50条）只会显示10最多大约页面。因此，每次搜索新词，首先要确认“pn”可以是多少：
　　每次有5页或者10页，等到没有了，查看上面浏览器链接中的pn，然后按照刚才的链接格式填写“起始URL”，将pn设置为对应的值. 现在让我们设置用于抓取标题的“选择器”：
　　点击后，标题已经过滤掉，保存并启动采集。采集资料到此结束，完全不需要什么技术，如果看不懂，那一定是对ws的基础了解不够，回头看看之前的文章，先学习一下。你可能会奇怪，一页有50条结果，十几页只有几百条结果，数据量很小。事实上，足够了。每次我们搜集百度能返回的最多的结果，我们刚才说的前缀“加微”就可以演化出各种形式。根据以往看到的，我们可以发挥想象，每个词都能抓到几百甚至上千个，单独采集上千个是没有问题的，足够我们挖掘了。这些词包括但不限于：Jiawei、Jiawei、Jiawei、Jiawei、Jiawei、+V、vx 以及各种组合。另外，我们只搜微信，加群，加Q，关注公众号等等，光是公众号就有各种变体，抖音和贴吧的公众号也有很多变体不见了。Step 2: Organize 这是本次测试采集的数据（2000+，标题需要去重）：
　　第一个是“迪拜包机”生意，啧啧啧，这生意可真大，因为对方是引流，所以要说明一下TA能提供什么，所以每一个标题都是清晰明了的商家信息. 那么如何使用这些数据呢？刚才我们讲到，我们需要现成的业务，现在业务都在这个表里面。我们知道他们在做什么，然后我们需要了解他们是如何做的。由于数据量大，我们有必要优先筛选。评选标准是：“迪拜包机，有需要的朋友微博150********6357[UAE]...”这样的标题，我们很清楚他在做什么，因为“迪拜”和“包机”都写得很清楚。对于诸如“
　　因此，我们显然优先考虑那些可以从标题直接看到业务信息的帖子。这两个标题的区别在于：没有明确业务信息的标题填充了一些常用词，比如：加微、联系、进入、查找各种标题中出现像我这样的常用词，但是如果只有这些词一个标题，它是一个没有明确信息的标题。PS：以下操作需要用到Python，不懂的朋友可以先看下，后面会慢慢更新一些需要用到的Python小工具。因此，我们首先将所有的标题进行分词，统计词频。因为这些常用词出现在很多标题中，所以很容易统计出它们：
　　如上，在这些高频词中，如：百度、家微、需要、欢迎、沟通、联系等，对我们了解商业信息并无帮助。在这些词中，我们看一下它们，认为它们很常见，对我们理解信息没有帮助。我们可以把它们挑出来放在图书馆里。假设它被称为：无效词库。在无效词库中取一个词根进行比较，存在则去掉，不存在则保留。最终没有明显业务信息的title会返回空，有业务信息的title会返回关键信息，然后一一匹配：
　　如上图，第一列的title是我们采集到的，第二列是我们从title中的贴吧 name字段中取出来的，第三列是我们取完后得到的第二列用于分词和去除无效词。您可以看到类似以下内容：
　　红框内两列的标题没有关键信息，都是常用词。单从标题是看不出来的，所以经过计算，返回的是空的。我们稍后会研究这种目标。现在我们过滤掉第三列（stem）为空：
　　
　　最后，我们首先需要知道的数据：
　　主要看“关键”一栏，一看就够了。如果关键词是我们感兴趣的内容，点击右侧对应的百度快照链接，即可进入原帖页面：
　　以上是朋友给别人推荐的配置。他玩游戏，预算不高，可以给闲鱼或者微信引流量。当我们对某项业务感兴趣时，我们应该怎么做？直接加微信，加完直接问，或者观察朋友圈一周左右，基本了解他的业务。如果我们对他的生意感兴趣，想估计他能赚多少钱，大体的逻辑可以根据我的知乎专栏第二个文章的第5步，这里是传送门：如果了解了这些你还对这门生意感兴趣，那你就要知道怎么引流了。这个业务的基本门槛是多少？首先是门槛，需要多少钱，要准备什么工具和资源，需要多少时间来操作，需要多少人，具体项目情况不同，只能根据个人常识和经验判断。二是如何引流，太简单了，拿他的联系方式去搜索引擎搜索：
　　能搜到的地方随便搜，只要他在网上留下痕迹，大部分都能查到。当然，我们也可以想到一些引流渠道。这样一来，搜索不仅仅是基于通道，更重要的是确认是否可以安全引流。比如有人在贴吧上拉流量，我们就把贴吧都搜了一遍，不过这也有价值，一个贴吧可以被很多人打广告，何乐而不为贴吧关注的人不多，或者没有管理员，他可以导流我们，我们也可以。但是不要以为没人关注就没有引流的价值。贴吧里的引流不一定给贴吧里的用户看。别忘了还有搜索，只要我们的帖子不被删，有机会被搜身。有些人只是在寻找这种东西，很多贴吧从来没有听说过：
　　像这样，贴吧关注的人不多，发一个长尾词排版的标题，发文内容开头写着看头像，名字设为微信ID，内容与标题无关。但是一搜他的微信号（一些脏话都删掉了）：
　　说到这里，我们刚刚采集的原创标题收录很多贴吧名字：
　　除了标题本身太长，否则会有一个名字收录贴吧，我们按照格式提取出来（Excel，Python都可以），这里经常出现的贴吧是更好的帖子贴吧，很可能很久没人管了。有些人专门发长尾词，搜索量很低。几乎没有人和他比，然后发到贴吧不会被删。随着时间的推移，这个领域的大部分长尾需求已经产生。到现在，他在这个小众领域几乎霸屏了，我们随便一搜都能找到他的身影。小改进： 1：结合微信、QQ、群、公众号、扫码等核心词，发挥你的想象力，想出尽可能多的词来搜索，能想到的越多，你比别人能找到的信息越多，信息鸿沟就这样出来了。2：我们演示的是贴吧，除了贴吧，百度知乎、豆瓣、简书等都可以采集。3：在《Word文本向量分类》中介绍过，这是一种广义的挖掘方法。如果你限定了一个领域，可以结合该领域的核心词来挖掘：
　　这个时候，你能挖掘的范围是无穷无尽的。4：搜索引擎可以自定义时间范围，如果你在意时效性：
　　当然，这个搜索的内容会相对少很多。题外话：
　　近期，几项发掘思路和方法相继发表。想法本身不是目标，而是实现的关键。这需要一些基本的能力，所以一定要知道学习的方向，学什么需要用什么。这些年经历了很多工作内容，学习了很多工作技巧，但是一直没有整理出来，所以在接下来的更新中，会慢慢加入特殊技能科普的文章。
　　知乎里面的“好物推荐”的文章我删掉了，因为我考虑分一两个人操作这个思路，我比较乐观，所以不放文章在开放平台传播一下，公众号比较私密，放在这里给有需要的粉丝。如果你有条件，我建议你尽快尝试。除了知乎放在签名中外，该公众号目前没有使用任何引流方式。我倾向于认为公众号应该靠内容来吸引和留住粉丝。
　　如果您觉得我发的文章还不错，对您有帮助和启发，请点赞和分享我的文章，谢谢！查看全部

　　释放
　　对于想要试用 Microsoft 最新功能的开发人员，适用于 Blazor 的 Telerik UI 和适用于 ASP.NET 核心库的 Telerik UI 与最新的 .NET 7 预览版 7 完全兼容。官方技术团队的目标是微软在今年 11 月发布。NET 7 提供全面支持。
　　辅助功能增强功能
　　在 R3 2022 中，所有 Telerik Web UI 组件的主要重点是进一步提高可访问性合规性级别，以及可用于参考点或直接 A11Y 测试的可用文档和演示。
　　新的 Telerik 文档处理功能
　　R3 2022 的所有 Telerik 文档处理库中都发布了新功能，以帮助开发人员更好地导航文档格式。新功能包括：
　　

　　更新字处理库
　　更新点差处理库
　　更新传播流处理库
　　更新 PdfProcessing 库
　　Telerik_KendoUI产品技术交流群：欢迎726377843加入群讨论
　　有关最新的剑道UI新闻，请关注Telerik中文网站！
　　解决方案:如何自动收集大批量现成的互联网业务
　　在过去的工作生活中，尽管创业初期的迷茫，但在个人和团队成熟之后，我们从未被“找项目”的问题所困扰。
　　因为我们有多种手段，从不同的角度去挖掘、采集、统计、捕捉存在于互联网各个角落的商机和业务。对我们来说，更重要的是项目的筛选。在我们看来，哪个机会多，哪个潜力大。除了之前分享的几个方法，今天再分享一个方法。如果说以前挖的是需求，那么今天这样挖的就是现成的业务。
　　信息挖掘是网络营销生存的基础，其次是信息筛选。今天，主要涉及信息挖掘。知识点： 1：在百度搜索时，加上“intitle”，搜索结果的标题必须有完整的关键词：
　　这几年这个功能变了，比如变聪明了，懂匹配了。偶尔有些东西没有完全包括在内，但不影响，大体上是一样的。2：百度搜索时，加上“inurl”，搜索后的结果链接必须有完整的字符：
　　单击这些结果，它们必须都是知乎列中的文章链接。3：百度搜索时，在搜索链接中加入“&rn=50”，一次可返回50条结果：
　　基于以上三点，这个文章就是利用这个功能来挖掘“互联网引流者手中的业务”。
　　“私域流量”这个词是近两年流行起来的。每个人都希望把流量放在自己的私域里，由自己控制，不受平台控制。能称为私域流量的地方并不多。基本上腾讯的产品是霸道的：微信、QQ、群、公众号、个人网站除了单纯的买卖流量，大部分人不会把流量引到号召以外的地方。所以，每一个引流人，不管做的是什么生意，最终都会想方设法在引流内容中留下自己的“私域流量”联系方式。为了向用户解释频道，在留下联系方式时必须加上必要的前缀，例如：“家伟”。考虑到平台的封禁政策，我们不得不绞尽脑汁想出各种谐音字，比如“嘉伟”、“+伟”。而这些前缀就是我们今天的关键词。我们需要通过申诉搜索引擎的特殊排序，批量采集别人的现成业务，加上这些前缀。Step 1：采集联合诉求，我们可以想到：
　　“inurl”后面的链接就是我们要采集的平台。对于这个平台，我们选择了号称“全球最大的中文社区”的百度贴吧。这个标题有点虚构，却是真实的。在移动端，百度贴吧依然是集“社交”和“论坛”为一体的顶级应用。在PC端，贴吧作为百度之子，几乎占据了其他兄弟产品的No.1。如果你搜索一个词，就会有贴吧。另外，我们都知道百度引流贴吧几乎是每个互联网新手老手都做过的事情。那么“inurl”怎么写呢？这个命令的意思是我们希望搜索结果链接中一定收录我们填写的字符串，关键词"加微" 我们在标题中搜索的是希望出现在贴吧主帖标题中的。贴吧主帖的链接是：
　　https://tieba.baidu.com/p/000000000
　　每个帖子的格式都一样，后面的一串数字代表不同的帖子。所以“inurl”的值应该是：
　　tieba.baidu.com/p/
　　这样就可以搜索到所有的百度贴吧话题帖：
　　以下是我们的搜索结果：
　　世上有各种各样的事，只有我们想不到的，没有别人做不到的。当然，并不是所有的业务都适合我们，也不是所有的业务都适合做，而我们要的是现成的，除了要知道ta在做什么，还要知道怎么做，所以就是有必要采集所有这些信息进行研究。信息的采集非常简单。不需要懂技术，用我之前分享的“网络爬虫”来采集就可以了。如果您不知道如何使用它，这是门户网站。请参阅其中的步骤 1：
　　对于这个集合，对于每个搜索结果，我们只需要标题和标题对应的链接：
　　下面新建一个ws project工程（不懂ws的可以从上面的文章学习，下面讲解的一些操作步骤忽略）：
　　

　　重点看三个红框的内容：我们在百度搜索：intitle:"jiawei" inurl:/p/intitle:"jiawei" inurl:/p/就是这次搜索的关键词。搜索后会在浏览器链接框（第一个红框）中显示对应的百度链接。一般我们搜索后显示的链接是类似这样的：
　　密串，这是因为链接中收录各种字段，每个字段都有对应的代表信息，又因为不是每个字段都是必填的，所以上面第一个红框里的链接是我预留的必填字段，其他不需要的字段直接去掉，这样就清楚多了。链接字段之间用“&”分隔，除了第一个字段用“?”，其他字段都需要在前面加上“&”来表示分隔。在上诉的搜索链接中：
　　wd字段等于的值就是我们要查找的关键词，里面会有一些"%"和数字，转义后浏览器会显示出来，不用担心，"rn"就是上面提到返回50个结果的作用。“pn”是百度的分页格式，pn=0表示第一页，pn=50表示第二页，以此类推，每页递增50。如果我们把这个链接复制到其他地方，它会是这样的：
　　https://www.baidu.com/s%3Fwd%3 ... n%3D0
　　“wd”后面的关键词就变成了一串乱码。这是浏览器的 URL 编码。别着急，理解就好了，那么现在回头看看上图：
　　这次我们为采集创建了一个新项目。这个项目的配置不会变，因为都是采集百度结果页，但是我们可能采集不同的词，比如“嘉伟”和“嘉伟”，链接需要改一下如果单词不同，则每次采集都需要更改“起始 URL”。当我们切换到其他关键词时：
　　先把浏览器链接中的“嘉伟”改成“嘉伟”，然后直接回车搜索。搜索后，将浏览器上的链接复制到下图红框中，保存并重新开始。一轮征集。当然，“pn”的值复制后需要改变，不能直接等于0。百度的搜索结果最多只能显示76页，而我们的搜索（每页返回50条）只会显示10最多大约页面。因此，每次搜索新词，首先要确认“pn”可以是多少：
　　每次有5页或者10页，等到没有了，查看上面浏览器链接中的pn，然后按照刚才的链接格式填写“起始URL”，将pn设置为对应的值. 现在让我们设置用于抓取标题的“选择器”：
　　点击后，标题已经过滤掉，保存并启动采集。采集资料到此结束，完全不需要什么技术，如果看不懂，那一定是对ws的基础了解不够，回头看看之前的文章，先学习一下。你可能会奇怪，一页有50条结果，十几页只有几百条结果，数据量很小。事实上，足够了。每次我们搜集百度能返回的最多的结果，我们刚才说的前缀“加微”就可以演化出各种形式。根据以往看到的，我们可以发挥想象，每个词都能抓到几百甚至上千个，单独采集上千个是没有问题的，足够我们挖掘了。这些词包括但不限于：Jiawei、Jiawei、Jiawei、Jiawei、Jiawei、+V、vx 以及各种组合。另外，我们只搜微信，加群，加Q，关注公众号等等，光是公众号就有各种变体，抖音和贴吧的公众号也有很多变体不见了。Step 2: Organize 这是本次测试采集的数据（2000+，标题需要去重）：
　　第一个是“迪拜包机”生意，啧啧啧，这生意可真大，因为对方是引流，所以要说明一下TA能提供什么，所以每一个标题都是清晰明了的商家信息. 那么如何使用这些数据呢？刚才我们讲到，我们需要现成的业务，现在业务都在这个表里面。我们知道他们在做什么，然后我们需要了解他们是如何做的。由于数据量大，我们有必要优先筛选。评选标准是：“迪拜包机，有需要的朋友微博150********6357[UAE]...”这样的标题，我们很清楚他在做什么，因为“迪拜”和“包机”都写得很清楚。对于诸如“
　　因此，我们显然优先考虑那些可以从标题直接看到业务信息的帖子。这两个标题的区别在于：没有明确业务信息的标题填充了一些常用词，比如：加微、联系、进入、查找各种标题中出现像我这样的常用词，但是如果只有这些词一个标题，它是一个没有明确信息的标题。PS：以下操作需要用到Python，不懂的朋友可以先看下，后面会慢慢更新一些需要用到的Python小工具。因此，我们首先将所有的标题进行分词，统计词频。因为这些常用词出现在很多标题中，所以很容易统计出它们：
　　如上，在这些高频词中，如：百度、家微、需要、欢迎、沟通、联系等，对我们了解商业信息并无帮助。在这些词中，我们看一下它们，认为它们很常见，对我们理解信息没有帮助。我们可以把它们挑出来放在图书馆里。假设它被称为：无效词库。在无效词库中取一个词根进行比较，存在则去掉，不存在则保留。最终没有明显业务信息的title会返回空，有业务信息的title会返回关键信息，然后一一匹配：
　　如上图，第一列的title是我们采集到的，第二列是我们从title中的贴吧 name字段中取出来的，第三列是我们取完后得到的第二列用于分词和去除无效词。您可以看到类似以下内容：
　　红框内两列的标题没有关键信息，都是常用词。单从标题是看不出来的，所以经过计算，返回的是空的。我们稍后会研究这种目标。现在我们过滤掉第三列（stem）为空：
　　

　　最后，我们首先需要知道的数据：
　　主要看“关键”一栏，一看就够了。如果关键词是我们感兴趣的内容，点击右侧对应的百度快照链接，即可进入原帖页面：
　　以上是朋友给别人推荐的配置。他玩游戏，预算不高，可以给闲鱼或者微信引流量。当我们对某项业务感兴趣时，我们应该怎么做？直接加微信，加完直接问，或者观察朋友圈一周左右，基本了解他的业务。如果我们对他的生意感兴趣，想估计他能赚多少钱，大体的逻辑可以根据我的知乎专栏第二个文章的第5步，这里是传送门：如果了解了这些你还对这门生意感兴趣，那你就要知道怎么引流了。这个业务的基本门槛是多少？首先是门槛，需要多少钱，要准备什么工具和资源，需要多少时间来操作，需要多少人，具体项目情况不同，只能根据个人常识和经验判断。二是如何引流，太简单了，拿他的联系方式去搜索引擎搜索：
　　能搜到的地方随便搜，只要他在网上留下痕迹，大部分都能查到。当然，我们也可以想到一些引流渠道。这样一来，搜索不仅仅是基于通道，更重要的是确认是否可以安全引流。比如有人在贴吧上拉流量，我们就把贴吧都搜了一遍，不过这也有价值，一个贴吧可以被很多人打广告，何乐而不为贴吧关注的人不多，或者没有管理员，他可以导流我们，我们也可以。但是不要以为没人关注就没有引流的价值。贴吧里的引流不一定给贴吧里的用户看。别忘了还有搜索，只要我们的帖子不被删，有机会被搜身。有些人只是在寻找这种东西，很多贴吧从来没有听说过：
　　像这样，贴吧关注的人不多，发一个长尾词排版的标题，发文内容开头写着看头像，名字设为微信ID，内容与标题无关。但是一搜他的微信号（一些脏话都删掉了）：
　　说到这里，我们刚刚采集的原创标题收录很多贴吧名字：
　　除了标题本身太长，否则会有一个名字收录贴吧，我们按照格式提取出来（Excel，Python都可以），这里经常出现的贴吧是更好的帖子贴吧，很可能很久没人管了。有些人专门发长尾词，搜索量很低。几乎没有人和他比，然后发到贴吧不会被删。随着时间的推移，这个领域的大部分长尾需求已经产生。到现在，他在这个小众领域几乎霸屏了，我们随便一搜都能找到他的身影。小改进： 1：结合微信、QQ、群、公众号、扫码等核心词，发挥你的想象力，想出尽可能多的词来搜索，能想到的越多，你比别人能找到的信息越多，信息鸿沟就这样出来了。2：我们演示的是贴吧，除了贴吧，百度知乎、豆瓣、简书等都可以采集。3：在《Word文本向量分类》中介绍过，这是一种广义的挖掘方法。如果你限定了一个领域，可以结合该领域的核心词来挖掘：
　　这个时候，你能挖掘的范围是无穷无尽的。4：搜索引擎可以自定义时间范围，如果你在意时效性：
　　当然，这个搜索的内容会相对少很多。题外话：
　　近期，几项发掘思路和方法相继发表。想法本身不是目标，而是实现的关键。这需要一些基本的能力，所以一定要知道学习的方向，学什么需要用什么。这些年经历了很多工作内容，学习了很多工作技巧，但是一直没有整理出来，所以在接下来的更新中，会慢慢加入特殊技能科普的文章。
　　知乎里面的“好物推荐”的文章我删掉了，因为我考虑分一两个人操作这个思路，我比较乐观，所以不放文章在开放平台传播一下，公众号比较私密，放在这里给有需要的粉丝。如果你有条件，我建议你尽快尝试。除了知乎放在签名中外，该公众号目前没有使用任何引流方式。我倾向于认为公众号应该靠内容来吸引和留住粉丝。
　　如果您觉得我发的文章还不错，对您有帮助和启发，请点赞和分享我的文章，谢谢！

正式推出:百度普通收录的云端抓取，云端推送的功能网站,迅睿CMS

采集交流 • 优采云发表了文章 • 0 个评论 • 104 次浏览 • 2022-11-12 14:44 • 来自相关话题

　　正式推出:百度普通收录的云端抓取，云端推送的功能网站,迅睿CMS
　　我用迅瑞cms做了一个百度普通收录云抓拍，云推送功能网站。闲置也是闲置，免费开放给大家使用。
　　
　　注册成为会员后，即可在会员群中申请免费推送会员群，并使用API数据插件获取会员信息。
　　
　　功能是每天自动抓取网站地图或TXT中的URL链接，提交到对应的百度API，365天不休息，自动抓取，自动推送。
　　横空出世:如何优化新网站获得大量长尾词排名？
　　网站上线后会先收录首页。一两周开始时没有收录内容和快照更新。如果过度优化，沙盒将花费更长的时间。对于新推出的网站，尽量不要收录很多文章、伪原创。慢慢做一些优质的链，比如稳定的搜索引擎收录，等待百度信任我们的网站。
　　关键词分为核心关键词、核心关键词变体（同义词、同义词、缩写、拼写错误）、优秀关键词、次要关键词、长尾关键词。A 网站一般来说，首页的权重比较高，所以不要在首页叠加关键词，但要注意关键词的优化。
　　
　　SEO内容为王！确保您的网站文章是连续的、高质量的，原创文章！不要试图立即对您的网站进行排名。你所要做的就是做你自己。你认为搜索引擎是用来做什么的？搜索引擎的目的是及时解决用户的需求，改善用户体验。这样你的文章就可以围绕用户的需求，及时展示高质量的原创文章（可以解决用户的问题）！
　　内部页面优化收录标题优化，页面关键字放置，ALT标签，粗体，斜体，nofollow标签。您不能在一个文章中使用多个 H 标签。H标签主要用于突出主题，不能滥用。粗体标签也应谨慎使用。一般一个文章3-5条就够了，ALT描述结合实际图片，不要堆积太多关键词。
　　
　　做链的一个重要指标是网站每个链接没有死链接，有没有404页？网站标准化了吗？网页 URL 设置是否正确？机器人文件之间存在合理准确的链接。另外，请记住，您不能跨页面使用相同的锚文本链接，您应该多样化。
　　很多网站都有网站maps，主要是为了帮助搜索引擎蜘蛛正确快速的搜索和爬取网站，不是给人看的，是给蜘蛛看的。查看全部

　　正式推出:百度普通收录的云端抓取，云端推送的功能网站,迅睿CMS
　　我用迅瑞cms做了一个百度普通收录云抓拍，云推送功能网站。闲置也是闲置，免费开放给大家使用。
　　

　　注册成为会员后，即可在会员群中申请免费推送会员群，并使用API数据插件获取会员信息。
　　

　　功能是每天自动抓取网站地图或TXT中的URL链接，提交到对应的百度API，365天不休息，自动抓取，自动推送。
　　横空出世:如何优化新网站获得大量长尾词排名？
　　网站上线后会先收录首页。一两周开始时没有收录内容和快照更新。如果过度优化，沙盒将花费更长的时间。对于新推出的网站，尽量不要收录很多文章、伪原创。慢慢做一些优质的链，比如稳定的搜索引擎收录，等待百度信任我们的网站。
　　关键词分为核心关键词、核心关键词变体（同义词、同义词、缩写、拼写错误）、优秀关键词、次要关键词、长尾关键词。A 网站一般来说，首页的权重比较高，所以不要在首页叠加关键词，但要注意关键词的优化。
　　

　　SEO内容为王！确保您的网站文章是连续的、高质量的，原创文章！不要试图立即对您的网站进行排名。你所要做的就是做你自己。你认为搜索引擎是用来做什么的？搜索引擎的目的是及时解决用户的需求，改善用户体验。这样你的文章就可以围绕用户的需求，及时展示高质量的原创文章（可以解决用户的问题）！
　　内部页面优化收录标题优化，页面关键字放置，ALT标签，粗体，斜体，nofollow标签。您不能在一个文章中使用多个 H 标签。H标签主要用于突出主题，不能滥用。粗体标签也应谨慎使用。一般一个文章3-5条就够了，ALT描述结合实际图片，不要堆积太多关键词。
　　

　　做链的一个重要指标是网站每个链接没有死链接，有没有404页？网站标准化了吗？网页 URL 设置是否正确？机器人文件之间存在合理准确的链接。另外，请记住，您不能跨页面使用相同的锚文本链接，您应该多样化。
　　很多网站都有网站maps，主要是为了帮助搜索引擎蜘蛛正确快速的搜索和爬取网站，不是给人看的，是给蜘蛛看的。

解决方案:是否可以将应用部署在云端，数据库放在本地IDC，然后通过VPN实现互联？

采集交流 • 优采云发表了文章 • 0 个评论 • 75 次浏览 • 2022-11-11 06:40 • 来自相关话题

　　解决方案:是否可以将应用部署在云端，数据库放在本地IDC，然后通过VPN实现互联？
　　更新时间：2022-11-09 GMT+08:00
　　查看 PDF
　　链接复制成功！
　　
　　是否可以将应用部署在云端，将数据库放在本地IDC，然后通过VPN实现互联？
　　能。
　　VPN连接两个子网，即云上的VPC网络和用户数据中心网络。
　　VPN建立成功后，两个子网之间可以运行任何类型的业务流量。此时应用服务器访问数据库业务在逻辑上与访问同一局域网内的其他主机在逻辑上是一样的，所以这种方案是可行的。
　　
　　此场景是IPsec VPN的典型场景，请放心使用。
　　同时，VPN连接后，不限制服务的发起方是云端还是用户侧数据中心，即用户可以从云端向用户侧数据中心发起服务，或相反亦然。
　　父主题：热点问题
　　解决方案:Python常用的标准库以及第三方库有哪些？
　　【Python系统运维常用库】
　　1.psutil是一个跨平台库()
　　可以实现系统的进程和系统利用率（内存、CPU、磁盘、网络等）运行，主要用于系统监控、分析和管理系统资源和进程。
　　2、IPy()，辅助IP规划。
　　3. dnspython() Python实现的DNS工具包。
　　
　　4、difflib：作为Python的标准模块，difflib不需要安装。它的功能是比较文本之间的差异。
　　5.filecmp：系统自带，可以实现文件、目录、遍历子目录的区别和比较功能。
　　6. smtplib：发送邮件模块
　　7.pycurl()是用C语言编写的libcurl的Python实现。功能强大，支持以下协议：FTP、HTTP、HTTPS、TELNET等，可以理解为Linux下curl命令功能的Python封装。
　　8. XlsxWriter：对Excel工作表中的文字、数字、公式、图表等进行操作。
　　9. rrdtool：用于跟踪对象的变化并生成这些变化的趋势图
　　
　　10. scapy() 是一个强大的交互式数据包处理程序，可以伪造或解包数据包，包括发送数据包、数据包嗅探、确认和反馈等功能。
　　11. Clam Antivirus 免费开源的杀毒软件pyClamad，允许Python模块直接使用ClamAV病毒扫描守护进程calld。
　　12. pexpect：可以理解为Linux下expect的Python包。通过pexpect，我们可以自动与ssh、ftp、passwd、telnet等命令行交互，无需人工干预，达到自动化的目的。
　　13. paramiko是一个基于Python的SSH2远程安装连接，支持认证和密钥方式。可以实现远程命令执行、文件传输、中间SSH代理等功能。与Pexpect相比，封装级别更高，更接近SSH协议的功能。官网地址：（依赖：Crypto、Ecdsa、Python开发包python-devel）
　　14. Fabric是一个基于Python的SSH命令行工具，简化了SSH应用部署和系统管理任务。它提供了基于系统的操作组件，可以实现本地或远程shell命令，包括命令执行、文件上传和下载。并完成执行日志输出等功能。Fabric在paramiko的基础上做了更高层次的封装，操作起来更简单。官网地址：（取决于setuptools、Crypto、paramiko包支持）查看全部

　　解决方案:是否可以将应用部署在云端，数据库放在本地IDC，然后通过VPN实现互联？
　　更新时间：2022-11-09 GMT+08:00
　　查看 PDF
　　链接复制成功！
　　

　　是否可以将应用部署在云端，将数据库放在本地IDC，然后通过VPN实现互联？
　　能。
　　VPN连接两个子网，即云上的VPC网络和用户数据中心网络。
　　VPN建立成功后，两个子网之间可以运行任何类型的业务流量。此时应用服务器访问数据库业务在逻辑上与访问同一局域网内的其他主机在逻辑上是一样的，所以这种方案是可行的。
　　

　　此场景是IPsec VPN的典型场景，请放心使用。
　　同时，VPN连接后，不限制服务的发起方是云端还是用户侧数据中心，即用户可以从云端向用户侧数据中心发起服务，或相反亦然。
　　父主题：热点问题
　　解决方案:Python常用的标准库以及第三方库有哪些？
　　【Python系统运维常用库】
　　1.psutil是一个跨平台库()
　　可以实现系统的进程和系统利用率（内存、CPU、磁盘、网络等）运行，主要用于系统监控、分析和管理系统资源和进程。
　　2、IPy()，辅助IP规划。
　　3. dnspython() Python实现的DNS工具包。
　　

　　4、difflib：作为Python的标准模块，difflib不需要安装。它的功能是比较文本之间的差异。
　　5.filecmp：系统自带，可以实现文件、目录、遍历子目录的区别和比较功能。
　　6. smtplib：发送邮件模块
　　7.pycurl()是用C语言编写的libcurl的Python实现。功能强大，支持以下协议：FTP、HTTP、HTTPS、TELNET等，可以理解为Linux下curl命令功能的Python封装。
　　8. XlsxWriter：对Excel工作表中的文字、数字、公式、图表等进行操作。
　　9. rrdtool：用于跟踪对象的变化并生成这些变化的趋势图
　　

　　10. scapy() 是一个强大的交互式数据包处理程序，可以伪造或解包数据包，包括发送数据包、数据包嗅探、确认和反馈等功能。
　　11. Clam Antivirus 免费开源的杀毒软件pyClamad，允许Python模块直接使用ClamAV病毒扫描守护进程calld。
　　12. pexpect：可以理解为Linux下expect的Python包。通过pexpect，我们可以自动与ssh、ftp、passwd、telnet等命令行交互，无需人工干预，达到自动化的目的。
　　13. paramiko是一个基于Python的SSH2远程安装连接，支持认证和密钥方式。可以实现远程命令执行、文件传输、中间SSH代理等功能。与Pexpect相比，封装级别更高，更接近SSH协议的功能。官网地址：（依赖：Crypto、Ecdsa、Python开发包python-devel）
　　14. Fabric是一个基于Python的SSH命令行工具，简化了SSH应用部署和系统管理任务。它提供了基于系统的操作组件，可以实现本地或远程shell命令，包括命令执行、文件上传和下载。并完成执行日志输出等功能。Fabric在paramiko的基础上做了更高层次的封装，操作起来更简单。官网地址：（取决于setuptools、Crypto、paramiko包支持）

解决方案:使用 DataFlux 采集 Zookeeper 性能指标并展示

采集交流 • 优采云发表了文章 • 0 个评论 • 115 次浏览 • 2022-11-08 17:23 • 来自相关话题

解决方案:使用 DataFlux 采集 Zookeeper 性能指标并展示
　　DataFlux是上海住云自主研发的一套统一的大数据分析平台，通过对任意来源、任意类型、任意规模的实时数据进行监测、分析和处理，释放数据价值。
　　DataFlux 包括五个功能模块：
　　- 数据包采集器
　　- Dataway 数据网关
　　- DataFlux Studio 实时数据洞察平台
　　- DataFlux Admin Console 管理后台
　　- DataFlux.f(x) 实时数据处理开发平台
　　为企业提供全场景数据洞察分析能力，具有实时性、灵活性、易扩展性、易部署性。
　　安装 DataKit
　　PS：以Linux系统为例
　　第一步：执行安装命令
　　DataKit 安装命令：
　　DK_FTDATAWAY=[你的 DataWay 网关地址] bash -c "$(curl https://static.dataflux.cn/datakit/install.sh)"
　　
　　在安装命令中添加DataWay网关地址，然后将安装命令复制到主机执行。
　　例如：如果DataWay网关的IP地址为1.2.3.4，端口为9528（9528为默认端口），则网关地址为
　　:9528/v1/write/metrics，安装命令为：
　　DK_FTDATAWAY=http://1.2.3.4:9528/v1/write/metrics bash -c "$(curl https://static.dataflux.cn/datakit/install.sh)"
　　安装完成后DataKit会默认自动运行，并会在终端提示DataKit状态管理命令
　　Zookeeper 监控指标采集
　　前提
　　配置
　　打开DataKit采集源码配置文件夹（默认路径是DataKit安装目录的conf.d文件夹），找到zookeeper文件夹，打开里面的zookeeper.conf。
　　修改设置
　　配置完成后重启DataKit生效。
　　如果有问题，使用netcat查看Zookeeper的直接输出。
　　采集指标
　　
　　访问日志指标
　　指标可能因配置、平台和版本而异。
　　验证数据报告
　　完成数据采集操作后，我们需要验证数据采集是否成功并上报给DataWay，以便日后可以正常分析和展示数据。
　　操作步骤：登录DataFlux-数据管理-指标浏览-验证数据采集是否成功
　　Zookeeper 性能指标：
　　DataFlux 的数据洞察力
　　根据获得的指标进行数据洞察设计，如：
　　zookeeper性能监控视图
　　基于自研DataKit数据（采集器），DataFlux现在可以对接200多种数据协议，包括：云数据采集、应用数据采集、日志数据采集，时序数据上报和常用数据库的数据聚合，帮助企业实现最便捷的IT统一监控。
　　解决方案:分布式追踪与监控：Skywalking全方位介绍
　　一、APM简介
　　APM（Application Performance Management）应用性能管理，通过各种探针采集和上报数据，采集关键指标，同时进行数据展示，实现应用性能管理和故障管理的系统解决方案。
　　目前主要的APM工具有：Cat、Zipkin、Pinpoint、SkyWalking。这里我们主要介绍SkyWalking，这是一款优秀的国产APM工具，包括分布式跟踪、性能指标分析、应用和服务依赖分析等。
　　Zabbix、Premetheus、open-falcon等监控系统主要关注服务器硬件指标和系统服务运行状态等，而APM系统更关注内部程序执行过程指标和服务之间的链接调用的监控，APM是更有利于深入代码找到“慢”请求响应的根本问题，是对像 Zabbix 这样的监控的补充。
　　2.分布式链路跟踪
　　下图是常见微服务的框架，4个实例，2个MySQL，1个Redis。其实它有两个完全不同的请求进来：一个请求会访问Redis，然后去MySQL；另一个可能去另一个服务，然后直接去MySQL。整个分布式追踪的目的是什么？这样我们才能最终在页面、UI 和数据上重现这个过程。我们需要获取整个完整的链接，包括准确的响应时间、访问方式、访问的圈子、访问的Redis key等。这些是我们在做分布式追踪时需要展示的完整信息。
　　3. Apache Skywalking（孵化器）简介
　　适用于分布式系统的应用程序性能监控工具，专为微服务、云原生架构和基于容器的（Docker、K8s、Mesos）架构而设计。
　　Apache Skywalking（孵化器）是专为微服务架构和云原生架构系统设计的APM系统，支持分布式链路追踪。Apache Skywalking（孵化器）通过加载探针以非侵入方式采集应用调用链接信息，分析采集的调用链接信息，生成应用间和服务间的关系和服务指标。Apache Skywalking (Incubating) 目前支持多种语言，包括 Java、.Net Core、Node.js 和 Go。此外，社区还发展了一个名为 OpenTracing 的组织，旨在推动调用链监控的一些规范和标准。
　　Skywalking 支持从 6 个视觉维度分析分布式系统的运行。
　　四、SkyWalking原理架构图
　　5. SkyWalking核心模块
　　SkyWalking 采用组件化开发，易于扩展。主要成分如下：
　　1. Skywalking Agent：链接数据采集tracing（调用链数据）和metric（度量）信息并上报，通过HTTP或gRPC向Skywalking Collector发送数据。
　　2. Skywalking Collector：链路数据采集器，对agent发送的tracing和metric数据进行整合分析，通过Analysis Core模块进行处理并存储在相关数据存储中，通过Query进行二次统计和监控告警核心模块。.
　　3、存储：Skywalking的存储，支持ElasticSearch、Mysql、TiDB、H2等主流存储作为数据存储的存储介质。H2 仅用于单机临时演示。
　　4. SkyWalking UI：用于显示着陆数据的网络可视化平台。目前，RocketBot 被正式采用为 SkyWalking 的主要 UI。
　　本文通过一个Docker容器安装Skywalking，并集成apisix网关和Spring Boot微服务项目进行APM（Application Performance Management）应用性能管理，检测从接口网关到微服务实例、到数据库、缓存等的链条存储层。道路跟踪。
　　六、SkyWalking服务器安装
　　安装环境：
　　操作系统：CentOS7，配置为4核8G
　　Docker 版本：Docker 版本 19.03.12，构建 48a66213fe
　　安装工具：docker-compose，版本：docker-compose version 1.26.2，build eefe0d31
　　空中漫步版本：8.1.0
　　弹性搜索版本：7.5.0
　　1.创建目录
　　mkdir -p /data/ent/skywalking
cd /data/ent/skywalking
　　2.编写docker-compose.yml
　　vim docker-compose.yml
#添加以下内容
version: '3.8'
services:
elasticsearch:
image: docker.elastic.co/elasticsearch/elasticsearch:7.5.0
container_name: elasticsearch
restart: always
ports:
- 9200:9200
healthcheck:
test: ["CMD-SHELL", "curl --silent --fail localhost:9200/_cluster/health || exit 1"]
interval: 30s
timeout: 10s
retries: 3

start_period: 40s
environment:
- discovery.type=single-node
- bootstrap.memory_lock=true
- "ES_JAVA_OPTS=-Xms512m -Xmx512m"
- TZ=Asia/Shanghai
ulimits:
memlock:
soft: -1
hard: -1
skywalking-oap:
image: apache/skywalking-oap-server:8.1.0-es7
container_name: skywalking-oap
depends_on:
- elasticsearch
links:
- elasticsearch
restart: always
ports:
- 11800:11800
- 12800:12800
healthcheck:
test: ["CMD-SHELL", "/skywalking/bin/swctl"]
interval: 30s
timeout: 10s
retries: 3
start_period: 40s
environment:
TZ: Asia/Shanghai
SW_STORAGE: elasticsearch7
SW_STORAGE_ES_CLUSTER_NODES: elasticsearch:9200
skywalking-ui:
image: apache/skywalking-ui:8.1.0
container_name: skywalking-ui
depends_on:
- skywalking-oap
links:
- skywalking-oap
restart: always
ports:
- 28080:8080
environment:
TZ: Asia/Shanghai
SW_OAP_ADDRESS: skywalking-oap:12800

　　3.启动服务
　　#启动（docker和docker-compose的安装不再详介绍）

docker-compose up -d

　　4.开放端口
　　firewall-cmd --zone=public --add-port=11800/tcp --permanent
firewall-cmd --zone=public --add-port=12800/tcp --permanent
firewall-cmd --zone=public --add-port=28080/tcp --permanent
firewall-cmd --reload
　　5.访问skywalking ui后台，访问地址为：server ip:28080
　　七、Skywalking Agent安装
　　以java代理为例，下载skywalking项目，地址：
　　将下载的文件解压，将agent文件夹复制到java项目中，执行java项目时使用javaagent打开skywalking代理
　　java -javaagent:agent/skywalking-agent.jar=agent.service_name=sab-service,collector.backend_service=192.168.35.226:11800 -jar sab-manager.war --spring.profiles.active=local_dev
　　其中agent.service_name是要注册到skywalking的服务名，collector.backend_service是skywalking grpc注册地址。
　　启动时没有报错，可以在skywalking ui后台查看服务是否成功注册到skywalking。
　　八、Skywalking UI管理后台介绍 1.首页
　　2. 仪表板
　　查看全局服务基本性能指标
　　2.1。参数说明 2.1.1 全局维度
　　2.1.2 服务实例维度
　　2.1.3 Instance 实例维度
　　2.1.4 Endpoint 端点维度
　　3. 拓扑
　　SkyWalking 可以根据获取的数据自动绘制服务之间的调用关系图，并可以识别常用服务并显示在图标上。每个连接的颜色反映了服务之间的调用延迟，可以非常直观的看到服务之间的调用状态。点击连接中间的点可以显示两个服务之间的连接的平均值。响应时间、吞吐率和 SLA 等信息。
　　4. 追踪
　　显示请求响应的内部执行，一个完整的请求经过了哪些服务，执行了哪些代码方法，每个方法的执行时间，执行状态等详细信息，快速定位代码问题。
　　可以通过选择服务、实例、状态和端点名称来搜索调用链接，
　　您可以点击红色标记的端点查看异常信息
　　5、性能分析
　　新建一个待分析端点，左侧列表显示任务和对应的采样请求，右侧显示各个端点的端点链接和堆栈信息。
　　6.报警
　　不同维度的告警列表可以分为服务、端点、实例。查看全部

　　在安装命令中添加DataWay网关地址，然后将安装命令复制到主机执行。
　　例如：如果DataWay网关的IP地址为1.2.3.4，端口为9528（9528为默认端口），则网关地址为
　　:9528/v1/write/metrics，安装命令为：
　　DK_FTDATAWAY=http://1.2.3.4:9528/v1/write/metrics bash -c "$(curl https://static.dataflux.cn/datakit/install.sh)"
　　安装完成后DataKit会默认自动运行，并会在终端提示DataKit状态管理命令
　　Zookeeper 监控指标采集
　　前提
　　配置
　　打开DataKit采集源码配置文件夹（默认路径是DataKit安装目录的conf.d文件夹），找到zookeeper文件夹，打开里面的zookeeper.conf。
　　修改设置
　　配置完成后重启DataKit生效。
　　如果有问题，使用netcat查看Zookeeper的直接输出。
　　采集指标
　　

访问日志指标
　　指标可能因配置、平台和版本而异。
　　验证数据报告
　　完成数据采集操作后，我们需要验证数据采集是否成功并上报给DataWay，以便日后可以正常分析和展示数据。
　　操作步骤：登录DataFlux-数据管理-指标浏览-验证数据采集是否成功
　　Zookeeper 性能指标：
　　DataFlux 的数据洞察力
　　根据获得的指标进行数据洞察设计，如：
　　zookeeper性能监控视图
　　基于自研DataKit数据（采集器），DataFlux现在可以对接200多种数据协议，包括：云数据采集、应用数据采集、日志数据采集，时序数据上报和常用数据库的数据聚合，帮助企业实现最便捷的IT统一监控。
　　解决方案:分布式追踪与监控：Skywalking全方位介绍
　　一、APM简介
　　APM（Application Performance Management）应用性能管理，通过各种探针采集和上报数据，采集关键指标，同时进行数据展示，实现应用性能管理和故障管理的系统解决方案。
　　目前主要的APM工具有：Cat、Zipkin、Pinpoint、SkyWalking。这里我们主要介绍SkyWalking，这是一款优秀的国产APM工具，包括分布式跟踪、性能指标分析、应用和服务依赖分析等。
　　Zabbix、Premetheus、open-falcon等监控系统主要关注服务器硬件指标和系统服务运行状态等，而APM系统更关注内部程序执行过程指标和服务之间的链接调用的监控，APM是更有利于深入代码找到“慢”请求响应的根本问题，是对像 Zabbix 这样的监控的补充。
　　2.分布式链路跟踪
　　下图是常见微服务的框架，4个实例，2个MySQL，1个Redis。其实它有两个完全不同的请求进来：一个请求会访问Redis，然后去MySQL；另一个可能去另一个服务，然后直接去MySQL。整个分布式追踪的目的是什么？这样我们才能最终在页面、UI 和数据上重现这个过程。我们需要获取整个完整的链接，包括准确的响应时间、访问方式、访问的圈子、访问的Redis key等。这些是我们在做分布式追踪时需要展示的完整信息。
　　3. Apache Skywalking（孵化器）简介
　　适用于分布式系统的应用程序性能监控工具，专为微服务、云原生架构和基于容器的（Docker、K8s、Mesos）架构而设计。
　　Apache Skywalking（孵化器）是专为微服务架构和云原生架构系统设计的APM系统，支持分布式链路追踪。Apache Skywalking（孵化器）通过加载探针以非侵入方式采集应用调用链接信息，分析采集的调用链接信息，生成应用间和服务间的关系和服务指标。Apache Skywalking (Incubating) 目前支持多种语言，包括 Java、.Net Core、Node.js 和 Go。此外，社区还发展了一个名为 OpenTracing 的组织，旨在推动调用链监控的一些规范和标准。
　　Skywalking 支持从 6 个视觉维度分析分布式系统的运行。
　　四、SkyWalking原理架构图
　　5. SkyWalking核心模块
　　SkyWalking 采用组件化开发，易于扩展。主要成分如下：
　　1. Skywalking Agent：链接数据采集tracing（调用链数据）和metric（度量）信息并上报，通过HTTP或gRPC向Skywalking Collector发送数据。
　　2. Skywalking Collector：链路数据采集器，对agent发送的tracing和metric数据进行整合分析，通过Analysis Core模块进行处理并存储在相关数据存储中，通过Query进行二次统计和监控告警核心模块。.
　　3、存储：Skywalking的存储，支持ElasticSearch、Mysql、TiDB、H2等主流存储作为数据存储的存储介质。H2 仅用于单机临时演示。
　　4. SkyWalking UI：用于显示着陆数据的网络可视化平台。目前，RocketBot 被正式采用为 SkyWalking 的主要 UI。
　　本文通过一个Docker容器安装Skywalking，并集成apisix网关和Spring Boot微服务项目进行APM（Application Performance Management）应用性能管理，检测从接口网关到微服务实例、到数据库、缓存等的链条存储层。道路跟踪。
　　六、SkyWalking服务器安装
　　安装环境：
　　操作系统：CentOS7，配置为4核8G
　　Docker 版本：Docker 版本 19.03.12，构建 48a66213fe
　　安装工具：docker-compose，版本：docker-compose version 1.26.2，build eefe0d31
　　空中漫步版本：8.1.0
　　弹性搜索版本：7.5.0
　　1.创建目录
　　mkdir -p /data/ent/skywalking
cd /data/ent/skywalking
　　2.编写docker-compose.yml
　　vim docker-compose.yml
#添加以下内容
version: '3.8'
services:
elasticsearch:
image: docker.elastic.co/elasticsearch/elasticsearch:7.5.0
container_name: elasticsearch
restart: always
ports:
- 9200:9200
healthcheck:
test: ["CMD-SHELL", "curl --silent --fail localhost:9200/_cluster/health || exit 1"]
interval: 30s
timeout: 10s
retries: 3

start_period: 40s
environment:
- discovery.type=single-node
- bootstrap.memory_lock=true
- "ES_JAVA_OPTS=-Xms512m -Xmx512m"
- TZ=Asia/Shanghai
ulimits:
memlock:
soft: -1
hard: -1
skywalking-oap:
image: apache/skywalking-oap-server:8.1.0-es7
container_name: skywalking-oap
depends_on:
- elasticsearch
links:
- elasticsearch
restart: always
ports:
- 11800:11800
- 12800:12800
healthcheck:
test: ["CMD-SHELL", "/skywalking/bin/swctl"]
interval: 30s
timeout: 10s
retries: 3
start_period: 40s
environment:
TZ: Asia/Shanghai
SW_STORAGE: elasticsearch7
SW_STORAGE_ES_CLUSTER_NODES: elasticsearch:9200
skywalking-ui:
image: apache/skywalking-ui:8.1.0
container_name: skywalking-ui
depends_on:
- skywalking-oap
links:
- skywalking-oap
restart: always
ports:
- 28080:8080
environment:
TZ: Asia/Shanghai
SW_OAP_ADDRESS: skywalking-oap:12800

　　3.启动服务
　　#启动（docker和docker-compose的安装不再详介绍）

docker-compose up -d

　　4.开放端口
　　firewall-cmd --zone=public --add-port=11800/tcp --permanent
firewall-cmd --zone=public --add-port=12800/tcp --permanent
firewall-cmd --zone=public --add-port=28080/tcp --permanent
firewall-cmd --reload
　　5.访问skywalking ui后台，访问地址为：server ip:28080
　　七、Skywalking Agent安装
　　以java代理为例，下载skywalking项目，地址：
　　将下载的文件解压，将agent文件夹复制到java项目中，执行java项目时使用javaagent打开skywalking代理
　　java -javaagent:agent/skywalking-agent.jar=agent.service_name=sab-service,collector.backend_service=192.168.35.226:11800 -jar sab-manager.war --spring.profiles.active=local_dev
　　其中agent.service_name是要注册到skywalking的服务名，collector.backend_service是skywalking grpc注册地址。
　　启动时没有报错，可以在skywalking ui后台查看服务是否成功注册到skywalking。
　　八、Skywalking UI管理后台介绍 1.首页
　　2. 仪表板
　　查看全局服务基本性能指标
　　2.1。参数说明 2.1.1 全局维度
　　2.1.2 服务实例维度
　　2.1.3 Instance 实例维度
　　2.1.4 Endpoint 端点维度
　　3. 拓扑
　　SkyWalking 可以根据获取的数据自动绘制服务之间的调用关系图，并可以识别常用服务并显示在图标上。每个连接的颜色反映了服务之间的调用延迟，可以非常直观的看到服务之间的调用状态。点击连接中间的点可以显示两个服务之间的连接的平均值。响应时间、吞吐率和 SLA 等信息。
　　4. 追踪
　　显示请求响应的内部执行，一个完整的请求经过了哪些服务，执行了哪些代码方法，每个方法的执行时间，执行状态等详细信息，快速定位代码问题。
　　可以通过选择服务、实例、状态和端点名称来搜索调用链接，
　　您可以点击红色标记的端点查看异常信息
　　5、性能分析
　　新建一个待分析端点，左侧列表显示任务和对应的采样请求，右侧显示各个端点的端点链接和堆栈信息。
　　6.报警
　　不同维度的告警列表可以分为服务、端点、实例。

事实:云端内容采集解决方案小程序可能是未来5-10年

采集交流 • 优采云发表了文章 • 0 个评论 • 134 次浏览 • 2022-11-08 10:19 • 来自相关话题

　　事实:云端内容采集解决方案小程序可能是未来5-10年
　　
　　云端内容采集解决方案小程序可能是未来5-10年内互联网上发展最快的内容形式，是未来趋势。据统计，2018年网络小程序实现开发超过500万个。在我司招聘系统上有7000份左右，主要是地推广小程序建设，以及群发图文，推广二维码推广，原创文章营销。针对地推人员可以不用自己搭建服务器。首先配置一个好用的小程序后台，主要是第三方平台的二次开发。
　　
　　作为运营人员可以使用第三方平台的云服务将自己的小程序产品分享给微信用户。在网上的搜索引擎上都可以搜索到小程序的模板。建议初学者找几家相对成熟的公司来学习。但是如果资金有限的话，也可以使用我们的建站平台来建设，比如腾讯saas平台云建站。每年可以租金680元的域名主机，建站花不了多少钱。有需要可以联系我，可以帮助你建立一个轻量级的云服务器，你也可以随时移动过来更新。
　　为什么我发现今年很多推荐微信公众号的推广？但是今年是从公众号推广变成app推广的一年，app推广包括包括很多方面，最主要的就是渠道，渠道就是网络上你网站的老用户了，这些可以通过百度还有手机各大地方关键词搜索引擎，这些用户经常访问你，你的转化率就比较高，并且也比较精准，目前很多的app目标群体都在微信公众号，很多地方各大app里的分销员跟地推人员都是先做公众号，然后人脉中推广，有的人刚刚接触就看到了曙光，都开始收回成本了，关键就是这几方面，大家如果想做app，大家在微信中有信息的话，请联系我。查看全部

　　事实:云端内容采集解决方案小程序可能是未来5-10年
　　

　　云端内容采集解决方案小程序可能是未来5-10年内互联网上发展最快的内容形式，是未来趋势。据统计，2018年网络小程序实现开发超过500万个。在我司招聘系统上有7000份左右，主要是地推广小程序建设，以及群发图文，推广二维码推广，原创文章营销。针对地推人员可以不用自己搭建服务器。首先配置一个好用的小程序后台，主要是第三方平台的二次开发。
　　

　　作为运营人员可以使用第三方平台的云服务将自己的小程序产品分享给微信用户。在网上的搜索引擎上都可以搜索到小程序的模板。建议初学者找几家相对成熟的公司来学习。但是如果资金有限的话，也可以使用我们的建站平台来建设，比如腾讯saas平台云建站。每年可以租金680元的域名主机，建站花不了多少钱。有需要可以联系我，可以帮助你建立一个轻量级的云服务器，你也可以随时移动过来更新。
　　为什么我发现今年很多推荐微信公众号的推广？但是今年是从公众号推广变成app推广的一年，app推广包括包括很多方面，最主要的就是渠道，渠道就是网络上你网站的老用户了，这些可以通过百度还有手机各大地方关键词搜索引擎，这些用户经常访问你，你的转化率就比较高，并且也比较精准，目前很多的app目标群体都在微信公众号，很多地方各大app里的分销员跟地推人员都是先做公众号，然后人脉中推广，有的人刚刚接触就看到了曙光，都开始收回成本了，关键就是这几方面，大家如果想做app，大家在微信中有信息的话，请联系我。

经验:木岛精灵：知识管理方向有哪些优秀的产品？

采集交流 • 优采云发表了文章 • 0 个评论 • 62 次浏览 • 2022-11-08 07:13 • 来自相关话题

　　经验:木岛精灵：知识管理方向有哪些优秀的产品？
　　云端内容采集，
　　云端知识管理分享平台，提供微博/知乎等平台视频和文档的上传/下载，社区定制：指导粉丝/用户发布互动贴/专题活动，
　　我看看有没有免费的，
　　
　　速传云知识管理平台
　　自己收藏了很多免费的知识，想在知乎上学习点什么，
　　微博，专栏，收藏夹，live什么的，都觉得很不方便，希望有好的体验，
　　
　　谢邀。我觉得楼上阿柒说的很全面了，我这边同样也有知识管理系统，免费的免费的免费的。
　　木岛精灵，提供基础知识管理系统。
　　相关话题的回答：知识管理方向有哪些优秀的产品？-知识管理一条知识管理方面的专栏更好的回答，
　　刚开始接触到木岛精灵还是在百度知道，后来发现能够免费使用，且免费的内容质量也不错，就对木岛精灵充满好感。可能是产品还不够完善，产品其实在技术人员眼里，重点是产品技术人员感兴趣才能产生更好的体验。木岛精灵的优势，个人觉得在于采用的是微博，知乎等平台的知识收集，分享功能，以及有微信公众号不错，还有能够将优质内容快速集成，移动互联网时代内容已经不是重点，如何使用好产品才是重点。通过微信公众号也能够不错的集成live课程。查看全部

　　经验:木岛精灵：知识管理方向有哪些优秀的产品？
　　云端内容采集，
　　云端知识管理分享平台，提供微博/知乎等平台视频和文档的上传/下载，社区定制：指导粉丝/用户发布互动贴/专题活动，
　　我看看有没有免费的，
　　

　　速传云知识管理平台
　　自己收藏了很多免费的知识，想在知乎上学习点什么，
　　微博，专栏，收藏夹，live什么的，都觉得很不方便，希望有好的体验，
　　

　　谢邀。我觉得楼上阿柒说的很全面了，我这边同样也有知识管理系统，免费的免费的免费的。
　　木岛精灵，提供基础知识管理系统。
　　相关话题的回答：知识管理方向有哪些优秀的产品？-知识管理一条知识管理方面的专栏更好的回答，
　　刚开始接触到木岛精灵还是在百度知道，后来发现能够免费使用，且免费的内容质量也不错，就对木岛精灵充满好感。可能是产品还不够完善，产品其实在技术人员眼里，重点是产品技术人员感兴趣才能产生更好的体验。木岛精灵的优势，个人觉得在于采用的是微博，知乎等平台的知识收集，分享功能，以及有微信公众号不错，还有能够将优质内容快速集成，移动互联网时代内容已经不是重点，如何使用好产品才是重点。通过微信公众号也能够不错的集成live课程。

解决方案:共同打造专业的云端知识库，沉淀知识资产！“语雀”正在强大！

采集交流 • 优采云发表了文章 • 0 个评论 • 188 次浏览 • 2022-11-08 03:52 • 来自相关话题

　　解决方案:共同打造专业的云端知识库，沉淀知识资产！“语雀”正在强大！
　　之前介绍工具【窗帘】的时候，有读者和我们反映这个软件的部分功能开始收费，向我们推荐了【雨雀】。了解之后发现这个软件真的很强大，现在推荐给大家！
　　一、语雀简介
　　【鱼阙】是一个专业的云知识库，孵化自蚂蚁金服（你想到支付宝了吗？）。10万阿里巴巴员工书写文档，积累知识。
　　【语言】一词来源于【语言】，一般指人类交流的方式。语雀的核心是通过将知识以文字、图片、表格等形式承载交流过程中需要用到的载体，让人与人之间的交流更加高效。
　　“云雀”一词来源于“云雀”，在雪莱的代表作《致云雀》中象征着“欢乐、光明和美丽”。
　　官网介绍视频
　　二、案例效果
　　很多老师会问，为什么要为这些花里胡哨的东西烦恼呢？
　　当文件堆积如山，没有条理，查找起来很麻烦。当文件存储没有组织有序时，工作效率很低。
　　经雨阙编辑后，左侧为全书目录，可分类；右边是章节中自动生成的内容大纲。
　　像一本书，整齐有序，一目了然！
　　三、功能介绍
　　1.丰富的应用场景。拥有多种典型模板，包括项目文档、学习笔记等。
　　2.专业编辑。自研编辑器，支持Markdown、脑图、代码块、公式等专业版块的输入，也支持本地视频、Office文件、PDF的在线阅读。
　　
　　3. 结构化的知识库。拥有大量的知识库排版模型，快速形成像一本书一样清晰易读的知识库。
　　4.系统协调。基于团队的知识管理，使团队能够一起在线。实现团队之间知识的自由流动，创造更大的价值。
　　5、同时，所有公立医院、公立学校、非营利组织均可申请长期免费使用【鱼雀空间】，长期免费使用的知识库和文档数量不限。
　　四、功能介绍
　　1.个人用户进行个人创作，写生活日记。建立个人秘密仓库，存放个人笔记。使用它来采集和组织数据并建立自己的知识库。
　　2. 小型组织适合社团、学习小组、一群人一起创建知识库。集体编写和翻译书籍。分工写文件和制作手册。
　　五、操作指南
　　去鱼雀官方网站注册使用，或者在电脑上下载软件。
　　网址：
　　您可以选择手机号、钉钉或微信登录。
　　客户端界面
　　页面端工作界面
　　1. 创建新的文件和表格
　　在任何带有顶部导航的页面上，单击右侧的“+”以启动新文档和表格的创建。
　　进入编辑器后，无论是文档还是表格，每隔1分钟就会开启一次自动保护。内容仅在没有帖子或更新时对您或您的团队成员可见。
　　
　　当然，手动保护也是可以的。
　　2.资源知识库文件上传
　　第一步是选择“新建知识库”，在新建知识库页面选择“资源知识库”。
　　第二步，点击右上角的“上传文件”，一次最多可以同时上传10个文件。
　　以前的教案和知识总结文件可以统一上传，组织成知识体系框架，构建知识库，方便又安全。
　　3.组建团队共同编辑
　　第一步，在第一个飞行栏上，点击“+”并选择New Team。
　　第二步：在弹出的页面中，选择需要的类型模板，点击下一步。
　　第三步：在弹出的信息输入页面，输入团队信息，选择需要的套餐。
　　基本模型有50个团队成员，这已经足够庞大了！
　　教学视频：
　　用户手册：
　　如果喜欢今天的文章，请留言告诉小编！
　　本文为实用教育技术原创，作者蛋挞。
　　解决方案:阿里本地生活全域日志平台 Xlog 的思考与实践
　　作者 | 王宇（奥天）
　　来源 | 阿里云日志服务团队
　　1. 背景
　　程序员通过打印“hello world”来学习每一种语言。这种启发性的探索正在向我们传递一个信息：“当你踏入编程领域时，代码和日志将是你最重要的伙伴”。在代码部分，有了越来越多强大的idea插件和快捷键，大大提高了开发者的编码效率。在日志部分，各个团队也在朝着调查的方向进行创新尝试。这也是研发有效性领域的重要组成部分。
　　阿里集团的本地生活，在支持多生态公司、多技术栈的背景下，逐渐沉淀出跨应用、跨域的日志排查解决方案——Xlog。目前还支持icbu、本地生活、新零售、盒马、蚂蚁、阿里cto、阿里云、淘特、灵曦互娱等团队。也获得了sls开发团队的好评。
　　希望这篇文章能给正在使用或打算使用sls的同学带来一些投入，帮助团队尽快落实日志排查计划。第一部分重点介绍微服务框架下日志排查面临的挑战以及我们是如何解决的。第二部分从细节的角度谈了程序设计的几个难点和克服策略。第三部分是关于 Xlog 目前的能力。第四部分，主体能力，如何建设生态能力。
　　1.1 Xlog解决的问题
　　通过日志排查的时候，相信有几个步骤大家都很熟悉： 1.登录跳板。2. 切换跳线。3. 登录阿里云平台sls。4.切换到阿里云sls项目logstore。来回循环。
　　例如，下图展示了一个长链接系统的片段（真实链接更复杂）：Application1，Application2，Application3。其中 Application1 和 Application2 是同一个域（类似于：一个子团队），而 Application3 属于另一个域。那么这个查询涉及到两个场景：跨应用查询和跨域查询。
　　Application1的负责人接手问题后，通过跳板或者sls日志发现需要上游同学协助排查。这时候无论是切换跳板还是sls，还是联系Application2的负责人协助查询，都需要1min->3min的响应时间。从Application2的负责人那里找Application3的负责人会比较难，因为可能不清楚Application3的sls信息（我们的bu有10万级的logstore信息），也没有跳板登录许可，我不知道Application3的sls信息。主要的。结果，调查时间大大增加。
　　前面的例子只展示了三个应用的查询场景，真实的链接往往比这复杂得多。那么有没有可以一键一站式查询所需日志的平台呢？于是，致力于解决长链接下跨应用、跨域搜索频繁切换的Xlog诞生了！
　　1.2 Xlog支持的场景
　　微服务框架下的跨应用查询，跨域集成环境下的跨域查询。
　　本文向大家介绍xlog，帮助群内业务搭建更大的生态系统，简单易用，非侵入式，并且随着越来越多的域连接，点可以连接，线可以组合创建一个经济体，或者一个更大的生态系统的日志全链路解决方案。
　　1.3 Xlog目前的系统建设
　　对于已经采集到sls的应用，我们可以实现代码零修改，不侵入部署环境，采集结构和采集通道都是免费的。基本上只要能访问sls，就可以访问Xlog。通过对结构、格式和跨域能力的规范化，Xlog 支持了几种最常用于故障排除的场景：应用内跨文件搜索、域内跨应用搜索和跨域搜索。
　　《持续交付2.0》作者乔亮提到：一致性是提高研发效率的唯一途径。整个经济发展了20多年，很难做到全覆盖一致。但是，Xlog 创新性地提出了一种将不一致性转化为一致性的解决方案。无论是查询还是其他基于日志的技术体系建设，都有里程碑。意义。
　　2、方案设计
　　本段将详细描述Xlog的设计思路和开发过程。如果已经连接过sls，可以跳到2.2；如果你还没有连接sls，你可以阅读2.1，会有一些创新的想法。
　　2.1 初步计划：创新与隔离
　　2019年SaaS刚刚成立，很多基础设施都需要完善。和很多团队一样，我们主要使用两种方式查询日志：
　　1.登录跳板查询：使用Traceid->Eagle->机器ip->登录跳板->grep关键字的查询链接。缺点：每次查询4-6分钟，日志检索和可视化较差，无法跨应用查询，无法查看历史日志。
　　2.登录阿里云sls web控制台查询：登录sls->keyword查询。缺点：每次查询1-2分钟，日志可视化较差，无法跨应用跨域查询。
　　基于这样的背景，我们做了3件事来提高查询效率：
　　统一的日志格式：一组标准用于 logback 中的模式。
　　%d{yyyy-MM-dd HH:mm:ss.SSS} {LOG_LEVEL_PATTERN:-%5p}{LOG_LEVEL_PATTERN:-%5p}{PID:-} --- [%t] [%X{EAGLEEYE_TRACE_ID}] %记录器-%L: %m%n
　　在：
　　%d{yyyy-MM-dd HH:mm:ss.SSS}：时间精确到毫秒
　　${LOG_LEVEL_PATTERN:-%5p}：日志级别、DEBUG、INFO、WARN、ERROR等。
　　${PID:-}：进程 ID
　　---：分隔符没有特殊含义
　　[%t]: 线程名称
　　[%X{EAGLEEYE_TRACE_ID}]：鹰眼追踪 ID
　　%logger：日志名称
　　%m%n: 消息正文和换行符
　　在域内使用相同的日志格式被证明比预期更有利可图。对整个链路的分析、监控、故障排除，甚至未来的智能故障排除，都将带来极大的便利。
　　
　　该方案在解决域内单应用和跨应用方面都有非常好的表现，只需要完成一次API调用。如果你的团队准备使用 sls，如果 sls 的数据只是用来排查问题（监控类的 sunfire 可以直接读取服务器的本地日志），我们还是推荐这个方案。它可以很好地完成调查的需要。基于这些条件的解决方案已经存入Xlog，可以直接接入Xlog，享受Xlog的全套能力。
　　2.2 当前计划：创新助世界
　　刚才的解决方案在解决自己域的排错问题上表现不错。但2020年，SaaS开始支持多个生态公司，面临的场景不再是自己的领域，需要将多个领域打通。在这一点上，我们面临两个主要挑战：
　　因此，在之前的方案中，我们升级了Xlog，重新定义了目标：
　　2.2.1 模型设计
　　由于调用sls api查询日志的单元是logstore，所以我们可以将各种采集结构拆分成以下三个单元的组合（当然大部分域可能是这些结构之一）。
　　1. 一个环境对应一个logstore，（例如：在这个域中，日常环境中应用的所有日志都在一个logstore中）。域A如下图所示。
　　2、一个应用对应一个logstore，（比如应用A的日常环境对应logstore1，应用A的预发布环境对应logstore2，应用B的日常环境对应logstore3）。域 B 如下图所示。
　　3.一个文件对应一个logstore，（例如应用A的a文件对应日常环境的logstore1，应用A的b文件对应日常环境的logstore2）。域 C 如下图所示。
　　有了这样的原子结构，在xlog上配置时，只需要创建域、环境、应用、文件=>logstore的映射关系即可。这样，可以在域内执行应用程序粒度和文件粒度查询。
　　同样在没有网关的跨域场景下，可以通过结合两个域的logstore来完成跨域查询。如上图：指定域A中的两个应用，可以转换成logstore加过滤条件。指定域 B 中的两个应用程序，可以转换成两个 logstore。在域C中指定两个应用程序，可以先搜索应用程序下的文件，然后找到文件对应的logstore集合。至此，阿里云sls中有所有需要查询日志的logstore。最终的结果是通过对查询结果进行组合和排序得到的。同样，如果要进行跨域搜索，只需要拼接多个域的logstore即可。然后进行查询。
　　2.2.2 性能优化
　　通过2.2.1模型设计的描述，无论是环境类型、应用类型还是文件类型的sls结构，以及单应用、多应用、多域查询都可以转换成一组logstore，然后遍历并执行日志存储。但这会带来新的问题。如果有很多logstore，如何提高效率。比如对接一个团队的日志，发现他们的logstore有3000个，每个环境有1000个应用。假设每个查询需要 150ms，1000 个应用程序需要执行 150s（2.5 分钟）。试想一下，如果在不指定应用程序的情况下搜索整个域以查找日志需要 2.5 分钟，将会花费多少。针对这个问题，我们对性能进行了优化。主要使用以下方法，
　　如上图所示，当用户通过前端选择对应的操作域和查询条件时。后端分析得到需要查询的logstore列表（如图A、B、C、D、E所示）。然后通过分析用户的私密应用进行排序和过滤，得到一个优先级队列（图中B、A、C）。使用创建的链接池对优先级队列进行并发查询，得到一组日志结果。最后前端完成排序组装，渲染完成一个循环。本文主要讲解线程池并发和算法优化模块。
　　2.2.3 线程池并发
　　与传统的线程池并发执行相比，并没有太大的区别。将要查询的logstore按顺序插入到线程池队列中。通过这种方式，在每次logstore查询次数较少（小于核心线程数）的情况下，可以有效减少查询时间。对于大量场景，有算法优化支持。
　　对于查询后的补偿操作，也采用异步处理的方式来减少查询时间。
　　2.2.4 算法优化
　　对于满足条件的logstore较多（超过核心线程数）的场景，通过线程池并发查询无法快速得到结果。经过一年的日志快速排序数据积累和分析，我们发现即使不指定应用和搜索条件，通过查询人员操作习惯或关注应用习惯，也能定位到最可能的日志存储顺序。
　　例如，在商家 saas 中心，大约有 500 个应用程序。同学A的负责系统是Application1，查询较多的应用程序是Application11和Application12。另外，与Application1上下游关系密切的应用是Application2和Application3。如果是这样，我们可以认为A同学会比其他应用程序更关注应用程序Application1、Application11、Application12、Application2和Application3。对于这些应用程序，可以执行优先级查询。从而将 500 个查询任务减少到 5 个。
　　结合日常生活中的情况，每个开发者关注的应用数量极有可能控制在30个以内。
　　通过以上分析，我们建立了两组亲和网络来定位查询批次和梯队。
　　用户每次调用时，都可以分析查询条件、查询结果和用户，建立关系。因为可以在查询条件中指定应用程序，所以也不需要指定应用程序。
　　如果是指定的应用程序，则表示用户显式查询了应用程序的内容。给用户与应用的亲密度加 5 分。
　　如果不指定应用，可以根据关键字查询来分析查询结果。提取查询结果的每条日志对应的应用，然后加1分（因为没有明确指定，而是根据关键字进行辐射）。
　　至此，经过多次用户操作，即可获得用户与各个应用之间的亲密度。当遇到多个logstore查询时，可以根据用户过滤掉亲密度最高的15个应用。作为第一批查询对象。
　　应用程序之间也存在亲和力。应用的亲密度越高，被关联搜索的概率就越大。例如，应用中心和产品这两个应用中心在系统设计上就有这种密切的关系。如果用户A的亲属关系中收录application center，那么在查询log的时候很有可能会辐射到application prod。基于这个思想，可以通过分析每个查询日志的结果来创建关系矩阵。
　　每次获取关键字查询的日志结果后，涉及的应用的成对亲密度加1。相当于在一个链接上应用亲密度加1。方便日后查询，不会因人员亲密度丢失应用亲密度信息，导致链接失真。
　　以上是我们如何训练亲和矩阵的一般概述。下面说说如何通过这个矩阵来优化查询算法。如下图，左上角是我们记录的人-应用和应用-应用的关系矩阵。具体来说，对于用户与应用A、应用B、应用C等的关系，我们会用一个分数来衡量他们的亲和度，主要可以描述人们对应用的关注度。在 app-app 之间，我们记录了彼此的耦合程度。右上角是查询条件。根据查询条件和各个域的采集结构，可以快速计算出要查询的logstore列表。但并非所有日志存储都需要查询。这里，
　　如下图所示，对于命中路口的应用，会根据人和应用的关系进行计算，选择得分高的。然后，那些低于 30 阈值的人会得到应用与应用亲和力的补充。这里涉及到一个比较逻辑，会根据人与应用的比例得分*应用的得分与应用比例，类似于霍夫曼编码中路径权重的含义。最后得到一个需要查询的30个logstore的列表。
　　2.2.5 跨域映射
　　跨域是进行全链路故障排除时必须面对的挑战。在实现原理上，跨域有两种场景：通过网关和不通过网关。
　　如上图所示，分别为域1、域2、域3、域4的通话链接。域1调用域2，域3调用域4不经过网关，traceId不变。域2调用域3时，需要经过网关，traceId发生变化。
　　我们可以将查询方法分为两种。1.关键字查询，如输入订单号。这实际上不受链路跟踪方案的影响，也不受网关的影响。因此，您仍然可以按每个域中的关键字进行搜索。2.通过traceId查询。这首先需要通过网关信息获取映射关系。即traceId1->traceId2。然后使用这两个 traceId 在各自的域中进行搜索。
　　3. 现有能力
　　通过对原有飞云日志快速排序功能的改进和访问成本的提高。Xlog已经完成了主要功能的开发和实现。
　　
　　跨域查询操作：
　　通过对用户使用习惯的分析，目前支持单应用、域内跨应用、跨域。按文件、日志级别、关键字、时间等搜索，同时支持保存用户操作习惯。
　　支持阿里云sls采集结构，只要能拆成采集的上述三种模式，都可以支持。如果有非常特殊的情况，可以联系奥天定制。
　　对于已经连上sls的系统，sls的配置不需要更改，在Xlog上配置即可。对于sls采集日志存储时间、采集方法、预算等，分配给各个业务团队，可以根据自己的实际情况进行调整。
　　对于不同的域，对一些关键字段的敏感度可能不同。比如有的需要使用traceid，有的需要使用requestid，游戏需要使用messageid。对于这种场景，支持自定义搜索框，并且在显示日志时会突出显示关键字段。
　　通过以上方法的性能优化，目前的性能指标如下：单个应用查询150ms。32 个应用程序为 400 毫秒。超过50个应用，算法优化，时间在500ms。
　　4、生态建设
　　本章记录了本系统日志级别的优化和构建。大部分想法和策略都可以重复使用，希望对有相同需求的同学有所帮助。
　　4.1 成本优化
　　Xlog系统建成后，如何降低成本成为新的挑战。实施以下方法后，成本降低80%。主要的操作也列在这里，希望能给也在使用sls的用户一些帮助。
　　阿里云内部账户相比外部账户有额外的折扣。因此，如果有部门在外弹部署，可以考虑将日志直接上传到域内的账号，或者申请该账号成为域内的账号。
　　其实在打印日志的时候，往往没有考虑到成本，很多都是随意打印的。因此，我们根据交易量为每个应用程序设计域值，如果超过指标的需要进行优化。
　　优化存储时间是最简单、最直接的方法。我们将离线（每日和预发布）日志存储时间减少到 1 天，在线时间减少到 3 天 -> 7 天。然后结合使用归档功能来优化成本。
　　索引优化相对复杂，但也是最有效的。经过分析，我们的大部分成本都分布在索引、存储和交付上。该指数约占70%。优化索引的操作，其实就是降低索引占用日志的比例。例如，只支持前几个字节的查询能力，下面的详细信息部分是附加的详细信息。由于我们域内有统一的日志格式，所以域内的日志中只留下traceid索引，为汇总日志维护全索引。所以后续的查询方式是先通过summary log查询traceid，再通过traceid查询明细。
　　4.2 归档能力
　　在构建整个架构时，我们还考虑了成本因素。在降低成本的同时，我们缩短了存储时间。但是，缩短存储时间必然会导致对历史问题的排查能力不足。因此，我们也提出了归档能力的建设。
　　在 sls 的 logstore 中，可以配置数据下发： . 这一步其实就是讲sls中的信息，存到oss中。通俗的讲，就是将数据库表以文件的形式保存，删除索引的能力。在交付过程中将执行加密。目前，Xlog 支持在界面下载和归档日志，然后在本地搜索。
　　后期可以根据需要重新导入oss数据到sls，参考：.
　　4.3 异常日志扫描
　　借助之前的架构，其实可以清楚的知道每条日志的内容在哪里，可以准确的查询到记录错误日志的文件内容。因此，每10分钟进行一次检查，汇总各个应用程序中的异常日志，获取此期间异常信息的数量。然后通过之前的对比就可以知道是否有新的错误，爆炸错误等等。
　　如上图所示，获取所有异常日志后，会按照规则计算md5。堆栈类型和异常日志类型对这两种类型有不同的算法，但本质目标是相同的，都是计算最有可能被重读的段落的md5，然后进行聚类。聚类完成后，可以得到差异并进行比较，从而判断是新增还是突然增加。
　　5. 规划
　　目前，Xlog的基本组件和功能已经实现。在各种应用和域的访问中，整个环节会越来越完整。接下来，将补充全链路、视觉检查、智能检查和问题发现。
　　6. 使用和共建
　　参考很多其他团队对采集结构、日志格式、查询方式、呈现方式的要求，降低了访问成本，提高了定制化。满足条件的团队，可轻松接入
　　对于一些特殊或定制化的需求，Xlog预留了扩展模块，方便共建。
　　如上图所示，图中绿色的组件是可以复用的，只需要为自己的领域定制结构和跨域映射即可。只需要根据定义的策略模式的接口来实现即可。
　　‍
　　参与话题互动赢阿里科技定制口袋！
　　互动文章：《6大论坛，30+技术话题，2022首届阿里巴巴开源开放周来了！》
　　好的技术文章
　　灰度接口迁移方案千万级可观测数据采集器 - iLogtail 代码完整开源全链路压力测试：影子库与影子表之战全链路灰度数据库上怎么做？
　　企业案例
　　企业上云| 阿里云长春数字化转型经验分享：助力“专、专、新”，数字科技伴随企业成长
　　云柱
　　三星堆梦幻之旅：只有云计算才能带来的体验，不仅可以在路上，还可以提供良好的服务：自动驾驶产品的规模问题，定义了自动驾驶，未来的移动智能载体？如何提出关键问题，支持10万人同时在线互动，是实现元界的基本前提？返回搜狐，查看更多查看全部

　　3. 结构化的知识库。拥有大量的知识库排版模型，快速形成像一本书一样清晰易读的知识库。
　　4.系统协调。基于团队的知识管理，使团队能够一起在线。实现团队之间知识的自由流动，创造更大的价值。
　　5、同时，所有公立医院、公立学校、非营利组织均可申请长期免费使用【鱼雀空间】，长期免费使用的知识库和文档数量不限。
　　四、功能介绍
　　1.个人用户进行个人创作，写生活日记。建立个人秘密仓库，存放个人笔记。使用它来采集和组织数据并建立自己的知识库。
　　2. 小型组织适合社团、学习小组、一群人一起创建知识库。集体编写和翻译书籍。分工写文件和制作手册。
　　五、操作指南
　　去鱼雀官方网站注册使用，或者在电脑上下载软件。
　　网址：
　　您可以选择手机号、钉钉或微信登录。
　　客户端界面
　　页面端工作界面
　　1. 创建新的文件和表格
　　在任何带有顶部导航的页面上，单击右侧的“+”以启动新文档和表格的创建。
　　进入编辑器后，无论是文档还是表格，每隔1分钟就会开启一次自动保护。内容仅在没有帖子或更新时对您或您的团队成员可见。
　　

　　当然，手动保护也是可以的。
　　2.资源知识库文件上传
　　第一步是选择“新建知识库”，在新建知识库页面选择“资源知识库”。
　　第二步，点击右上角的“上传文件”，一次最多可以同时上传10个文件。
　　以前的教案和知识总结文件可以统一上传，组织成知识体系框架，构建知识库，方便又安全。
　　3.组建团队共同编辑
　　第一步，在第一个飞行栏上，点击“+”并选择New Team。
　　第二步：在弹出的页面中，选择需要的类型模板，点击下一步。
　　第三步：在弹出的信息输入页面，输入团队信息，选择需要的套餐。
　　基本模型有50个团队成员，这已经足够庞大了！
　　教学视频：
　　用户手册：
　　如果喜欢今天的文章，请留言告诉小编！
　　本文为实用教育技术原创，作者蛋挞。
　　解决方案:阿里本地生活全域日志平台 Xlog 的思考与实践
　　作者 | 王宇（奥天）
　　来源 | 阿里云日志服务团队
　　1. 背景
　　程序员通过打印“hello world”来学习每一种语言。这种启发性的探索正在向我们传递一个信息：“当你踏入编程领域时，代码和日志将是你最重要的伙伴”。在代码部分，有了越来越多强大的idea插件和快捷键，大大提高了开发者的编码效率。在日志部分，各个团队也在朝着调查的方向进行创新尝试。这也是研发有效性领域的重要组成部分。
　　阿里集团的本地生活，在支持多生态公司、多技术栈的背景下，逐渐沉淀出跨应用、跨域的日志排查解决方案——Xlog。目前还支持icbu、本地生活、新零售、盒马、蚂蚁、阿里cto、阿里云、淘特、灵曦互娱等团队。也获得了sls开发团队的好评。
　　希望这篇文章能给正在使用或打算使用sls的同学带来一些投入，帮助团队尽快落实日志排查计划。第一部分重点介绍微服务框架下日志排查面临的挑战以及我们是如何解决的。第二部分从细节的角度谈了程序设计的几个难点和克服策略。第三部分是关于 Xlog 目前的能力。第四部分，主体能力，如何建设生态能力。
　　1.1 Xlog解决的问题
　　通过日志排查的时候，相信有几个步骤大家都很熟悉： 1.登录跳板。2. 切换跳线。3. 登录阿里云平台sls。4.切换到阿里云sls项目logstore。来回循环。
　　例如，下图展示了一个长链接系统的片段（真实链接更复杂）：Application1，Application2，Application3。其中 Application1 和 Application2 是同一个域（类似于：一个子团队），而 Application3 属于另一个域。那么这个查询涉及到两个场景：跨应用查询和跨域查询。
　　Application1的负责人接手问题后，通过跳板或者sls日志发现需要上游同学协助排查。这时候无论是切换跳板还是sls，还是联系Application2的负责人协助查询，都需要1min->3min的响应时间。从Application2的负责人那里找Application3的负责人会比较难，因为可能不清楚Application3的sls信息（我们的bu有10万级的logstore信息），也没有跳板登录许可，我不知道Application3的sls信息。主要的。结果，调查时间大大增加。
　　前面的例子只展示了三个应用的查询场景，真实的链接往往比这复杂得多。那么有没有可以一键一站式查询所需日志的平台呢？于是，致力于解决长链接下跨应用、跨域搜索频繁切换的Xlog诞生了！
　　1.2 Xlog支持的场景
　　微服务框架下的跨应用查询，跨域集成环境下的跨域查询。
　　本文向大家介绍xlog，帮助群内业务搭建更大的生态系统，简单易用，非侵入式，并且随着越来越多的域连接，点可以连接，线可以组合创建一个经济体，或者一个更大的生态系统的日志全链路解决方案。
　　1.3 Xlog目前的系统建设
　　对于已经采集到sls的应用，我们可以实现代码零修改，不侵入部署环境，采集结构和采集通道都是免费的。基本上只要能访问sls，就可以访问Xlog。通过对结构、格式和跨域能力的规范化，Xlog 支持了几种最常用于故障排除的场景：应用内跨文件搜索、域内跨应用搜索和跨域搜索。
　　《持续交付2.0》作者乔亮提到：一致性是提高研发效率的唯一途径。整个经济发展了20多年，很难做到全覆盖一致。但是，Xlog 创新性地提出了一种将不一致性转化为一致性的解决方案。无论是查询还是其他基于日志的技术体系建设，都有里程碑。意义。
　　2、方案设计
　　本段将详细描述Xlog的设计思路和开发过程。如果已经连接过sls，可以跳到2.2；如果你还没有连接sls，你可以阅读2.1，会有一些创新的想法。
　　2.1 初步计划：创新与隔离
　　2019年SaaS刚刚成立，很多基础设施都需要完善。和很多团队一样，我们主要使用两种方式查询日志：
　　1.登录跳板查询：使用Traceid->Eagle->机器ip->登录跳板->grep关键字的查询链接。缺点：每次查询4-6分钟，日志检索和可视化较差，无法跨应用查询，无法查看历史日志。
　　2.登录阿里云sls web控制台查询：登录sls->keyword查询。缺点：每次查询1-2分钟，日志可视化较差，无法跨应用跨域查询。
　　基于这样的背景，我们做了3件事来提高查询效率：
　　统一的日志格式：一组标准用于 logback 中的模式。
　　%d{yyyy-MM-dd HH:mm:ss.SSS} {LOG_LEVEL_PATTERN:-%5p}{LOG_LEVEL_PATTERN:-%5p}{PID:-} --- [%t] [%X{EAGLEEYE_TRACE_ID}] %记录器-%L: %m%n
　　在：
　　%d{yyyy-MM-dd HH:mm:ss.SSS}：时间精确到毫秒
　　${LOG_LEVEL_PATTERN:-%5p}：日志级别、DEBUG、INFO、WARN、ERROR等。
　　${PID:-}：进程 ID
　　---：分隔符没有特殊含义
　　[%t]: 线程名称
　　[%X{EAGLEEYE_TRACE_ID}]：鹰眼追踪 ID
　　%logger：日志名称
　　%m%n: 消息正文和换行符
　　在域内使用相同的日志格式被证明比预期更有利可图。对整个链路的分析、监控、故障排除，甚至未来的智能故障排除，都将带来极大的便利。
　　

　　该方案在解决域内单应用和跨应用方面都有非常好的表现，只需要完成一次API调用。如果你的团队准备使用 sls，如果 sls 的数据只是用来排查问题（监控类的 sunfire 可以直接读取服务器的本地日志），我们还是推荐这个方案。它可以很好地完成调查的需要。基于这些条件的解决方案已经存入Xlog，可以直接接入Xlog，享受Xlog的全套能力。
　　2.2 当前计划：创新助世界
　　刚才的解决方案在解决自己域的排错问题上表现不错。但2020年，SaaS开始支持多个生态公司，面临的场景不再是自己的领域，需要将多个领域打通。在这一点上，我们面临两个主要挑战：
　　因此，在之前的方案中，我们升级了Xlog，重新定义了目标：
　　2.2.1 模型设计
　　由于调用sls api查询日志的单元是logstore，所以我们可以将各种采集结构拆分成以下三个单元的组合（当然大部分域可能是这些结构之一）。
　　1. 一个环境对应一个logstore，（例如：在这个域中，日常环境中应用的所有日志都在一个logstore中）。域A如下图所示。
　　2、一个应用对应一个logstore，（比如应用A的日常环境对应logstore1，应用A的预发布环境对应logstore2，应用B的日常环境对应logstore3）。域 B 如下图所示。
　　3.一个文件对应一个logstore，（例如应用A的a文件对应日常环境的logstore1，应用A的b文件对应日常环境的logstore2）。域 C 如下图所示。
　　有了这样的原子结构，在xlog上配置时，只需要创建域、环境、应用、文件=>logstore的映射关系即可。这样，可以在域内执行应用程序粒度和文件粒度查询。
　　同样在没有网关的跨域场景下，可以通过结合两个域的logstore来完成跨域查询。如上图：指定域A中的两个应用，可以转换成logstore加过滤条件。指定域 B 中的两个应用程序，可以转换成两个 logstore。在域C中指定两个应用程序，可以先搜索应用程序下的文件，然后找到文件对应的logstore集合。至此，阿里云sls中有所有需要查询日志的logstore。最终的结果是通过对查询结果进行组合和排序得到的。同样，如果要进行跨域搜索，只需要拼接多个域的logstore即可。然后进行查询。
　　2.2.2 性能优化
　　通过2.2.1模型设计的描述，无论是环境类型、应用类型还是文件类型的sls结构，以及单应用、多应用、多域查询都可以转换成一组logstore，然后遍历并执行日志存储。但这会带来新的问题。如果有很多logstore，如何提高效率。比如对接一个团队的日志，发现他们的logstore有3000个，每个环境有1000个应用。假设每个查询需要 150ms，1000 个应用程序需要执行 150s（2.5 分钟）。试想一下，如果在不指定应用程序的情况下搜索整个域以查找日志需要 2.5 分钟，将会花费多少。针对这个问题，我们对性能进行了优化。主要使用以下方法，
　　如上图所示，当用户通过前端选择对应的操作域和查询条件时。后端分析得到需要查询的logstore列表（如图A、B、C、D、E所示）。然后通过分析用户的私密应用进行排序和过滤，得到一个优先级队列（图中B、A、C）。使用创建的链接池对优先级队列进行并发查询，得到一组日志结果。最后前端完成排序组装，渲染完成一个循环。本文主要讲解线程池并发和算法优化模块。
　　2.2.3 线程池并发
　　与传统的线程池并发执行相比，并没有太大的区别。将要查询的logstore按顺序插入到线程池队列中。通过这种方式，在每次logstore查询次数较少（小于核心线程数）的情况下，可以有效减少查询时间。对于大量场景，有算法优化支持。
　　对于查询后的补偿操作，也采用异步处理的方式来减少查询时间。
　　2.2.4 算法优化
　　对于满足条件的logstore较多（超过核心线程数）的场景，通过线程池并发查询无法快速得到结果。经过一年的日志快速排序数据积累和分析，我们发现即使不指定应用和搜索条件，通过查询人员操作习惯或关注应用习惯，也能定位到最可能的日志存储顺序。
　　例如，在商家 saas 中心，大约有 500 个应用程序。同学A的负责系统是Application1，查询较多的应用程序是Application11和Application12。另外，与Application1上下游关系密切的应用是Application2和Application3。如果是这样，我们可以认为A同学会比其他应用程序更关注应用程序Application1、Application11、Application12、Application2和Application3。对于这些应用程序，可以执行优先级查询。从而将 500 个查询任务减少到 5 个。
　　结合日常生活中的情况，每个开发者关注的应用数量极有可能控制在30个以内。
　　通过以上分析，我们建立了两组亲和网络来定位查询批次和梯队。
　　用户每次调用时，都可以分析查询条件、查询结果和用户，建立关系。因为可以在查询条件中指定应用程序，所以也不需要指定应用程序。
　　如果是指定的应用程序，则表示用户显式查询了应用程序的内容。给用户与应用的亲密度加 5 分。
　　如果不指定应用，可以根据关键字查询来分析查询结果。提取查询结果的每条日志对应的应用，然后加1分（因为没有明确指定，而是根据关键字进行辐射）。
　　至此，经过多次用户操作，即可获得用户与各个应用之间的亲密度。当遇到多个logstore查询时，可以根据用户过滤掉亲密度最高的15个应用。作为第一批查询对象。
　　应用程序之间也存在亲和力。应用的亲密度越高，被关联搜索的概率就越大。例如，应用中心和产品这两个应用中心在系统设计上就有这种密切的关系。如果用户A的亲属关系中收录application center，那么在查询log的时候很有可能会辐射到application prod。基于这个思想，可以通过分析每个查询日志的结果来创建关系矩阵。
　　每次获取关键字查询的日志结果后，涉及的应用的成对亲密度加1。相当于在一个链接上应用亲密度加1。方便日后查询，不会因人员亲密度丢失应用亲密度信息，导致链接失真。
　　以上是我们如何训练亲和矩阵的一般概述。下面说说如何通过这个矩阵来优化查询算法。如下图，左上角是我们记录的人-应用和应用-应用的关系矩阵。具体来说，对于用户与应用A、应用B、应用C等的关系，我们会用一个分数来衡量他们的亲和度，主要可以描述人们对应用的关注度。在 app-app 之间，我们记录了彼此的耦合程度。右上角是查询条件。根据查询条件和各个域的采集结构，可以快速计算出要查询的logstore列表。但并非所有日志存储都需要查询。这里，
　　如下图所示，对于命中路口的应用，会根据人和应用的关系进行计算，选择得分高的。然后，那些低于 30 阈值的人会得到应用与应用亲和力的补充。这里涉及到一个比较逻辑，会根据人与应用的比例得分*应用的得分与应用比例，类似于霍夫曼编码中路径权重的含义。最后得到一个需要查询的30个logstore的列表。
　　2.2.5 跨域映射
　　跨域是进行全链路故障排除时必须面对的挑战。在实现原理上，跨域有两种场景：通过网关和不通过网关。
　　如上图所示，分别为域1、域2、域3、域4的通话链接。域1调用域2，域3调用域4不经过网关，traceId不变。域2调用域3时，需要经过网关，traceId发生变化。
　　我们可以将查询方法分为两种。1.关键字查询，如输入订单号。这实际上不受链路跟踪方案的影响，也不受网关的影响。因此，您仍然可以按每个域中的关键字进行搜索。2.通过traceId查询。这首先需要通过网关信息获取映射关系。即traceId1->traceId2。然后使用这两个 traceId 在各自的域中进行搜索。
　　3. 现有能力
　　通过对原有飞云日志快速排序功能的改进和访问成本的提高。Xlog已经完成了主要功能的开发和实现。
　　

　　跨域查询操作：
　　通过对用户使用习惯的分析，目前支持单应用、域内跨应用、跨域。按文件、日志级别、关键字、时间等搜索，同时支持保存用户操作习惯。
　　支持阿里云sls采集结构，只要能拆成采集的上述三种模式，都可以支持。如果有非常特殊的情况，可以联系奥天定制。
　　对于已经连上sls的系统，sls的配置不需要更改，在Xlog上配置即可。对于sls采集日志存储时间、采集方法、预算等，分配给各个业务团队，可以根据自己的实际情况进行调整。
　　对于不同的域，对一些关键字段的敏感度可能不同。比如有的需要使用traceid，有的需要使用requestid，游戏需要使用messageid。对于这种场景，支持自定义搜索框，并且在显示日志时会突出显示关键字段。
　　通过以上方法的性能优化，目前的性能指标如下：单个应用查询150ms。32 个应用程序为 400 毫秒。超过50个应用，算法优化，时间在500ms。
　　4、生态建设
　　本章记录了本系统日志级别的优化和构建。大部分想法和策略都可以重复使用，希望对有相同需求的同学有所帮助。
　　4.1 成本优化
　　Xlog系统建成后，如何降低成本成为新的挑战。实施以下方法后，成本降低80%。主要的操作也列在这里，希望能给也在使用sls的用户一些帮助。
　　阿里云内部账户相比外部账户有额外的折扣。因此，如果有部门在外弹部署，可以考虑将日志直接上传到域内的账号，或者申请该账号成为域内的账号。
　　其实在打印日志的时候，往往没有考虑到成本，很多都是随意打印的。因此，我们根据交易量为每个应用程序设计域值，如果超过指标的需要进行优化。
　　优化存储时间是最简单、最直接的方法。我们将离线（每日和预发布）日志存储时间减少到 1 天，在线时间减少到 3 天 -> 7 天。然后结合使用归档功能来优化成本。
　　索引优化相对复杂，但也是最有效的。经过分析，我们的大部分成本都分布在索引、存储和交付上。该指数约占70%。优化索引的操作，其实就是降低索引占用日志的比例。例如，只支持前几个字节的查询能力，下面的详细信息部分是附加的详细信息。由于我们域内有统一的日志格式，所以域内的日志中只留下traceid索引，为汇总日志维护全索引。所以后续的查询方式是先通过summary log查询traceid，再通过traceid查询明细。
　　4.2 归档能力
　　在构建整个架构时，我们还考虑了成本因素。在降低成本的同时，我们缩短了存储时间。但是，缩短存储时间必然会导致对历史问题的排查能力不足。因此，我们也提出了归档能力的建设。
　　在 sls 的 logstore 中，可以配置数据下发： . 这一步其实就是讲sls中的信息，存到oss中。通俗的讲，就是将数据库表以文件的形式保存，删除索引的能力。在交付过程中将执行加密。目前，Xlog 支持在界面下载和归档日志，然后在本地搜索。
　　后期可以根据需要重新导入oss数据到sls，参考：.
　　4.3 异常日志扫描
　　借助之前的架构，其实可以清楚的知道每条日志的内容在哪里，可以准确的查询到记录错误日志的文件内容。因此，每10分钟进行一次检查，汇总各个应用程序中的异常日志，获取此期间异常信息的数量。然后通过之前的对比就可以知道是否有新的错误，爆炸错误等等。
　　如上图所示，获取所有异常日志后，会按照规则计算md5。堆栈类型和异常日志类型对这两种类型有不同的算法，但本质目标是相同的，都是计算最有可能被重读的段落的md5，然后进行聚类。聚类完成后，可以得到差异并进行比较，从而判断是新增还是突然增加。
　　5. 规划
　　目前，Xlog的基本组件和功能已经实现。在各种应用和域的访问中，整个环节会越来越完整。接下来，将补充全链路、视觉检查、智能检查和问题发现。
　　6. 使用和共建
　　参考很多其他团队对采集结构、日志格式、查询方式、呈现方式的要求，降低了访问成本，提高了定制化。满足条件的团队，可轻松接入
　　对于一些特殊或定制化的需求，Xlog预留了扩展模块，方便共建。
　　如上图所示，图中绿色的组件是可以复用的，只需要为自己的领域定制结构和跨域映射即可。只需要根据定义的策略模式的接口来实现即可。
　　‍
　　参与话题互动赢阿里科技定制口袋！
　　互动文章：《6大论坛，30+技术话题，2022首届阿里巴巴开源开放周来了！》
　　好的技术文章
　　灰度接口迁移方案千万级可观测数据采集器 - iLogtail 代码完整开源全链路压力测试：影子库与影子表之战全链路灰度数据库上怎么做？
　　企业案例
　　企业上云| 阿里云长春数字化转型经验分享：助力“专、专、新”，数字科技伴随企业成长
　　云柱
　　三星堆梦幻之旅：只有云计算才能带来的体验，不仅可以在路上，还可以提供良好的服务：自动驾驶产品的规模问题，定义了自动驾驶，未来的移动智能载体？如何提出关键问题，支持10万人同时在线互动，是实现元界的基本前提？返回搜狐，查看更多

汇总:云端内容采集推送，你了解多少？(一)？

采集交流 • 优采云发表了文章 • 0 个评论 • 108 次浏览 • 2022-11-04 15:16 • 来自相关话题

　　汇总:云端内容采集推送，你了解多少？(一)？
　　云端内容采集推送，
　　1、技术，云端内容的推送技术目前已经很成熟了，大都是ai方面的推送技术，可以同时推送很多内容的。
　　2、内容的标准，就是一些已有的平台，知乎、豆瓣、淘宝等等，他们的内容是固定的，平台给大家传递内容、互动内容。
　　3、用户行为，现在用户的交互已经很丰富了，然后一些社交类的app也在尝试，通过这些行为来进行匹配内容，获取用户感兴趣的内容。
　　
　　找这方面的大神回答问题
　　一般数据是通过爬虫获取的
　　android手机里内置就是小米浏览器的“抓包”功能
　　阿里云端互联网服务
　　
　　因为中国互联网还不够发达，有的用户连浏览器都没用过，某些连搜索引擎都没用过，
　　百度
　　公开的资源.没有必要让别人随便知道.除非他需要,就会展示.不展示.完全没必要对外.用户只要想在互联网寻找东西,就能搜到信息.必须要展示
　　我猜应该是：抓取过来以后，进行过滤，做过滤，再进行分类，分类过后，不需要展示（比如，那些违法的内容，那些不适合做广告的内容），用户想看的内容会展示出来，被分类为用户需要的，并且，有需要下载的内容，即使这个网站没有这方面的东西，用户也需要下载该网站的内容（这里需要的定义要有区别）这么麻烦，会降低用户使用效率，增加大量不必要的流量。
　　大概这么一些原因：1.首先，大部分网站是公开资源2.其次，大部分公开资源，都是针对用户提供的，而不是企业主动推荐3.然后，国内的访问速度及稳定性及发展前景，似乎还不够。查看全部

　　汇总:云端内容采集推送，你了解多少？(一)？
　　云端内容采集推送，
　　1、技术，云端内容的推送技术目前已经很成熟了，大都是ai方面的推送技术，可以同时推送很多内容的。
　　2、内容的标准，就是一些已有的平台，知乎、豆瓣、淘宝等等，他们的内容是固定的，平台给大家传递内容、互动内容。
　　3、用户行为，现在用户的交互已经很丰富了，然后一些社交类的app也在尝试，通过这些行为来进行匹配内容，获取用户感兴趣的内容。
　　

　　找这方面的大神回答问题
　　一般数据是通过爬虫获取的
　　android手机里内置就是小米浏览器的“抓包”功能
　　阿里云端互联网服务
　　

　　因为中国互联网还不够发达，有的用户连浏览器都没用过，某些连搜索引擎都没用过，
　　百度
　　公开的资源.没有必要让别人随便知道.除非他需要,就会展示.不展示.完全没必要对外.用户只要想在互联网寻找东西,就能搜到信息.必须要展示
　　我猜应该是：抓取过来以后，进行过滤，做过滤，再进行分类，分类过后，不需要展示（比如，那些违法的内容，那些不适合做广告的内容），用户想看的内容会展示出来，被分类为用户需要的，并且，有需要下载的内容，即使这个网站没有这方面的东西，用户也需要下载该网站的内容（这里需要的定义要有区别）这么麻烦，会降低用户使用效率，增加大量不必要的流量。
　　大概这么一些原因：1.首先，大部分网站是公开资源2.其次，大部分公开资源，都是针对用户提供的，而不是企业主动推荐3.然后，国内的访问速度及稳定性及发展前景，似乎还不够。

解决方案:云采集是个业务问题，就好比你在星巴克，打开的是wifi星巴克

采集交流 • 优采云发表了文章 • 0 个评论 • 108 次浏览 • 2022-11-03 04:08 • 来自相关话题

　　解决方案:云采集是个业务问题，就好比你在星巴克，打开的是wifi星巴克
　　云端内容采集本质上并不是一个技术问题，而是一个业务问题。就好比你在星巴克，打开的是wifi星巴克，而不是移动电信那个有线连接一样。题主可以去搜索下云采集，有一大堆相关文章可以参考。从技术角度来说，只要你能够为客户提供稳定的mqtt服务，最终一切都好办。你要做的是可以提供相应的业务产品，并且使这个产品能够为企业本身的业务提供良好的支撑。至于数据稳定，除了腾讯系那些一些专业做数据存储的厂商外，几乎大部分都不行，可以认为无法保证。
　　
　　云采集就是云采集呗？
　　云采集是个多业务流转的过程，采集肯定是涉及到业务的。
　　
　　云采集就是传统采集技术与云采集技术的融合。具体包括两方面内容，采集方面是专业化的采集引擎，不是普通采集数据，方便迁移整合到新业务使用，采集的标准化准确稳定应用，前端浏览器端、移动端，互联网网页端、接入前端，更多个数据源，跨设备，跨终端。能实现前端设备到后端数据应用的协同采集。这方面跟专业的采集人员就需要在数据源有很高的技术能力还需要找到合适的采集方式。
　　后端处理上需要分库分表，存储建库，数据处理统一模块，而不是简单的把数据采集出来然后通过规范化标准化数据模块高度自动化复用。这些内容在实际应用中多数能接触到的更多是传统的采集程序，云采集既然是融合那就建议配合云采集的专业化进行开发，操作更加便捷。查看全部

　　解决方案:云采集是个业务问题，就好比你在星巴克，打开的是wifi星巴克
　　云端内容采集本质上并不是一个技术问题，而是一个业务问题。就好比你在星巴克，打开的是wifi星巴克，而不是移动电信那个有线连接一样。题主可以去搜索下云采集，有一大堆相关文章可以参考。从技术角度来说，只要你能够为客户提供稳定的mqtt服务，最终一切都好办。你要做的是可以提供相应的业务产品，并且使这个产品能够为企业本身的业务提供良好的支撑。至于数据稳定，除了腾讯系那些一些专业做数据存储的厂商外，几乎大部分都不行，可以认为无法保证。
　　

　　云采集就是云采集呗？
　　云采集是个多业务流转的过程，采集肯定是涉及到业务的。
　　

　　云采集就是传统采集技术与云采集技术的融合。具体包括两方面内容，采集方面是专业化的采集引擎，不是普通采集数据，方便迁移整合到新业务使用，采集的标准化准确稳定应用，前端浏览器端、移动端，互联网网页端、接入前端，更多个数据源，跨设备，跨终端。能实现前端设备到后端数据应用的协同采集。这方面跟专业的采集人员就需要在数据源有很高的技术能力还需要找到合适的采集方式。
　　后端处理上需要分库分表，存储建库，数据处理统一模块，而不是简单的把数据采集出来然后通过规范化标准化数据模块高度自动化复用。这些内容在实际应用中多数能接触到的更多是传统的采集程序，云采集既然是融合那就建议配合云采集的专业化进行开发，操作更加便捷。

优化的解决方案:云端内容采集+云端储存+中转中心解决跨平台问题

采集交流 • 优采云发表了文章 • 0 个评论 • 123 次浏览 • 2022-11-02 04:10 • 来自相关话题

　　优化的解决方案:云端内容采集+云端储存+中转中心解决跨平台问题
　　
　　云端内容采集+云端储存+中转中心，可以解决跨平台问题，比如用qq邮箱来对我每天发送的文章进行分发，问题是人家不知道你用qq邮箱发过来的到底是什么类型的文章，另外一个就是是这个邮箱的昵称是否和前一个一致，就会产生问题。所以邮箱就比较鸡肋了，毕竟邮箱的安全性也是个问题。手机网页就可以就解决邮箱的问题了，我们就可以把各类型的文章以列表的形式整理好，然后配上标题，进行发送。就没有多余的文件去整理各类型文章到各个邮箱。
　　
　　更新时间放到6月30日，到时候文章如果超过字数，排版工作就会比较繁琐。我的方案是全部用图片。现在是打开网页就看到，不用开电脑网页对于大多数人来说很好用，有需要开电脑再登陆（不过大多数只用电脑浏览器浏览的话，还是挺麻烦的）可以自己用格式图片处理工具（微软自带就可以）编辑。应该不是针对小号很多，现在像爱奇艺，腾讯这些国内视频网站基本都用google看电影吧（我知道的腾讯也支持，不过从我用google看下来来看更方便），360搜索也可以（我也在用，但是有些浏览器不支持google+）我知道腾讯，优酷，搜狐这类网站同样不支持google+，我也是通过其他手段才了解到的。
　　题主如果手机能看txt格式的文件，建议用微信看，首页有一个搜一搜，直接搜索文件，搜到后点开，阅读格式都是txt格式的，你可以自己选文件阅读格式。你说到的搜索会分辨率不清楚这个如何调整，这个一般人用不到，我用手机网页搜索电脑网页搜索对比发现：手机网页都是以一代流式传输为标准来识别文字的，而电脑网页是以为标准识别文字的。所以电脑网页上文字基本显示大小和我手机网页上一样。查看全部

　　优化的解决方案:云端内容采集+云端储存+中转中心解决跨平台问题
　　

　　云端内容采集+云端储存+中转中心，可以解决跨平台问题，比如用qq邮箱来对我每天发送的文章进行分发，问题是人家不知道你用qq邮箱发过来的到底是什么类型的文章，另外一个就是是这个邮箱的昵称是否和前一个一致，就会产生问题。所以邮箱就比较鸡肋了，毕竟邮箱的安全性也是个问题。手机网页就可以就解决邮箱的问题了，我们就可以把各类型的文章以列表的形式整理好，然后配上标题，进行发送。就没有多余的文件去整理各类型文章到各个邮箱。
　　

　　更新时间放到6月30日，到时候文章如果超过字数，排版工作就会比较繁琐。我的方案是全部用图片。现在是打开网页就看到，不用开电脑网页对于大多数人来说很好用，有需要开电脑再登陆（不过大多数只用电脑浏览器浏览的话，还是挺麻烦的）可以自己用格式图片处理工具（微软自带就可以）编辑。应该不是针对小号很多，现在像爱奇艺，腾讯这些国内视频网站基本都用google看电影吧（我知道的腾讯也支持，不过从我用google看下来来看更方便），360搜索也可以（我也在用，但是有些浏览器不支持google+）我知道腾讯，优酷，搜狐这类网站同样不支持google+，我也是通过其他手段才了解到的。
　　题主如果手机能看txt格式的文件，建议用微信看，首页有一个搜一搜，直接搜索文件，搜到后点开，阅读格式都是txt格式的，你可以自己选文件阅读格式。你说到的搜索会分辨率不清楚这个如何调整，这个一般人用不到，我用手机网页搜索电脑网页搜索对比发现：手机网页都是以一代流式传输为标准来识别文字的，而电脑网页是以为标准识别文字的。所以电脑网页上文字基本显示大小和我手机网页上一样。

终极:网易云音乐采集“十三条纬线”“特殊采集技巧”

采集交流 • 优采云发表了文章 • 0 个评论 • 119 次浏览 • 2022-11-01 21:17 • 来自相关话题

　　终极:网易云音乐采集“十三条纬线”“特殊采集技巧”
　　云端内容采集是个复杂又烧脑的事，光是买软件就要千万，不过我们今天以三级巨头网易云音乐采集为例，跟大家分享网易云音乐采集的“十三条纬线“特殊采集技巧。经过云麦对网易云音乐所有歌曲的采集，将歌曲列表与采集关键词分开，采集后按照《十三条纬线》的规则，点击采集就可以将采集到的歌曲整体呈现在mac上，采集歌曲列表为歌词，点击歌词可以直接显示歌曲名称或者标签。
　　
　　一、采集网易云音乐整体歌词数据首先，进入网易云音乐，导入需要采集的歌曲关键词，云采集会自动匹配匹配歌曲的歌词内容。点击歌词进入歌词采集页面，右上角可以获取一些歌词相关的资源，包括歌词框的字体大小、歌词来源等，选择来源可以获取歌词本身，选择歌曲就是歌曲名称或者歌曲链接等内容；选择匹配词，然后在确定这些歌词出现在哪个歌词框中，出现在：关键词，歌词还原为歌曲歌词框的内容；匹配词需要参数化，参数从关键词和歌词这两个文本字段中匹配，关键词就是歌曲的歌词，歌词就是歌曲的歌词框，至于匹配的歌词如何设置，可以看云采集接口提供的设置功能。
　　已有歌词页面，直接在编辑采集内容首先获取歌曲名称和歌词编码，点击编码获取歌曲编码，歌曲编码就是所搜集歌曲的歌词编码，可以在云采集的编码列表中查看到。歌词采集最常用的方法就是用php语言字符集处理字符，然后转换成python可读的base64字符集。值得一提的是，云采集提供可以使用php中的assembly库来管理整个采集过程，让mac上采集歌词也变得非常简单。
　　
　　在词典获取点击链接解析设置内容是否解析，比如歌词解析，是否是歌词显示就可以设置是否显示歌词，显示歌词的时候勾选关键词和歌曲名，隐藏歌词关键词歌曲，把采集时的歌词文件保存为临时文件，进入云采集点击歌词即可生成歌词。txt或者livefile格式都可以，写入文件保存在什么地方就保存到什么地方，这里建议写入云端，采集失败恢复很快。
　　根据云采集的使用说明可以看到，云采集从歌词到歌词进入歌词池，每一步都要存储一些歌词，这些歌词需要采集到服务器上，存储歌词就是云采集的一个特色功能，三种最常见的存储方式：硬盘存储、文件/目录存储和excel存储。云采集使用dropbox文件存储，一个大文件可以存2个小文件，更改只需要移动一下即可，只需要把字段加到服务器上，匹配歌词也是一样，把匹配出来的歌词存储到云采集服务器上。
　　2.创建歌词存储组存储歌词的时候选择创建歌词池，选择歌词存储组，按照要求填写相关信息，歌词池中的歌词包括歌曲名称和歌词编码，点击确定可以创建歌词池，在云。查看全部

　　终极:网易云音乐采集“十三条纬线”“特殊采集技巧”
　　云端内容采集是个复杂又烧脑的事，光是买软件就要千万，不过我们今天以三级巨头网易云音乐采集为例，跟大家分享网易云音乐采集的“十三条纬线“特殊采集技巧。经过云麦对网易云音乐所有歌曲的采集，将歌曲列表与采集关键词分开，采集后按照《十三条纬线》的规则，点击采集就可以将采集到的歌曲整体呈现在mac上，采集歌曲列表为歌词，点击歌词可以直接显示歌曲名称或者标签。
　　

　　一、采集网易云音乐整体歌词数据首先，进入网易云音乐，导入需要采集的歌曲关键词，云采集会自动匹配匹配歌曲的歌词内容。点击歌词进入歌词采集页面，右上角可以获取一些歌词相关的资源，包括歌词框的字体大小、歌词来源等，选择来源可以获取歌词本身，选择歌曲就是歌曲名称或者歌曲链接等内容；选择匹配词，然后在确定这些歌词出现在哪个歌词框中，出现在：关键词，歌词还原为歌曲歌词框的内容；匹配词需要参数化，参数从关键词和歌词这两个文本字段中匹配，关键词就是歌曲的歌词，歌词就是歌曲的歌词框，至于匹配的歌词如何设置，可以看云采集接口提供的设置功能。
　　已有歌词页面，直接在编辑采集内容首先获取歌曲名称和歌词编码，点击编码获取歌曲编码，歌曲编码就是所搜集歌曲的歌词编码，可以在云采集的编码列表中查看到。歌词采集最常用的方法就是用php语言字符集处理字符，然后转换成python可读的base64字符集。值得一提的是，云采集提供可以使用php中的assembly库来管理整个采集过程，让mac上采集歌词也变得非常简单。
　　

　　在词典获取点击链接解析设置内容是否解析，比如歌词解析，是否是歌词显示就可以设置是否显示歌词，显示歌词的时候勾选关键词和歌曲名，隐藏歌词关键词歌曲，把采集时的歌词文件保存为临时文件，进入云采集点击歌词即可生成歌词。txt或者livefile格式都可以，写入文件保存在什么地方就保存到什么地方，这里建议写入云端，采集失败恢复很快。
　　根据云采集的使用说明可以看到，云采集从歌词到歌词进入歌词池，每一步都要存储一些歌词，这些歌词需要采集到服务器上，存储歌词就是云采集的一个特色功能，三种最常见的存储方式：硬盘存储、文件/目录存储和excel存储。云采集使用dropbox文件存储，一个大文件可以存2个小文件，更改只需要移动一下即可，只需要把字段加到服务器上，匹配歌词也是一样，把匹配出来的歌词存储到云采集服务器上。
　　2.创建歌词存储组存储歌词的时候选择创建歌词池，选择歌词存储组，按照要求填写相关信息，歌词池中的歌词包括歌曲名称和歌词编码，点击确定可以创建歌词池，在云。

解决方案:云端内容采集设备是淘宝网的规则细则吗？？

采集交流 • 优采云发表了文章 • 0 个评论 • 98 次浏览 • 2022-10-29 10:23 • 来自相关话题

　　解决方案:云端内容采集设备是淘宝网的规则细则吗？？
　　云端内容采集设备：淘宝内容采集器一般分为几种类型：
　　1、云端采集器和云端外采集器。云端采集器就是，用外部程序去爬取淘宝网的内容，直接发到你的客户端；云端外采集器是用专门的云端采集器软件，直接从淘宝里面采集内容。
　　
　　2、手机客户端淘宝内容采集器。手机端淘宝有几种方式可以抓取阿里巴巴里面的网页内容，一个是用淘宝账号登录，一个是用云采集器软件登录。在他们的后台里面是可以看到每一个页面内容的的来源。
　　3、网页自动采集。手机淘宝里面还有个页面自动采集，这个需要手动设置对应的页面，然后网页上面会直接自动跳转到上述方式里面。
　　
　　4、网页批量采集。在阿里云里面，可以设置很多个标签，每天爬取多少网页的内容。在爬取之前先把网页都下载下来，然后把里面的标签添加到采集队列。这样操作，可以增加效率，还可以记录前端浏览数据。
　　5、还有很多方式，比如全图内容，可以通过淘宝网-我的淘宝app去抓取，还有全图视频直接通过百度云的方式去抓取。我接触过的云采集器多是淘宝和大麦网，现在人们越来越懒，基本上就是人工智能去抓取。需要特别指出的是：要学会抓取淘宝网的内容，必须是要看淘宝上面的内容是否是规范的，也就是说：内容是否合法，是否符合淘宝网的规则。
　　这些规则细则、协议不能随便写在淘宝网的规则里面。还要看看内容是否是原创的。不然就等于找死，之前接触过卖家都是把别人给你提供的内容，自己修改成你的页面重新上架售卖，这就很不合法。查看全部

　　解决方案:云端内容采集设备是淘宝网的规则细则吗？？
　　云端内容采集设备：淘宝内容采集器一般分为几种类型：
　　1、云端采集器和云端外采集器。云端采集器就是，用外部程序去爬取淘宝网的内容，直接发到你的客户端；云端外采集器是用专门的云端采集器软件，直接从淘宝里面采集内容。
　　

　　2、手机客户端淘宝内容采集器。手机端淘宝有几种方式可以抓取阿里巴巴里面的网页内容，一个是用淘宝账号登录，一个是用云采集器软件登录。在他们的后台里面是可以看到每一个页面内容的的来源。
　　3、网页自动采集。手机淘宝里面还有个页面自动采集，这个需要手动设置对应的页面，然后网页上面会直接自动跳转到上述方式里面。
　　

　　4、网页批量采集。在阿里云里面，可以设置很多个标签，每天爬取多少网页的内容。在爬取之前先把网页都下载下来，然后把里面的标签添加到采集队列。这样操作，可以增加效率，还可以记录前端浏览数据。
　　5、还有很多方式，比如全图内容，可以通过淘宝网-我的淘宝app去抓取，还有全图视频直接通过百度云的方式去抓取。我接触过的云采集器多是淘宝和大麦网，现在人们越来越懒，基本上就是人工智能去抓取。需要特别指出的是：要学会抓取淘宝网的内容，必须是要看淘宝上面的内容是否是规范的，也就是说：内容是否合法，是否符合淘宝网的规则。
　　这些规则细则、协议不能随便写在淘宝网的规则里面。还要看看内容是否是原创的。不然就等于找死，之前接触过卖家都是把别人给你提供的内容，自己修改成你的页面重新上架售卖，这就很不合法。

优化的解决方案:使用 DataFlux 采集 Docker 监控指标并展示

采集交流 • 优采云发表了文章 • 0 个评论 • 162 次浏览 • 2022-10-29 02:17 • 来自相关话题

优化的解决方案:使用 DataFlux 采集 Docker 监控指标并展示
　　DataFlux是上海住云自主研发的一套统一的大数据分析平台，通过对任意来源、任意类型、任意规模的实时数据进行监测、分析和处理，释放数据价值。
　　DataFlux 包括五个功能模块：
　　- 数据包采集器
　　- Dataway 数据网关
　　- DataFlux Studio 实时数据洞察平台
　　- DataFlux Admin Console 管理后台
　　- DataFlux.f(x) 实时数据处理开发平台
　　为企业提供全场景数据洞察分析能力，具有实时性、灵活性、易扩展性、易部署性。
　　安装 DataKit
　　PS：以Linux系统为例
　　第一步：执行安装命令
　　DataKit 安装命令：
　　DK_FTDATAWAY=[你的 DataWay 网关地址] bash -c "$(curl https://static.dataflux.cn/datakit/install.sh)"
　　在安装命令中添加DataWay网关地址，然后将安装命令复制到主机执行。
　　例如：如果DataWay网关的IP地址为1.2.3.4，端口为9528（9528为默认端口），则网关地址为：9528/v1/write/metrics，安装命令为：
　　DK_FTDATAWAY=http://1.2.3.4:9528/v1/write/metrics bash -c "$(curl https://static.dataflux.cn/datakit/install.sh)"
　　安装完成后DataKit会默认自动运行，并会在终端提示DataKit状态管理命令
　　Docker 指标采集
　　采集 docker 指标报告给 DataFlux
　　打开DataKit采集源码配置文件夹（默认路径是DataKit安装目录的conf.d文件夹），找到docker文件夹，打开里面的docker.conf。
　　设置：
　　# Read metrics about docker containers
[[inputs.docker]]
## Docker Endpoint
## To use TCP, set endpoint = "tcp://[ip]:[port]"
## To use environment variables (ie, docker-machine), set endpoint = "ENV"
endpoint = "unix:///var/run/docker.sock"

## Set to true to collect Swarm metrics(desired_replicas, running_replicas)
## Note: configure this in one of the manager nodes in a Swarm cluster.
## configuring in multiple Swarm managers results in duplication of metrics.
gather_services = false
## Only collect metrics for these containers. Values will be appended to
## container_name_include.
## Deprecated (1.4.0), use container_name_include
container_names = []
## Set the source tag for the metrics to the container ID hostname, eg first 12 chars
source_tag = false
## Containers to include and exclude. Collect all if empty. Globs accepted.
container_name_include = []
container_name_exclude = []
## Container states to include and exclude. Globs accepted.
## When empty only containers in the "running" state will be captured.
## example: container_state_include = ["created", "restarting", "running", "removing", "paused", "exited", "dead"]
## example: container_state_exclude = ["created", "restarting", "running", "removing", "paused", "exited", "dead"]
# container_state_include = []
# container_state_exclude = []
## Timeout for docker list, info, and stats commands
timeout = "5s"
## Whether to report for each container per-device blkio (8:0, 8:1...) and
## network (eth0, eth1, ...) stats or not
perdevice = true
　　
## Whether to report for each container total blkio and network stats or not
total = false
## docker labels to include and exclude as tags. Globs accepted.
## Note that an empty array for both will include all labels as tags
docker_label_include = []
docker_label_exclude = []
## Which environment variables should we use as a tag
tag_env = ["JAVA_HOME", "HEAP_SIZE"]
## Optional TLS Config
# tls_ca = "/etc/telegraf/ca.pem"
# tls_cert = "/etc/telegraf/cert.pem"
# tls_key = "/etc/telegraf/key.pem"
## Use TLS but skip chain & host verification
# insecure_skip_verify = false
　　配置好后重启DataKit生效
　　验证数据报告
　　完成数据采集操作后，我们需要验证数据采集是否成功并上报给DataWay，以便日后可以正常分析和展示数据。
　　操作步骤：登录DataFlux-数据管理-指标浏览-验证数据采集是否成功
　　码头工人指标：
　　DataFlux 的数据洞察力
　　根据获得的指标进行数据洞察设计，如：
　　Docker监控视图
　　基于自研DataKit数据（采集器），DataFlux现在可以对接200多种数据协议，包括：云数据采集、应用数据采集、日志数据采集，时序数据上报和常用数据库的数据聚合，帮助企业实现最便捷的IT统一监控。
　　汇总:千万级可观测数据采集器--iLogtail代码完整开源
　　简介：2022年6月29日，阿里云iLogtail迎来开源后的第一次重大更新，正式发布全功能iLogtail社区版。在本次更新中，所有 C++ 核心代码都是开源的。该版本是第一个在内核功能方面与企业版保持一致的版本。开发者可以构建 iLogtail 云原生可观测数据采集器，性能媲美企业版。本次发布增加了日志文件采集、容器文件采集、无锁事件处理、多租户隔离等重要特性，以及基于Pipeline的全新配置方式，全面提升了可用性社区版。和性能，欢迎开发者关注，共同打造。
　　作者 | 讯飞，叶默
　　
　　来源 | 阿里开发者公众号
　　2022年6月29日，阿里云iLogtail迎来开源后的第一次重大更新，正式发布全功能iLogtail社区版。在本次更新中，所有 C++ 核心代码都是开源的。该版本是第一个在内核功能方面与企业版保持一致的版本。开发者可以构建 iLogtail 云原生可观测数据采集器，性能媲美企业版。本次发布增加了日志文件采集、容器文件采集、无锁事件处理、多租户隔离等重要特性，以及基于Pipeline的全新配置方式，全面提升了可用性社区版。和性能，欢迎开发者关注，共同打造。
　　可观测性数据采集挑战
　　
　　可观察性是通过检查系统输出来测量系统内部状态的能力。该术语起源于几十年前的控制理论，由匈牙利出生的工程师鲁道夫卡尔曼首次提出。在分布式 IT 系统中，可观察性通常使用各种类型的遥测数据（日志、指标和跟踪）来测量基础设施、平台和应用程序，以了解它们的运行状态和流程。这些数据的采集通常由一个采集Agent 完成，该Agent 与观察到的对象一起运行。在基于云原生和微服务的现代系统架构下，这些观察对象比以往更加分散、数量更多、变化更快，使得采集Agent面临以下挑战：
　　高性能、低开销：现代应用程序往往运行在数据中心、公共云和边缘的数千台服务器、虚拟机和容器中，采集Agent 的每一点性能开销都会被计入 Zoom在数千次。目前很多开源代理的设计都更注重功能而非性能。单核处理性能一般在2-10M/s左右，我们希望达到100M/s的单核性能。在采集目标增加、数据量增加、采集延迟、服务器端异常等情况下，开源代理的内存将呈现爆发式增长，我们希望即使在各种环境下，内存可以在较低的水位。采集稳定准确，多级故障隔离：可观察性需要至少比被观察系统可靠一个数量级。数据采集Agent的稳定性，除了保证数据本身的准确性采集外，还需要保证不影响业务应用，否则会带来灾难性的后果。另一方面，无论问题如何发生，都需要尽可能地隔离问题。比如一个Agent上有多个采集配置，一个配置问题不能影响其他配置。企业级管控大规模配置：可观测数据应用广泛。企业内部通常有大量配置。需要代理支持集中化和自动化的配置管理能力，而不是手动登录机器修改配置，并确保配置期间的数据重新加载。不丢失也不重。当Agent有多个采集配置时，合理安排资源。高优先级配置需要优先分配内存带宽等资源，保证低优先级配置不被“饿死”。之后，就有足够的 Burst 能力快速赶上数据。更原生、更友好的K8s支持：K8s提供强大的运维部署、弹性伸缩、故障恢复能力，极大的方便了分布式系统的开发和管理。但是，日志的问题采集也来了。K8s多样化的数据输出使得同一个Agent需要同时支持采集主机日志、容器日志、容器stdout等数据源。K8s业务部署的弹性伸缩能力要求Agent具备动态发现和标记容器的能力，同时如何保证数据采集查看全部

## Set to true to collect Swarm metrics(desired_replicas, running_replicas)
## Note: configure this in one of the manager nodes in a Swarm cluster.
## configuring in multiple Swarm managers results in duplication of metrics.
gather_services = false
## Only collect metrics for these containers. Values will be appended to
## container_name_include.
## Deprecated (1.4.0), use container_name_include
container_names = []
## Set the source tag for the metrics to the container ID hostname, eg first 12 chars
source_tag = false
## Containers to include and exclude. Collect all if empty. Globs accepted.
container_name_include = []
container_name_exclude = []
## Container states to include and exclude. Globs accepted.
## When empty only containers in the "running" state will be captured.
## example: container_state_include = ["created", "restarting", "running", "removing", "paused", "exited", "dead"]
## example: container_state_exclude = ["created", "restarting", "running", "removing", "paused", "exited", "dead"]
# container_state_include = []
# container_state_exclude = []
## Timeout for docker list, info, and stats commands
timeout = "5s"
## Whether to report for each container per-device blkio (8:0, 8:1...) and
## network (eth0, eth1, ...) stats or not
perdevice = true
　　

## Whether to report for each container total blkio and network stats or not
total = false
## docker labels to include and exclude as tags. Globs accepted.
## Note that an empty array for both will include all labels as tags
docker_label_include = []
docker_label_exclude = []
## Which environment variables should we use as a tag
tag_env = ["JAVA_HOME", "HEAP_SIZE"]
## Optional TLS Config
# tls_ca = "/etc/telegraf/ca.pem"
# tls_cert = "/etc/telegraf/cert.pem"
# tls_key = "/etc/telegraf/key.pem"
## Use TLS but skip chain & host verification
# insecure_skip_verify = false
　　配置好后重启DataKit生效
　　验证数据报告
　　完成数据采集操作后，我们需要验证数据采集是否成功并上报给DataWay，以便日后可以正常分析和展示数据。
　　操作步骤：登录DataFlux-数据管理-指标浏览-验证数据采集是否成功
　　码头工人指标：
　　DataFlux 的数据洞察力
　　根据获得的指标进行数据洞察设计，如：
　　Docker监控视图
　　基于自研DataKit数据（采集器），DataFlux现在可以对接200多种数据协议，包括：云数据采集、应用数据采集、日志数据采集，时序数据上报和常用数据库的数据聚合，帮助企业实现最便捷的IT统一监控。
　　汇总:千万级可观测数据采集器--iLogtail代码完整开源
　　简介：2022年6月29日，阿里云iLogtail迎来开源后的第一次重大更新，正式发布全功能iLogtail社区版。在本次更新中，所有 C++ 核心代码都是开源的。该版本是第一个在内核功能方面与企业版保持一致的版本。开发者可以构建 iLogtail 云原生可观测数据采集器，性能媲美企业版。本次发布增加了日志文件采集、容器文件采集、无锁事件处理、多租户隔离等重要特性，以及基于Pipeline的全新配置方式，全面提升了可用性社区版。和性能，欢迎开发者关注，共同打造。
　　作者 | 讯飞，叶默

　　来源 | 阿里开发者公众号
　　2022年6月29日，阿里云iLogtail迎来开源后的第一次重大更新，正式发布全功能iLogtail社区版。在本次更新中，所有 C++ 核心代码都是开源的。该版本是第一个在内核功能方面与企业版保持一致的版本。开发者可以构建 iLogtail 云原生可观测数据采集器，性能媲美企业版。本次发布增加了日志文件采集、容器文件采集、无锁事件处理、多租户隔离等重要特性，以及基于Pipeline的全新配置方式，全面提升了可用性社区版。和性能，欢迎开发者关注，共同打造。
　　可观测性数据采集挑战
　　

　　可观察性是通过检查系统输出来测量系统内部状态的能力。该术语起源于几十年前的控制理论，由匈牙利出生的工程师鲁道夫卡尔曼首次提出。在分布式 IT 系统中，可观察性通常使用各种类型的遥测数据（日志、指标和跟踪）来测量基础设施、平台和应用程序，以了解它们的运行状态和流程。这些数据的采集通常由一个采集Agent 完成，该Agent 与观察到的对象一起运行。在基于云原生和微服务的现代系统架构下，这些观察对象比以往更加分散、数量更多、变化更快，使得采集Agent面临以下挑战：
　　高性能、低开销：现代应用程序往往运行在数据中心、公共云和边缘的数千台服务器、虚拟机和容器中，采集Agent 的每一点性能开销都会被计入 Zoom在数千次。目前很多开源代理的设计都更注重功能而非性能。单核处理性能一般在2-10M/s左右，我们希望达到100M/s的单核性能。在采集目标增加、数据量增加、采集延迟、服务器端异常等情况下，开源代理的内存将呈现爆发式增长，我们希望即使在各种环境下，内存可以在较低的水位。采集稳定准确，多级故障隔离：可观察性需要至少比被观察系统可靠一个数量级。数据采集Agent的稳定性，除了保证数据本身的准确性采集外，还需要保证不影响业务应用，否则会带来灾难性的后果。另一方面，无论问题如何发生，都需要尽可能地隔离问题。比如一个Agent上有多个采集配置，一个配置问题不能影响其他配置。企业级管控大规模配置：可观测数据应用广泛。企业内部通常有大量配置。需要代理支持集中化和自动化的配置管理能力，而不是手动登录机器修改配置，并确保配置期间的数据重新加载。不丢失也不重。当Agent有多个采集配置时，合理安排资源。高优先级配置需要优先分配内存带宽等资源，保证低优先级配置不被“饿死”。之后，就有足够的 Burst 能力快速赶上数据。更原生、更友好的K8s支持：K8s提供强大的运维部署、弹性伸缩、故障恢复能力，极大的方便了分布式系统的开发和管理。但是，日志的问题采集也来了。K8s多样化的数据输出使得同一个Agent需要同时支持采集主机日志、容器日志、容器stdout等数据源。K8s业务部署的弹性伸缩能力要求Agent具备动态发现和标记容器的能力，同时如何保证数据采集

整套解决方案:云端内容采集器云采集：上传视频--批量采集

采集交流 • 优采云发表了文章 • 0 个评论 • 87 次浏览 • 2022-10-28 15:17 • 来自相关话题

　　整套解决方案:云端内容采集器云采集：上传视频--批量采集
　　云端内容采集器云采集：上传视频--批量采集：采集器--全网--采集--编辑筛选--批量采集--审核--下载--保存（可以同步把全网视频批量采集好自动下载）--转存文件云采集：内容是视频--自动添加相关批量采集内容进行下载
　　云采集文章推荐-如何用手机把文章采集到电脑上(收录)
　　“一键采集”可以试试
　　这里的还不错一键抓取各大网站的文章和视频等
　　就是我今天发现的一个网站，感觉效果还不错，而且无需安装任何软件！原理很简单，通过抓取去除重复内容，然后转换成app的形式推送给用户。供其他人抓取到视频和文章直接分享给用户就可以了。
　　
　　爱奇艺视频下载不需要费什么力气，只需要关注微信公众号“高效率工具”-点击“下载”你的视频就行了。
　　一键采集
　　是抖音吗
　　广告有毒，
　　小视频可以分享到公众号的，另外，
　　
　　我这里有同步抖音视频可以分享给你，把这篇视频发送给他，他就会自动分享，
　　类似于快手，也是通过微信推送的，但是它上传的时候没有水印，
　　原理就是同步到你的百度网盘或者app中。
　　只是搬运
　　还真不一定哈哈哈一键采集是知道吗
　　可以通过迅雷进行无水印搬运查看全部

　　整套解决方案:云端内容采集器云采集：上传视频--批量采集
　　云端内容采集器云采集：上传视频--批量采集：采集器--全网--采集--编辑筛选--批量采集--审核--下载--保存（可以同步把全网视频批量采集好自动下载）--转存文件云采集：内容是视频--自动添加相关批量采集内容进行下载
　　云采集文章推荐-如何用手机把文章采集到电脑上(收录)
　　“一键采集”可以试试
　　这里的还不错一键抓取各大网站的文章和视频等
　　就是我今天发现的一个网站，感觉效果还不错，而且无需安装任何软件！原理很简单，通过抓取去除重复内容，然后转换成app的形式推送给用户。供其他人抓取到视频和文章直接分享给用户就可以了。
　　

　　爱奇艺视频下载不需要费什么力气，只需要关注微信公众号“高效率工具”-点击“下载”你的视频就行了。
　　一键采集
　　是抖音吗
　　广告有毒，
　　小视频可以分享到公众号的，另外，
　　

　　我这里有同步抖音视频可以分享给你，把这篇视频发送给他，他就会自动分享，
　　类似于快手，也是通过微信推送的，但是它上传的时候没有水印，
　　原理就是同步到你的百度网盘或者app中。
　　只是搬运
　　还真不一定哈哈哈一键采集是知道吗
　　可以通过迅雷进行无水印搬运

直观:使用 DataFlux 采集 Nginx 监控指标并展示

采集交流 • 优采云发表了文章 • 0 个评论 • 118 次浏览 • 2022-10-27 13:31 • 来自相关话题

直观:使用 DataFlux 采集 Nginx 监控指标并展示
　　DataFlux是上海住云自主研发的一套统一的大数据分析平台，通过对任意来源、任意类型、任意规模的实时数据进行监测、分析和处理，释放数据价值。
　　DataFlux 包括五个功能模块：
　　- 数据包采集器
　　- Dataway 数据网关
　　- DataFlux Studio 实时数据洞察平台
　　- DataFlux Admin Console 管理后台
　　- DataFlux.f(x) 实时数据处理开发平台
　　为企业提供全场景数据洞察分析能力，具有实时性、灵活性、易扩展性、易部署性。
　　Nginx作为常用的Web容器之一，经常被很多运维（开发）伙伴用来搭建Web网站服务器。今天给大家分享一个监控SAAS平台，通过简单的配置即可实现站点和业务监控——使用DataFlux采集Nginx性能指标并分析展示。
　　安装 DataKit
　　PS：以Linux系统为例
　　第一步：执行安装命令
　　
　　DataKit 安装命令：
　　DK_FTDATAWAY=[你的 DataWay 网关地址] bash -c "$(curl https://static.dataflux.cn/datakit/install.sh)"
　　在安装命令中添加DataWay网关地址，然后将安装命令复制到主机执行。
　　例如：如果DataWay网关的IP地址为1.2.3.4，端口为9528（9528为默认端口），则网关地址为：9528/v1/write/metrics，安装命令为：
　　DK_FTDATAWAY=http://1.2.3.4:9528/v1/write/metrics bash -c "$(curl https://static.dataflux.cn/datakit/install.sh)"
　　安装完成后DataKit会默认自动运行，并会在终端提示DataKit状态管理命令
　　Nginx 监控指标采集
　　按需采集各种版本的 nginx 指标并报告给 DataFlux。
　　前提
　　配置
　　打开DataKit采集源码配置文件夹（默认路径是DataKit安装目录的conf.d文件夹），找到nginx文件夹，打开里面的nginx.conf。
　　修改配置文件，如图。
　　
　　配置完成后重启DataKit生效。
　　验证数据报告
　　完成数据采集操作后，我们需要验证数据采集是否成功并上报给DataWay，以便日后可以正常分析和展示数据。
　　操作步骤：登录DataFlux-数据管理-指标浏览-验证数据采集是否成功
　　Nginx 指标：
　　DataFlux 的数据洞察力
　　根据获得的指标进行数据洞察设计，如：
　　Nginx监控视图
　　基于自研DataKit数据（采集器），DataFlux现在可以对接200多种数据协议，包括：云数据采集、应用数据采集、日志数据采集，时序数据上报和常用数据库的数据聚合，帮助企业实现最便捷的IT统一监控。
　　测评:渗透测试之信息收集
　　港口信息采集
　　端口作为服务器和客户端之间的接口，起着非常重要的作用。
　　一些常用端口标识服务器启用了哪些功能。常见的135、137、138、139、445，这些端口经常会爆发漏洞。以下是部分服务端口的漏洞。
　　扫描端口，可以使用 Nmap 和 masscan 进行扫描和检测。采集尽可能多的开放端口和对应的服务版本。得到准确的服务版本后，可以搜索对应版本的漏洞。
　　nmap 扫描的精度很高，但是扫描速度比较慢。
　　Masscan 扫描速度更快，但准确性较低。
　　Nmap -O 192.168.1.1
　　( )
　　侧站C段查询
　　侧站信息：侧站是与目标网站在同一服务器上的另一个网站。如果主站无法获取权限，可以将侧站作为攻击入口，然后想办法穿越服务器。到真正的目标站点目录。
　　C段：C段是与目标机器ip在同一C段的其他机器；
　　通过目标所在的C段中的任何其他机器，找到一种方法可以穿越到我们的目标机器。对于红蓝对抗和网保，C段扫描更有意义。
　　但是对于单独的网站渗透测试，C 段扫描几乎没有意义。
　　每个 IP 有四个段 ABCD。比如192.168.0.1，segment A是192，segment B是168，segment C是0，segment D是1，segment C嗅探就是拿下同C网段中的一台服务器，也就是，段 D 1-255 中的服务器，然后使用工具嗅探来关闭服务器。
　　目录扫描
　　由于发布网站时服务器配置问题，可以打开目录浏览器，造成信息泄露和安全隐患。
　　在信息采集过程中，需要采集的敏感目录/文件包括：
　　提到网站敏感目录时，要注意robots.txt文件。
　　robots.txt 文件是专门为搜索引擎机器人编写的纯文本文件。我们可以在网站中指定我们不想被该文件中的机器人访问的目录。
　　这样我们的网站内容可以部分或全部从搜索引擎收录中排除，或者搜索引擎只能收录指定内容。
　　因此，我们可以使用robots.txt来阻止Google的机器人访问我们网站上的重要文件，GoogleHack的威胁是不存在的。
　　如果 robots.txt 文件内容如下：
　　 
　　用户代理： *
　　禁止：/数据/
　　禁止：/db/
　　禁止：/admin/
　　禁止：/经理/
　　 
　　“Disallow”参数后面是禁止robot收录部分的路径，
　　比如我们想让机器人封禁收录网站目录下的“data”文件夹，
　　只需在 Disallow 参数后添加 /data/ 即可。
　　如果要添加其他目录，只需继续以这种格式添加即可。
　　文件写入后，将其上传到网站的根目录，以使网站远离 Google Hack。
　　尽管 robots 文件的目的是防止搜索蜘蛛想要爬取它们想要保护的页面，
　　但是如果我们知道robots文件的内容，就可以知道目标网站那些文件夹是不允许访问的。从侧面看，这些文件夹非常重要。
　　检测目标网站后端目录的工具：
　　网站指纹识别
　　在渗透测试中，对目标服务器进行指纹识别是非常有必要的，因为只有识别出对应的Web容器或者cms，才能找到相关的漏洞，然后才能进行对应的渗透操作。
　　cms又称全站系统。
　　常见的cms有：WordPress、Dedecms、Discuz、PhpWeb、PhpWind、Dvbbs、Phpcms、ECShop、、SiteWeaver、Aspcms、Empire、Z-Blog等待。
　　在线指纹网站：
　　内容敏感信息泄露
　　我们使用谷歌语法查找敏感信息
　　
　　搜索文件
　　查找参数
　　找到登录点：
　　找到目录：
　　寻找重要的东西：
　　Github 信息泄露
　　Github 不仅可以托管代码，还可以搜索代码。在上传和发布代码时，一些敏感的配置信息文件会被公开。
　　Github 主要合集：
　　网站架构
　　但是要确定目标网站服务器的具体版本，可以使用nmap扫描，-O和-A参数可以扫描。
　　1、Access的全称是Microsoft Office Access，是微软公司发布的关联数据库管理系统。
　　对于小型数据库，当数据库达到 100M 左右时，性能会下降。数据库后缀：.mdb 一般是使用access数据库的asp网页文件
　　2、SQL Server是微软开发和推广的关系数据库管理系统（DBMS），是一个比较大的数据库。端口号为1433。数据库后缀.mdf
　　3.MySQL是关系型数据库管理系统，由瑞典MySQL AB公司开发，目前是Oracle的产品。
　　MySQL 是最流行的关系数据库管理系统。MySQL是WEB应用中最好的应用软件之一。大多数 MySQL 数据库都是 php 页面。默认端口为 3306
　　4.Oracle又称Oracle RDBMS，简称Oracle。
　　它是 Oracle Corporation 的关系数据库管理系统。通常用于较大的网站。默认端口为 1521
　　首先是成本的区别，访问是免费的，mysql也是开源的，sql server一般要几千，Oracle要几万。
　　其次，处理能力，access支持千级以内的访问，sql server支持千级到几万级的访问，Oracle支持海量访问。
　　再次，从数据库规模来看，access是小型数据库，mysql是中小型数据库，sql server是中型数据库，oracle是大型数据库。
　　知道了这些信息后，我们需要知道网站使用的是什么类型的 web 服务器：Apache、Nginx、Tomcat 或 IIS。
　　在知道了web服务器是什么类型之后，我们还需要检测web服务器的具体版本。
　　比如Ngnix版本
　　1.可以根据网站URL判断
　　2. 站点：xxx 文件类型：php
　　3.可以根据火狐浏览器的插件来判断
　　教学具体工具 SubDomainsBrute subDomainsBrute 的特点 subDomainsBrute 安装
　　1.首先，你的电脑需要有python环境。如果没有，可以按照下面的链接下载。这里推荐使用python2.7.10。
　　python2.7.10下载地址
　　或者下载首页也可以下载python2.7.10按照以上提示步骤依次安装。
　　安装后，需要添加环境变量。
　　2.下载subDomainsBrute到python根目录。下载地址如下：
　　subDomainsBrute 下载地址：
　　3.检查python27文件夹下是否有Script文件夹
　　里面有一些easy_install相关的内容，直接安装setuptools可以自动生成Script文件夹。
　　下载 ez_setup.py 并在 cmd 中运行。
　　进入命令行，然后将目录切换到python安装目录下的Script文件夹，运行python ez_setup.py生成scripts文件夹。
　　4、在Script文件所在路径下输入cmd，在调用的命令行中安装需要的库。您可以使用 pip 直接安装它。命令是 pip install dnspython gevent
　　子域Brutez 使用
　　Usage: subDomainsBrute.py [options] target.com Options: --version show program's version number and exit -h, --help show this help message and exit -f FILE File contains new line delimited subs, default is subnames.txt. --full Full scan, NAMES FILE subnames_full.txt will be used to brute -i, --ignore-intranet Ignore domains pointed to private IPs -t THREADS, --threads=THREADS Num of scan threads, 200 by default -p PROCESS, --process=PROCESS Num of scan Process, 6 by default -o OUTPUT, --output=OUTPUT Output file name. default is {target}.txt
　　
　　层子域挖掘器
　　Layer子域矿机是一款域名查询工具，提供网站子域查询服务；
　　界面简洁，操作方式简单，支持服务接口、暴力搜索、同服挖矿三种模式，支持打开网站、复制域名、复制IP、复制CDN、导出域名、导出IP ，导出域名+IP，导出域名+IP+WEB服务器，导出生存网站！
　　使用说明
　　列出百度下的子域
　　网站使用后台扫描工具御剑
　　御剑是一款好用的网站后台扫描工具，带有图形化页面，易于使用。
　　我们使用Edgeworth Scanner，主要是扫描网站敏感目录，包括网站backends等。
　　扫描原理也是爆破，就是通过敏感目录的字典进行匹配。
　　在御剑后台扫描之前，爬虫会访问robots txt文件。
　　工具介绍
　　御剑安装使用
　　1.下载解压后双击打开软件。
　　2、打开后在域名输入框中输入要扫描的后台地址。
　　3. 在下面的选项中，您可以选择扫描线程、扫描超时和文件类型。
　　4.全部选好后，就可以点击开始扫描了。
　　5. 等待扫描后，下方会出现扫描结果。
　　御剑的使用非常简单，简单配置后即可进行扫描，但缺点是御剑无法导出扫描报告。
　　当然御剑也有很多版本，功能略有不同，比如指纹识别、后台扫描、获取真实IP、检测注入等。
　　使用 dirbuster
　　工具介绍
　　dirbuster的安装和使用
　　1. 下载最新版本的 DirBuster。解压后在Windows中双击DirBuster-0.12.jar，或者直接打开kali自带的DirBuster（命令：root@kali:~# dirbuster）。
　　2、启动DirBuser后，主界面如下：
　　注意：如果您的扫描目标是，
　　然后在URL中填写“/admin/{dir}”进行fuzz，
　　表示可以在“{dir}”前后拼接任何你想要的目录或后缀，
　　例如输入“:/admin/{dir}.php”表示扫描admin目录下的所有php文件。
　　回顾过去的内容
　　扫码获取卖淫视频+工具+群访问+靶场等资料
　　扫描二维码免费卖淫！
　　还有免费匹配的靶场和交流群！查看全部

　　DataKit 安装命令：
　　DK_FTDATAWAY=[你的 DataWay 网关地址] bash -c "$(curl https://static.dataflux.cn/datakit/install.sh)"
　　在安装命令中添加DataWay网关地址，然后将安装命令复制到主机执行。
　　例如：如果DataWay网关的IP地址为1.2.3.4，端口为9528（9528为默认端口），则网关地址为：9528/v1/write/metrics，安装命令为：
　　DK_FTDATAWAY=http://1.2.3.4:9528/v1/write/metrics bash -c "$(curl https://static.dataflux.cn/datakit/install.sh)"
　　安装完成后DataKit会默认自动运行，并会在终端提示DataKit状态管理命令
　　Nginx 监控指标采集
　　按需采集各种版本的 nginx 指标并报告给 DataFlux。
　　前提
　　配置
　　打开DataKit采集源码配置文件夹（默认路径是DataKit安装目录的conf.d文件夹），找到nginx文件夹，打开里面的nginx.conf。
　　修改配置文件，如图。
　　

　　配置完成后重启DataKit生效。
　　验证数据报告
　　完成数据采集操作后，我们需要验证数据采集是否成功并上报给DataWay，以便日后可以正常分析和展示数据。
　　操作步骤：登录DataFlux-数据管理-指标浏览-验证数据采集是否成功
　　Nginx 指标：
　　DataFlux 的数据洞察力
　　根据获得的指标进行数据洞察设计，如：
　　Nginx监控视图
　　基于自研DataKit数据（采集器），DataFlux现在可以对接200多种数据协议，包括：云数据采集、应用数据采集、日志数据采集，时序数据上报和常用数据库的数据聚合，帮助企业实现最便捷的IT统一监控。
　　测评:渗透测试之信息收集
　　港口信息采集
　　端口作为服务器和客户端之间的接口，起着非常重要的作用。
　　一些常用端口标识服务器启用了哪些功能。常见的135、137、138、139、445，这些端口经常会爆发漏洞。以下是部分服务端口的漏洞。
　　扫描端口，可以使用 Nmap 和 masscan 进行扫描和检测。采集尽可能多的开放端口和对应的服务版本。得到准确的服务版本后，可以搜索对应版本的漏洞。
　　nmap 扫描的精度很高，但是扫描速度比较慢。
　　Masscan 扫描速度更快，但准确性较低。
　　Nmap -O 192.168.1.1
　　( )
　　侧站C段查询
　　侧站信息：侧站是与目标网站在同一服务器上的另一个网站。如果主站无法获取权限，可以将侧站作为攻击入口，然后想办法穿越服务器。到真正的目标站点目录。
　　C段：C段是与目标机器ip在同一C段的其他机器；
　　通过目标所在的C段中的任何其他机器，找到一种方法可以穿越到我们的目标机器。对于红蓝对抗和网保，C段扫描更有意义。
　　但是对于单独的网站渗透测试，C 段扫描几乎没有意义。
　　每个 IP 有四个段 ABCD。比如192.168.0.1，segment A是192，segment B是168，segment C是0，segment D是1，segment C嗅探就是拿下同C网段中的一台服务器，也就是，段 D 1-255 中的服务器，然后使用工具嗅探来关闭服务器。
　　目录扫描
　　由于发布网站时服务器配置问题，可以打开目录浏览器，造成信息泄露和安全隐患。
　　在信息采集过程中，需要采集的敏感目录/文件包括：
　　提到网站敏感目录时，要注意robots.txt文件。
　　robots.txt 文件是专门为搜索引擎机器人编写的纯文本文件。我们可以在网站中指定我们不想被该文件中的机器人访问的目录。
　　这样我们的网站内容可以部分或全部从搜索引擎收录中排除，或者搜索引擎只能收录指定内容。
　　因此，我们可以使用robots.txt来阻止Google的机器人访问我们网站上的重要文件，GoogleHack的威胁是不存在的。
　　如果 robots.txt 文件内容如下：
　　 
　　用户代理： *
　　禁止：/数据/
　　禁止：/db/
　　禁止：/admin/
　　禁止：/经理/
　　 
　　“Disallow”参数后面是禁止robot收录部分的路径，
　　比如我们想让机器人封禁收录网站目录下的“data”文件夹，
　　只需在 Disallow 参数后添加 /data/ 即可。
　　如果要添加其他目录，只需继续以这种格式添加即可。
　　文件写入后，将其上传到网站的根目录，以使网站远离 Google Hack。
　　尽管 robots 文件的目的是防止搜索蜘蛛想要爬取它们想要保护的页面，
　　但是如果我们知道robots文件的内容，就可以知道目标网站那些文件夹是不允许访问的。从侧面看，这些文件夹非常重要。
　　检测目标网站后端目录的工具：
　　网站指纹识别
　　在渗透测试中，对目标服务器进行指纹识别是非常有必要的，因为只有识别出对应的Web容器或者cms，才能找到相关的漏洞，然后才能进行对应的渗透操作。
　　cms又称全站系统。
　　常见的cms有：WordPress、Dedecms、Discuz、PhpWeb、PhpWind、Dvbbs、Phpcms、ECShop、、SiteWeaver、Aspcms、Empire、Z-Blog等待。
　　在线指纹网站：
　　内容敏感信息泄露
　　我们使用谷歌语法查找敏感信息
　　

搜索文件
　　查找参数
　　找到登录点：
　　找到目录：
　　寻找重要的东西：
　　Github 信息泄露
　　Github 不仅可以托管代码，还可以搜索代码。在上传和发布代码时，一些敏感的配置信息文件会被公开。
　　Github 主要合集：
　　网站架构
　　但是要确定目标网站服务器的具体版本，可以使用nmap扫描，-O和-A参数可以扫描。
　　1、Access的全称是Microsoft Office Access，是微软公司发布的关联数据库管理系统。
　　对于小型数据库，当数据库达到 100M 左右时，性能会下降。数据库后缀：.mdb 一般是使用access数据库的asp网页文件
　　2、SQL Server是微软开发和推广的关系数据库管理系统（DBMS），是一个比较大的数据库。端口号为1433。数据库后缀.mdf
　　3.MySQL是关系型数据库管理系统，由瑞典MySQL AB公司开发，目前是Oracle的产品。
　　MySQL 是最流行的关系数据库管理系统。MySQL是WEB应用中最好的应用软件之一。大多数 MySQL 数据库都是 php 页面。默认端口为 3306
　　4.Oracle又称Oracle RDBMS，简称Oracle。
　　它是 Oracle Corporation 的关系数据库管理系统。通常用于较大的网站。默认端口为 1521
　　首先是成本的区别，访问是免费的，mysql也是开源的，sql server一般要几千，Oracle要几万。
　　其次，处理能力，access支持千级以内的访问，sql server支持千级到几万级的访问，Oracle支持海量访问。
　　再次，从数据库规模来看，access是小型数据库，mysql是中小型数据库，sql server是中型数据库，oracle是大型数据库。
　　知道了这些信息后，我们需要知道网站使用的是什么类型的 web 服务器：Apache、Nginx、Tomcat 或 IIS。
　　在知道了web服务器是什么类型之后，我们还需要检测web服务器的具体版本。
　　比如Ngnix版本
　　1.可以根据网站URL判断
　　2. 站点：xxx 文件类型：php
　　3.可以根据火狐浏览器的插件来判断
　　教学具体工具 SubDomainsBrute subDomainsBrute 的特点 subDomainsBrute 安装
　　1.首先，你的电脑需要有python环境。如果没有，可以按照下面的链接下载。这里推荐使用python2.7.10。
　　python2.7.10下载地址
　　或者下载首页也可以下载python2.7.10按照以上提示步骤依次安装。
　　安装后，需要添加环境变量。
　　2.下载subDomainsBrute到python根目录。下载地址如下：
　　subDomainsBrute 下载地址：
　　3.检查python27文件夹下是否有Script文件夹
　　里面有一些easy_install相关的内容，直接安装setuptools可以自动生成Script文件夹。
　　下载 ez_setup.py 并在 cmd 中运行。
　　进入命令行，然后将目录切换到python安装目录下的Script文件夹，运行python ez_setup.py生成scripts文件夹。
　　4、在Script文件所在路径下输入cmd，在调用的命令行中安装需要的库。您可以使用 pip 直接安装它。命令是 pip install dnspython gevent
　　子域Brutez 使用
　　Usage: subDomainsBrute.py [options] target.com Options: --version show program's version number and exit -h, --help show this help message and exit -f FILE File contains new line delimited subs, default is subnames.txt. --full Full scan, NAMES FILE subnames_full.txt will be used to brute -i, --ignore-intranet Ignore domains pointed to private IPs -t THREADS, --threads=THREADS Num of scan threads, 200 by default -p PROCESS, --process=PROCESS Num of scan Process, 6 by default -o OUTPUT, --output=OUTPUT Output file name. default is {target}.txt

　　层子域挖掘器
　　Layer子域矿机是一款域名查询工具，提供网站子域查询服务；
　　界面简洁，操作方式简单，支持服务接口、暴力搜索、同服挖矿三种模式，支持打开网站、复制域名、复制IP、复制CDN、导出域名、导出IP ，导出域名+IP，导出域名+IP+WEB服务器，导出生存网站！
　　使用说明
　　列出百度下的子域
　　网站使用后台扫描工具御剑
　　御剑是一款好用的网站后台扫描工具，带有图形化页面，易于使用。
　　我们使用Edgeworth Scanner，主要是扫描网站敏感目录，包括网站backends等。
　　扫描原理也是爆破，就是通过敏感目录的字典进行匹配。
　　在御剑后台扫描之前，爬虫会访问robots txt文件。
　　工具介绍
　　御剑安装使用
　　1.下载解压后双击打开软件。
　　2、打开后在域名输入框中输入要扫描的后台地址。
　　3. 在下面的选项中，您可以选择扫描线程、扫描超时和文件类型。
　　4.全部选好后，就可以点击开始扫描了。
　　5. 等待扫描后，下方会出现扫描结果。
　　御剑的使用非常简单，简单配置后即可进行扫描，但缺点是御剑无法导出扫描报告。
　　当然御剑也有很多版本，功能略有不同，比如指纹识别、后台扫描、获取真实IP、检测注入等。
　　使用 dirbuster
　　工具介绍
　　dirbuster的安装和使用
　　1. 下载最新版本的 DirBuster。解压后在Windows中双击DirBuster-0.12.jar，或者直接打开kali自带的DirBuster（命令：root@kali:~# dirbuster）。
　　2、启动DirBuser后，主界面如下：
　　注意：如果您的扫描目标是，
　　然后在URL中填写“/admin/{dir}”进行fuzz，
　　表示可以在“{dir}”前后拼接任何你想要的目录或后缀，
　　例如输入“:/admin/{dir}.php”表示扫描admin目录下的所有php文件。
　　回顾过去的内容
　　扫码获取卖淫视频+工具+群访问+靶场等资料
　　扫描二维码免费卖淫！
　　还有免费匹配的靶场和交流群！

解决方案:c#如何与云端连接接受发送数据？

采集交流 • 优采云发表了文章 • 0 个评论 • 64 次浏览 • 2022-10-17 05:30 • 来自相关话题

　　解决方案:c#如何与云端连接接受发送数据？
　　PHP实例开发源码-phpBB-WAP移动端网页程序源码4.0.4 LTS.zip
　　PHP实例开发源码—phpBB-WAP手机端网页程序源码4.0.4 LTS.zip PHP实例开发源码—phpBB-WAP手机端网页程序源码4.0.4 LTS.zip PHP实例开发源码— phpBB-WAP移动端网页程序源码4.0 .4 LTS.zip
　　国家级自然保护区矢量边界数据
　　
　　国家级自然保护区矢量边界数据。我国国家级自然保护区边界数据。数据格式：shp
　　按钮开关.swf
　　按钮开关.swf
　　微真天5.0微信群自动回复.exe
　　
　　微真天5.0微信群自动回复.exe
　　基于Java+sqlserver的通用安全模块设计与实现（源码+文档）.zip
　　资源名称：基于Java+sqlserver的通用安全模块设计与实现（源码+文档）_java_sqlserver_general security module.zip 资源内容：全套项目源码+完整文档源码说明：所有项目源码100%后测试和校正成功运行。适用场景：相关项目设计
　　免费获取:W11】各大视频网VIP账号资源分享网站源码全自动采集发布,无需人工
　　主要视频网络的VIP账号资源共享网站源代码自动采集发布，无需人工操作
　　
　　今天我就和大家分享一个VIP资源账号来分享网站源代码，源代码是PHP版，全自动采集发布，无需人工操作，自动更新，源代码是thinphP内核开发，第二次打开特别方便，方便设置广告、流量工具，这事量很大！
　　
　　赞助商可以下载并加入赞助商联系客服QQ/微信1963666915开放查看全部

　　国家级自然保护区矢量边界数据。我国国家级自然保护区边界数据。数据格式：shp
　　按钮开关.swf
　　按钮开关.swf
　　微真天5.0微信群自动回复.exe
　　

　　微真天5.0微信群自动回复.exe
　　基于Java+sqlserver的通用安全模块设计与实现（源码+文档）.zip
　　资源名称：基于Java+sqlserver的通用安全模块设计与实现（源码+文档）_java_sqlserver_general security module.zip 资源内容：全套项目源码+完整文档源码说明：所有项目源码100%后测试和校正成功运行。适用场景：相关项目设计
　　免费获取:W11】各大视频网VIP账号资源分享网站源码全自动采集发布,无需人工
　　主要视频网络的VIP账号资源共享网站源代码自动采集发布，无需人工操作
　　

　　今天我就和大家分享一个VIP资源账号来分享网站源代码，源代码是PHP版，全自动采集发布，无需人工操作，自动更新，源代码是thinphP内核开发，第二次打开特别方便，方便设置广告、流量工具，这事量很大！
　　

　　赞助商可以下载并加入赞助商联系客服QQ/微信1963666915开放

即将上线:商友速汇云端内容采集接入通道正式上线(图)

采集交流 • 优采云发表了文章 • 0 个评论 • 97 次浏览 • 2022-10-13 03:11 • 来自相关话题

　　即将上线:商友速汇云端内容采集接入通道正式上线(图)
　　
　　云端内容采集接入商友速汇正式上线，此前就有一波商友速汇用户抱怨想对接ios商友速汇,却要通过手机app来下载，完全是徒增了用户量，提高了工作量。为了解决这个问题，商友速汇与百度联合推出了云端内容采集接入通道，不用再下载app，只需在云端通过商友速汇公众号或者微信公众号接入云端内容采集就可以实现苹果ios内容采集，助力提高业务效率、降低营销成本和提升用户粘性。
　　
　　商友速汇云端内容采集流程第一步：商友速汇公众号或者个人号进入“接入商友速汇云端采集通道”功能第二步：接入，绑定通道流量和内容采集账号第三步：绑定完成后，点击右上角采集按钮，开始采集内容第四步：有采集完成的文章和图片就会通过商友速汇网页链接分享到商友速汇公众号，不需要下载app。操作流程1.微信公众号内搜索商友速汇2.进入后需要申请登录，申请登录请在微信登录页面的右上角点击右上角，进入人工申请登录3.填写您的申请登录信息4.申请成功后，绑定通道账号，管理员无需在申请登录时指定账号5.后续内容采集都在云端即可接入6.采集完成后可直接将采集的图片或文章发送或下载到相应的商友速汇网页即可。
　　其实，相信大家遇到的最大问题不是没有安卓手机，而是没有安卓手机的安卓账号。安卓云采集就是在云端发布采集到的内容，然后用安卓手机登录微信或者app采集就可以，查看全部

　　即将上线:商友速汇云端内容采集接入通道正式上线(图)
　　

　　云端内容采集接入商友速汇正式上线，此前就有一波商友速汇用户抱怨想对接ios商友速汇,却要通过手机app来下载，完全是徒增了用户量，提高了工作量。为了解决这个问题，商友速汇与百度联合推出了云端内容采集接入通道，不用再下载app，只需在云端通过商友速汇公众号或者微信公众号接入云端内容采集就可以实现苹果ios内容采集，助力提高业务效率、降低营销成本和提升用户粘性。
　　

　　商友速汇云端内容采集流程第一步：商友速汇公众号或者个人号进入“接入商友速汇云端采集通道”功能第二步：接入，绑定通道流量和内容采集账号第三步：绑定完成后，点击右上角采集按钮，开始采集内容第四步：有采集完成的文章和图片就会通过商友速汇网页链接分享到商友速汇公众号，不需要下载app。操作流程1.微信公众号内搜索商友速汇2.进入后需要申请登录，申请登录请在微信登录页面的右上角点击右上角，进入人工申请登录3.填写您的申请登录信息4.申请成功后，绑定通道账号，管理员无需在申请登录时指定账号5.后续内容采集都在云端即可接入6.采集完成后可直接将采集的图片或文章发送或下载到相应的商友速汇网页即可。
　　其实，相信大家遇到的最大问题不是没有安卓手机，而是没有安卓手机的安卓账号。安卓云采集就是在云端发布采集到的内容，然后用安卓手机登录微信或者app采集就可以，

云端内容采集福利:动漫b站动漫视频属于二次元的视频，你买了吗？

采集交流 • 优采云发表了文章 • 0 个评论 • 158 次浏览 • 2022-10-11 22:11 • 来自相关话题

　　云端内容采集福利:动漫b站动漫视频属于二次元的视频，你买了吗？
　　云端内容采集，如果是要实现内容采集的话，就需要购买企业或者是个人自己的云端服务器，然后用到的工具一般有nginx、lnmp等进行采集。有些比较大的企业采用的是采集阿里云上面数据，推荐commondo系列。还有，云端不仅仅要做数据采集，也要对接一些web站点，比如:58同城，黄页等等都需要自己有服务器来做http请求对接，以方便更好的做数据采集。
　　采集b站视频这个需求，包含了整个动漫行业分发的渠道，建议采用动漫视频行业相关api，其他b站相关的api虽然可以直接调用，但是对接效率、服务质量以及拓展能力等方面会有很多影响。lz可以尝试用优采云网的api接口接入+api接口开发+apisdk服务，价格优惠，功能强大且稳定。
　　
　　动漫b站动漫视频属于二次元的视频，其他类似的也有很多。我比较了解b站，把我b站的api接口给你说一下，
　　可以考虑乐童音乐
　　集三次元视频分享，动漫类app分享为一体的。我找到个功能相近的，希望能帮到你。
　　
　　api
　　不都是买服务器的么？你买了服务器，用那个api买的服务器就可以直接去爬去接入视频了呀。
　　推荐一个国内做的比较好的数据统计分析服务商
　　你可以搜一下国内相对比较好的几家公司之前和一个大牛聊天，推荐给你一个信息，有兴趣私聊，有时间我给你发api。查看全部

　　云端内容采集福利:动漫b站动漫视频属于二次元的视频，你买了吗？
　　云端内容采集，如果是要实现内容采集的话，就需要购买企业或者是个人自己的云端服务器，然后用到的工具一般有nginx、lnmp等进行采集。有些比较大的企业采用的是采集阿里云上面数据，推荐commondo系列。还有，云端不仅仅要做数据采集，也要对接一些web站点，比如:58同城，黄页等等都需要自己有服务器来做http请求对接，以方便更好的做数据采集。
　　采集b站视频这个需求，包含了整个动漫行业分发的渠道，建议采用动漫视频行业相关api，其他b站相关的api虽然可以直接调用，但是对接效率、服务质量以及拓展能力等方面会有很多影响。lz可以尝试用优采云网的api接口接入+api接口开发+apisdk服务，价格优惠，功能强大且稳定。
　　

　　动漫b站动漫视频属于二次元的视频，其他类似的也有很多。我比较了解b站，把我b站的api接口给你说一下，
　　可以考虑乐童音乐
　　集三次元视频分享，动漫类app分享为一体的。我找到个功能相近的，希望能帮到你。
　　

　　api
　　不都是买服务器的么？你买了服务器，用那个api买的服务器就可以直接去爬去接入视频了呀。
　　推荐一个国内做的比较好的数据统计分析服务商
　　你可以搜一下国内相对比较好的几家公司之前和一个大牛聊天，推荐给你一个信息，有兴趣私聊，有时间我给你发api。

　　赞助商可以下载并加入赞助商联系客服QQ/微信1963666915开放

即将上线:商友速汇云端内容采集接入通道正式上线(图)

采集交流 • 优采云发表了文章 • 0 个评论 • 97 次浏览 • 2022-10-13 03:11 • 来自相关话题

　　即将上线:商友速汇云端内容采集接入通道正式上线(图)
　　

云端内容采集福利:动漫b站动漫视频属于二次元的视频，你买了吗？

采集交流 • 优采云发表了文章 • 0 个评论 • 158 次浏览 • 2022-10-11 22:11 • 来自相关话题

更多...

云端内容采集

话题描述

相关话题

最佳回复者

1 人关注该话题