话题：文章采集调用 - 自动文章采集器-优采云官网

优化的解决方案:Sleuth+zipkin, 链路追踪SpringCloud微服务

采集交流 • 优采云发表了文章 • 0 个评论 • 86 次浏览 • 2022-10-07 19:08 • 来自相关话题

　　优化的解决方案:Sleuth+zipkin, 链路追踪SpringCloud微服务
　　为了实现请求链路跟踪，当一个请求被发送到分布式系统的入口时，只需要在服务跟踪框架中为该请求创建一个唯一的跟踪标识，并保证该标识在分布式系统内循环直到请求返回。标识为traceId，通过它可以串联不同服务调用的日志。总之，在整个 Http 调用（FeignClient 或 RestTemplate）中，我们可以识别出一条 TraceId 记录，并在 Http Request 过程中，将 TraceID 传递给提供服务的服务器，而提供服务的服务器在 Reuqest 中同理，将整个 TraceId 传递给他的服务提供者，这样整个自上而下的调用链路都具有相同的 TraceId，每个链路中服务的日志通过 TraceId 进行分组。并且，这样就得到了一个不同TraceId的调用链路，这就是链路跟踪的主要原理。还有一个国产产品，Skywalking，已经成为Apache的顶级开源项目。具体实现与Sleuth不同，但使用的原理是一样的。
　　MDC（映射诊断上下文）
　　通过上面的方法，我们就有了链路跟踪的实现方法。MDC（（映射的诊断上下文））转换为映射的诊断上下文。含义：在日志（映射）的请求ID（requestId）中，可以作为关键字（context）供我们定位（诊断）问题。这不是一个新产品。MDC类的基本原理其实很简单。它在内部拥有一个 ThreadLocal 实例以保存上下文数据。MDC提供了put/get/clear等几个核心接口，用于在Data中操作ThreadLocal；ThreadLocal中的KV可以在logback.xml中声明，即通过在layout中声明%X{Key}，在日志中打印MDC中保存的这个key对应的值。MDC的具体信息可以单独去百度的文章关于MDC，Http链接跟踪traceId是一个标识符，即，
　　侦探
　　sleuth 在 SpringCloud 分布式系统中提供了跟踪解决方案。通过Sleuth可以记录链接跟踪的相关信息，并将相关链接调用信息发送到指定的统计终端和显示终端，如Zipkin
　　Spring Cloud Sleuth关键词（基于 Google Dapper）
　　齐金
　　Zipkin 是 Twitter 的一个开源项目，基于 Google Dapper。可用于采集各服务器上请求链接的trace数据，并通过其提供的REST API接口辅助我们查询trace数据，实现分布式系统的监控程序，及时发现增量分析系统延迟问题并找出系统性能瓶颈的根源。除了面向开发的API接口外，还提供了便捷的UI组件，帮助我们直观地搜索跟踪信息，分析请求链接详情，例如查询某段时间内每个用户请求的处理时间。
　　简而言之，Zipkin采集 sleuth sleuth 在客户端并提供了一个可视化的界面进行查询展示。
　　Docker 启动 Zipkin
　　docker run -d -p 9411:9411 openzipkin/zipkin
　　访问 Zipkin 的图形页面
　　点击一个请求后，你会看到详细的调用链请求信息：
　　SpringCloud 使用 Sleuth
　　在 SpringCloud 项目中使用 Sleuth 进行链接跟踪非常方便。您只需要将 Sleuth 的 Starter 映射到项目中。如果需要将 Sleuth 的采集链接跟踪的信息推送到 Zipkin，那么引入 Zipkin 的 Starter。并配置Zipkin Server的服务地址。
　　
　　引入相关依赖包并开始
　　

org.springframework.cloud
spring-cloud-sleuth-zipkin

org.springframework.cloud
spring-cloud-starter-sleuth

　　上面的 pom.xml 文件添加了对 Sleuth 的 starter 和 Zipkin 的支持。FeignClient 和 RestTemplate 会被 Sleuth 记录在 SpringCloud 的微服务的 Restful 调用中，并发送到 Zipkin 的服务地址。
　　配置Zipkin的服务地址
　　spring:
zipkin:
base-url: http://localhost:9411/
sender:
type: web
sleuth:
sampler:
#抽样百分比，默认10%的数据发到zipkin，1为100%
probability: 1
　　通过以上方法，在我们的SpringCloud微服务云系统中，我们的每一个微服务云服务调用都会进入调用trace的trace范围，然后通过Zipkin提供的图形展示工具，可以一目了然的知道链接追踪我们每一次服务调用的情况，通过链路跟踪解决方案，当整个请求变慢或者不可用的时候，我们可以知道这个请求是由一个或者一些后端服务引起的是的，快读定位服务故障点并规定对的药。
　　使用MQ推送信息
　　
　　通过上述方法，每个微服务的调用跟踪都会向 Zipkin Server 发送一个 Http 请求。当内网阻塞时，可能会导致主要业务调用的阻塞，从而导致更严重的后果，所以这个时候我们可以考虑使用 Stream 或者使用 MQ 来异步处理来自 Sleuth 的请求；
　　我们的 SpringCloud 微服务器只需要引入一个支持 Stream 和 MQ 的 starter
　　
org.springframework.cloud
spring-cloud-sleuth-zipkin-stream
org.springframework.cloud
spring-cloud-starter-stream-rabbit
org.springframework.cloud
spring-cloud-starter-sleuth
　　Zipkin Server 的配置也相应调整；
　　Zipkin 高级使用持久性
　　Zipkin默认将Sleuth的日志信息保存在内存中，所以每次重启Zipkin都会丢失之前的日志信息。您可以修改 Zipkin 的配置以允许 Zipkin Server 将所有日志持久化到数据库中。关于持久化以及 Zipkin 支持 MQ 的方式，我们以后会介绍文章。
　　结束语
　　每次服务调用的链路跟踪情况，通过链路跟踪的解决方案，当整个请求变慢或不可用时，我们可以知道该请求是由一个或部分后端服务引起的，快速阅读定位服务故障点并规定对的药。本文主要介绍通过Sleuth+Zipking实现SpringCloud的微服务云链路追踪。文章中我们提到了Zipkin的MQ接收sleuth日志信息以及日志信息持久化的使用。我们以后会讨论in文章，我们以后会在特别的文章中单独介绍Skywalking。也希望大家继续关注作者的每一个文章，关注作者，不要错过精彩。
　　感谢您一直以来的关注。
　　干货教程:wordpress网站搭建教程详细-覆盖SEO方案搭建
　　WordPress网站搭建教程详解-涵盖SEO方案搭建
　　搜索引擎优化研究所
　　2022-03-08 19:43
　　搭建wordpress网站的详细流程： 1. 购买域名 2. 购买云服务器 3. 申请备案 4. 域名解析 5. 安装控制面板 6. 安装Wordpress 7. 设置Wordpress
　　只需安装此步骤即可获得完整的 WordPress网站设置。网站的构建是一项技术任务，但是网站的构建完成后，并不代表以后就不需要管理了。网站的维护和优化也很重要。而且不代表知道代码就可以随意构建网站。很多人对网站的构建知之甚少，构建的网站会被搜索引擎网站识别为垃圾邮件。如何优化构造网站的结构？我们需要知道内容为王。网站的优化分为很多不同的方面，包括网站结构的优化，内部链接的优化，
　　打开网易新闻查看精彩图片
　　一、页面导航的优化
　　每个网站都需要设置一个导航，就是让用户可以方便快捷的找到自己想要访问的页面和内容。如果你把网站的页面设置的很复杂，即使很炫，别人也找不到自己要找的，那么你建的网站就是失败网站，因为用户感觉不好，下次不会再浏览这个页面了。因为现在互联网发展非常迅速，没有人会非常耐心地在一个页面上浏览和搜索。如果找不到你的网站，他会立即关闭页面，进入别人的网站，寻找自己想要的。. 所以导航的设置不能太深，这样会迷路，也会流失很多客户。
　　二、页面结构的概括
　　页面结构的概括，简单来说就是页面应该满足大部分用户的访问需求。我们在构建网站时，需要从不同的角度考虑用户访问页面时的需求和目标。在此基础上，我们在考虑网站是否漂亮，给用户留下什么样的印象？，是否会让用户想再次访问，尤其是对于一些团购网站，更要注意网站内页的优化。
　　三、内链结构的优势
　　内链的作用是让整个网站的内容连贯起来。其实做内链很简单。不要将所有链接都指向主页或某个页面。应该是在不同的页面上添加不同的内部链接，这样可以引导用户进入相关的网页，了解更多的内容。而内链的合理优化对提升网站的权重有很大的作用。
　　4. 网站快速收录
　　打开网易新闻查看精彩图片
　　网站更新得越频繁，搜索引擎蜘蛛就会越频繁地出现。因此，我们可以使用wordpress采集实现采集伪原创自动发布和主动推送到搜索引擎，提高搜索引擎的抓取频率，从而提高网站收录和关键词排名。
　　1. 免费的wordpress插件
　　免费的 wordpress采集插件功能：
　　
　　1、只需将关键词导入到采集相关的关键词文章，同时创建几十个或几百个采集任务（一个任务可以支持上传1000个）关键词)，支持过滤关键词。
　　2. 支持多消息源：问答和各种消息源（可同时设置多个采集消息源采集/采集消息源稍后添加）
　　打开网易新闻查看精彩图片
　　3.过滤其他促销信息
　　4. 图片定位/图片水印/图片第三方存储
　　5.文章互通+翻译（简体中文繁体翻译+百度翻译+有道翻译+谷歌翻译+147翻译）
　　6.自动批量挂机采集，与各大cms发布者无缝对接，采集后自动发布——实现采集发布全自动挂机。
　　2.跨平台发布插件
　　全平台cms发布者的特点：
　　1、cms发布：目前市面上唯一支持Empirecms、易友、ZBLOG、dedecms、WordPress、PBoot、Applecms、迅锐cms、PHPcms、Applecms、人人网cms、美图cms、云游cms、Cyclone站群、THINKCMF、建站ABC 、凡客cms、一骑cms、Oceancms、飞飞cms、Local Release、搜外等各大cms，以及一个工具可同时管理和批量发布
　　2.全网推送（百度/360/搜狗/神马）
　　打开网易新闻查看精彩图片
　　3. 伪原创（标题+内容）
　　4.更换图片，防止侵权
　　5. 强大的SEO功能（自动图片放置/插入内外链接/标题和文章前后插入内容/标题关键词与内容一致关键词/随机插入图片/添加随机属性的页面原创degree)
　　6.对应栏目：对应文章可以发布对应栏目/支持多栏目发布
　　7、定时发布：可控发布间隔/每天发布总数
　　8、监控数据：直接监控已经发布、待发布的软件，是否为伪原创、发布状态、网站、程序、发布时间等。
　　
　　打开网易新闻查看精彩图片
　　在网站的构建之初，需要布局大量的seo元素。一个好的公司网站应该有seo相关的元素，可以帮助后续的优化。网站基础越强，后期工作量越小。
　　1.企业网站优化：URL唯一性
　　确定网站的主题内容后，应该以网页的形式呈现给用户。一个网页对应一个唯一的URL地址，无论你的网站是重新设计开发的，还是开源程序构建的，在新的网站上线之前，都必须保证每一个的唯一性网站中的页面 URL 地址，它是 seo 元素之一。
　　2.企业网站优化：明确主题，聚合资源
　　任何网站都需要有目的地构建。网站建设之初，就已经建立了竞争对手分析、差异化内容定位和用户定位，所以整个网站的内容体系建设只需要围绕这个确定的主题进行。
　　主题明确网站的公司主要有以下好处：
　　1、主题明确，更容易宣传自己的优势资源，强调一个领域的权威；
　　2、网站内容方向不变，可以聚集优质粉丝群。粉丝的交流能量这里不用我多写了；
　　3、对于搜索引擎来说，随着语义分析能力的增强，前期有明确的网站主题更容易获得搜索引擎的信任。对于一个新站点，索引时间可以缩短，即使是一个很小的影响因子，你没有理由不实施。
　　3.企业网站优化：内部链结构规划
　　当一个新的网站启动时，页面的数量并不大。从网站的构建开始，就必须规划好网站的内部链结构。至于构建合理的内部链结构，网络将有足够多的相关文章策略。这里要强调的是，前期规划好内链布局，对网站的扩展性和蜘蛛的爬取效率有很大帮助，尤其是对于一个新的网站，一个合理的内链结构可以大大减少网站页面的收录时间。
　　4.企业网站优化：目录结构标准设计
　　虽然说搜索引擎可以很轻松的抓取动态链接地址，但毕竟官方规范中的静态URL地址对搜索引擎比较友好，所以SEO从业者在构建之初就应该注意网站 .网站的目录结构（URL结构）统一标准化，让开发者可以在网站上线前以对搜索引擎最有利的方式部署网站，这是其中之一seo 元素。
　　5.企业版网站优化：404页
　　站点中不存在或将不存在的所有页面都必须指向该页面。404页面的设置是搜索引擎友好的一种形式，所以在构建之初必须考虑到网站。是seo的要素之一。
　　打开网易新闻查看精彩图片
　　6.企业网站优化：网站地图
　　网站地图，顾名思义，主要是将网站的主要页面直接呈现给搜索引擎，让搜索引擎通过这张地图了解网站的页面关系。网站地图以 XML 格式和 HTML 格式提供。无论采用哪种形式，前期最好使用其中一种形式进行布局。查看全部

　　优化的解决方案:Sleuth+zipkin, 链路追踪SpringCloud微服务
　　为了实现请求链路跟踪，当一个请求被发送到分布式系统的入口时，只需要在服务跟踪框架中为该请求创建一个唯一的跟踪标识，并保证该标识在分布式系统内循环直到请求返回。标识为traceId，通过它可以串联不同服务调用的日志。总之，在整个 Http 调用（FeignClient 或 RestTemplate）中，我们可以识别出一条 TraceId 记录，并在 Http Request 过程中，将 TraceID 传递给提供服务的服务器，而提供服务的服务器在 Reuqest 中同理，将整个 TraceId 传递给他的服务提供者，这样整个自上而下的调用链路都具有相同的 TraceId，每个链路中服务的日志通过 TraceId 进行分组。并且，这样就得到了一个不同TraceId的调用链路，这就是链路跟踪的主要原理。还有一个国产产品，Skywalking，已经成为Apache的顶级开源项目。具体实现与Sleuth不同，但使用的原理是一样的。
　　MDC（映射诊断上下文）
　　通过上面的方法，我们就有了链路跟踪的实现方法。MDC（（映射的诊断上下文））转换为映射的诊断上下文。含义：在日志（映射）的请求ID（requestId）中，可以作为关键字（context）供我们定位（诊断）问题。这不是一个新产品。MDC类的基本原理其实很简单。它在内部拥有一个 ThreadLocal 实例以保存上下文数据。MDC提供了put/get/clear等几个核心接口，用于在Data中操作ThreadLocal；ThreadLocal中的KV可以在logback.xml中声明，即通过在layout中声明%X{Key}，在日志中打印MDC中保存的这个key对应的值。MDC的具体信息可以单独去百度的文章关于MDC，Http链接跟踪traceId是一个标识符，即，
　　侦探
　　sleuth 在 SpringCloud 分布式系统中提供了跟踪解决方案。通过Sleuth可以记录链接跟踪的相关信息，并将相关链接调用信息发送到指定的统计终端和显示终端，如Zipkin
　　Spring Cloud Sleuth关键词（基于 Google Dapper）
　　齐金
　　Zipkin 是 Twitter 的一个开源项目，基于 Google Dapper。可用于采集各服务器上请求链接的trace数据，并通过其提供的REST API接口辅助我们查询trace数据，实现分布式系统的监控程序，及时发现增量分析系统延迟问题并找出系统性能瓶颈的根源。除了面向开发的API接口外，还提供了便捷的UI组件，帮助我们直观地搜索跟踪信息，分析请求链接详情，例如查询某段时间内每个用户请求的处理时间。
　　简而言之，Zipkin采集 sleuth sleuth 在客户端并提供了一个可视化的界面进行查询展示。
　　Docker 启动 Zipkin
　　docker run -d -p 9411:9411 openzipkin/zipkin
　　访问 Zipkin 的图形页面
　　点击一个请求后，你会看到详细的调用链请求信息：
　　SpringCloud 使用 Sleuth
　　在 SpringCloud 项目中使用 Sleuth 进行链接跟踪非常方便。您只需要将 Sleuth 的 Starter 映射到项目中。如果需要将 Sleuth 的采集链接跟踪的信息推送到 Zipkin，那么引入 Zipkin 的 Starter。并配置Zipkin Server的服务地址。
　　

　　引入相关依赖包并开始
　　

org.springframework.cloud
spring-cloud-sleuth-zipkin

org.springframework.cloud
spring-cloud-starter-sleuth

　　上面的 pom.xml 文件添加了对 Sleuth 的 starter 和 Zipkin 的支持。FeignClient 和 RestTemplate 会被 Sleuth 记录在 SpringCloud 的微服务的 Restful 调用中，并发送到 Zipkin 的服务地址。
　　配置Zipkin的服务地址
　　spring:
zipkin:
base-url: http://localhost:9411/
sender:
type: web
sleuth:
sampler:
#抽样百分比，默认10%的数据发到zipkin，1为100%
probability: 1
　　通过以上方法，在我们的SpringCloud微服务云系统中，我们的每一个微服务云服务调用都会进入调用trace的trace范围，然后通过Zipkin提供的图形展示工具，可以一目了然的知道链接追踪我们每一次服务调用的情况，通过链路跟踪解决方案，当整个请求变慢或者不可用的时候，我们可以知道这个请求是由一个或者一些后端服务引起的是的，快读定位服务故障点并规定对的药。
　　使用MQ推送信息
　　

　　通过上述方法，每个微服务的调用跟踪都会向 Zipkin Server 发送一个 Http 请求。当内网阻塞时，可能会导致主要业务调用的阻塞，从而导致更严重的后果，所以这个时候我们可以考虑使用 Stream 或者使用 MQ 来异步处理来自 Sleuth 的请求；
　　我们的 SpringCloud 微服务器只需要引入一个支持 Stream 和 MQ 的 starter
　　
org.springframework.cloud
spring-cloud-sleuth-zipkin-stream
org.springframework.cloud
spring-cloud-starter-stream-rabbit
org.springframework.cloud
spring-cloud-starter-sleuth
　　Zipkin Server 的配置也相应调整；
　　Zipkin 高级使用持久性
　　Zipkin默认将Sleuth的日志信息保存在内存中，所以每次重启Zipkin都会丢失之前的日志信息。您可以修改 Zipkin 的配置以允许 Zipkin Server 将所有日志持久化到数据库中。关于持久化以及 Zipkin 支持 MQ 的方式，我们以后会介绍文章。
　　结束语
　　每次服务调用的链路跟踪情况，通过链路跟踪的解决方案，当整个请求变慢或不可用时，我们可以知道该请求是由一个或部分后端服务引起的，快速阅读定位服务故障点并规定对的药。本文主要介绍通过Sleuth+Zipking实现SpringCloud的微服务云链路追踪。文章中我们提到了Zipkin的MQ接收sleuth日志信息以及日志信息持久化的使用。我们以后会讨论in文章，我们以后会在特别的文章中单独介绍Skywalking。也希望大家继续关注作者的每一个文章，关注作者，不要错过精彩。
　　感谢您一直以来的关注。
　　干货教程:wordpress网站搭建教程详细-覆盖SEO方案搭建
　　WordPress网站搭建教程详解-涵盖SEO方案搭建
　　搜索引擎优化研究所
　　2022-03-08 19:43
　　搭建wordpress网站的详细流程： 1. 购买域名 2. 购买云服务器 3. 申请备案 4. 域名解析 5. 安装控制面板 6. 安装Wordpress 7. 设置Wordpress
　　只需安装此步骤即可获得完整的 WordPress网站设置。网站的构建是一项技术任务，但是网站的构建完成后，并不代表以后就不需要管理了。网站的维护和优化也很重要。而且不代表知道代码就可以随意构建网站。很多人对网站的构建知之甚少，构建的网站会被搜索引擎网站识别为垃圾邮件。如何优化构造网站的结构？我们需要知道内容为王。网站的优化分为很多不同的方面，包括网站结构的优化，内部链接的优化，
　　打开网易新闻查看精彩图片
　　一、页面导航的优化
　　每个网站都需要设置一个导航，就是让用户可以方便快捷的找到自己想要访问的页面和内容。如果你把网站的页面设置的很复杂，即使很炫，别人也找不到自己要找的，那么你建的网站就是失败网站，因为用户感觉不好，下次不会再浏览这个页面了。因为现在互联网发展非常迅速，没有人会非常耐心地在一个页面上浏览和搜索。如果找不到你的网站，他会立即关闭页面，进入别人的网站，寻找自己想要的。. 所以导航的设置不能太深，这样会迷路，也会流失很多客户。
　　二、页面结构的概括
　　页面结构的概括，简单来说就是页面应该满足大部分用户的访问需求。我们在构建网站时，需要从不同的角度考虑用户访问页面时的需求和目标。在此基础上，我们在考虑网站是否漂亮，给用户留下什么样的印象？，是否会让用户想再次访问，尤其是对于一些团购网站，更要注意网站内页的优化。
　　三、内链结构的优势
　　内链的作用是让整个网站的内容连贯起来。其实做内链很简单。不要将所有链接都指向主页或某个页面。应该是在不同的页面上添加不同的内部链接，这样可以引导用户进入相关的网页，了解更多的内容。而内链的合理优化对提升网站的权重有很大的作用。
　　4. 网站快速收录
　　打开网易新闻查看精彩图片
　　网站更新得越频繁，搜索引擎蜘蛛就会越频繁地出现。因此，我们可以使用wordpress采集实现采集伪原创自动发布和主动推送到搜索引擎，提高搜索引擎的抓取频率，从而提高网站收录和关键词排名。
　　1. 免费的wordpress插件
　　免费的 wordpress采集插件功能：
　　

　　1、只需将关键词导入到采集相关的关键词文章，同时创建几十个或几百个采集任务（一个任务可以支持上传1000个）关键词)，支持过滤关键词。
　　2. 支持多消息源：问答和各种消息源（可同时设置多个采集消息源采集/采集消息源稍后添加）
　　打开网易新闻查看精彩图片
　　3.过滤其他促销信息
　　4. 图片定位/图片水印/图片第三方存储
　　5.文章互通+翻译（简体中文繁体翻译+百度翻译+有道翻译+谷歌翻译+147翻译）
　　6.自动批量挂机采集，与各大cms发布者无缝对接，采集后自动发布——实现采集发布全自动挂机。
　　2.跨平台发布插件
　　全平台cms发布者的特点：
　　1、cms发布：目前市面上唯一支持Empirecms、易友、ZBLOG、dedecms、WordPress、PBoot、Applecms、迅锐cms、PHPcms、Applecms、人人网cms、美图cms、云游cms、Cyclone站群、THINKCMF、建站ABC 、凡客cms、一骑cms、Oceancms、飞飞cms、Local Release、搜外等各大cms，以及一个工具可同时管理和批量发布
　　2.全网推送（百度/360/搜狗/神马）
　　打开网易新闻查看精彩图片
　　3. 伪原创（标题+内容）
　　4.更换图片，防止侵权
　　5. 强大的SEO功能（自动图片放置/插入内外链接/标题和文章前后插入内容/标题关键词与内容一致关键词/随机插入图片/添加随机属性的页面原创degree)
　　6.对应栏目：对应文章可以发布对应栏目/支持多栏目发布
　　7、定时发布：可控发布间隔/每天发布总数
　　8、监控数据：直接监控已经发布、待发布的软件，是否为伪原创、发布状态、网站、程序、发布时间等。
　　

　　打开网易新闻查看精彩图片
　　在网站的构建之初，需要布局大量的seo元素。一个好的公司网站应该有seo相关的元素，可以帮助后续的优化。网站基础越强，后期工作量越小。
　　1.企业网站优化：URL唯一性
　　确定网站的主题内容后，应该以网页的形式呈现给用户。一个网页对应一个唯一的URL地址，无论你的网站是重新设计开发的，还是开源程序构建的，在新的网站上线之前，都必须保证每一个的唯一性网站中的页面 URL 地址，它是 seo 元素之一。
　　2.企业网站优化：明确主题，聚合资源
　　任何网站都需要有目的地构建。网站建设之初，就已经建立了竞争对手分析、差异化内容定位和用户定位，所以整个网站的内容体系建设只需要围绕这个确定的主题进行。
　　主题明确网站的公司主要有以下好处：
　　1、主题明确，更容易宣传自己的优势资源，强调一个领域的权威；
　　2、网站内容方向不变，可以聚集优质粉丝群。粉丝的交流能量这里不用我多写了；
　　3、对于搜索引擎来说，随着语义分析能力的增强，前期有明确的网站主题更容易获得搜索引擎的信任。对于一个新站点，索引时间可以缩短，即使是一个很小的影响因子，你没有理由不实施。
　　3.企业网站优化：内部链结构规划
　　当一个新的网站启动时，页面的数量并不大。从网站的构建开始，就必须规划好网站的内部链结构。至于构建合理的内部链结构，网络将有足够多的相关文章策略。这里要强调的是，前期规划好内链布局，对网站的扩展性和蜘蛛的爬取效率有很大帮助，尤其是对于一个新的网站，一个合理的内链结构可以大大减少网站页面的收录时间。
　　4.企业网站优化：目录结构标准设计
　　虽然说搜索引擎可以很轻松的抓取动态链接地址，但毕竟官方规范中的静态URL地址对搜索引擎比较友好，所以SEO从业者在构建之初就应该注意网站 .网站的目录结构（URL结构）统一标准化，让开发者可以在网站上线前以对搜索引擎最有利的方式部署网站，这是其中之一seo 元素。
　　5.企业版网站优化：404页
　　站点中不存在或将不存在的所有页面都必须指向该页面。404页面的设置是搜索引擎友好的一种形式，所以在构建之初必须考虑到网站。是seo的要素之一。
　　打开网易新闻查看精彩图片
　　6.企业网站优化：网站地图
　　网站地图，顾名思义，主要是将网站的主要页面直接呈现给搜索引擎，让搜索引擎通过这张地图了解网站的页面关系。网站地图以 XML 格式和 HTML 格式提供。无论采用哪种形式，前期最好使用其中一种形式进行布局。

官方发布:（web端）抖音直播间弹幕消息获取

采集交流 • 优采云发表了文章 • 0 个评论 • 90 次浏览 • 2022-10-06 08:27 • 来自相关话题

官方发布:（web端）抖音直播间弹幕消息获取
　　效果演示：
　　只显示消息json的内容字段
　　准备：
　　本文中的操作是在浏览器从跨域状态释放时进行的，普通浏览器也可以使用。
　　做法：复制谷歌浏览器图标，右键，在快捷方式后面添加如下浏览器参数
　　 --disable-web-security --user-data-dir=D:\MyChromeDevUserData // 文件路径自己创建
　　更多浏览器参数请参考谷歌官方文档
　　开始寻找参数
　　随意开个直播间，在控制台可以看到，会有两个请求和一堆加载的个性图片
　　然后我们可以从这些加载的图片的调用栈入手，然后再分析回来。至于为什么要从这些图片开始？? 因为这些个性化图片的加载是伴随着弹幕消息的，按照前瞻思维，消息和图片的链接一般会在一个普通的响应体中返回。
　　随机选择一张图片，跟进调用栈
　　跟着F8几次之后，你会发现这里会有新闻内容，有时还有其他用户信息，这也验证了我们之前的想法
　　
　　这些显示的消息就是解析后的内容，所以我们可以直接回到调用栈的开头，从那里寻找线索
　　这里可以看到他是一个setInterval定时器
　　向上滚动可以看到key的名字是initialization
　　消息正文的处理顺序
　　此时，我们直接hook代码
　　代码中的变量a就是当前的this，这里放了一个断点
　　再次执行以下代码
　　window.__a__ = a
var publishSync_ = window.__a__.publishSync;
window.__a__.publishSync = (i) => { // 这里用箭头函数，不要用传统function
let obj = i.payload;
console.log(obj);
}


　　打印所有消息
　　此时，使用RPC来共享消息
　　如果发现提示是跨域的，请回到文章开头的准备工作
　　window.__a__ = a
var xhr_ = new XMLHttpRequest(),
method = "POST",
url = "http://127.0.0.1:45678/port"; // 本地接收弹幕消息接口
var publishSync_ = window.__a__.publishSync;
window.__a__.publishSync = (i) => { // 这里用箭头函数，不要用传统function
let obj = i.payload;
console.log(obj);
xhr_.open(method, url, true);
xhr_.setRequestHeader("Content-type", "application/json");
xhr_.send(JSON.stringify(obj));
}
　　最新消息:【电池咨询】8万人抢米家超级电池
　　奶盘伪原创()
　　SEO伪原创AI伪原创SEO检测伪原创赵耀静自媒体助手采集器自定义排名推广开放API
　　2020年6月12日更新： 1. AI伪原创 API上线 2. 调整部分文案 3. 增加系统词汇 | 奶锅伪原创() 用心做软件，我们一直在努力！VIP和API接口请于2019年6月12日联系客服更新内容： 1.AI伪原创API上线 2.调整部分文案3.添加系统词汇 | 奶盘伪原创() 用心做软件，我们一直在努力！VIP和API接口请联系客服
　　百度智能云最新优惠
　　▇三国志游戏域名低价出售▇
　　网站免更新程序定制开发
　　龙纹三国志手游答题器
　　一对一教学，月入两万
　　无限内容美国专用服务器租用
　　专业的网站排名提升SEO优化辅助软件
　　【微信公众号无限裂变产品寻求合作】
　　高防香港-CN2高速稳定VPS
　　
　　【SEO快速排名点击量低至0.01/次】
　　智能违章监控系统全新上线！为保障广大正常使用付费用户的权益，现对有以下行为的账号进行查封： 1、单人版VIP多人借用。2、VIP用于程序调用或其他非法使用第三方程序。3、其他非正常人类使用行为。被扣账户费用不予退还，请知悉-----2019-12-08
　　奶盘 SEO伪原创
　　系统版本：新版本：3.2.1205 有收录 70980 个同义词 / 47320 个免费用户使用 [提交构建伪原创库]
　　注：新版奶盘SEO伪原创使用独有的分词引擎和自创词库模拟百度等中文分词对伪原创，生成的伪原创文章更新准确，更接近百度收录等搜索引擎。共171个词，16个词由免费用户随机替换【VIP升级后可替换为36个词】，0个词将替换为自定义词，伪原创模式标准伪原创100%
　　伪原创仅用于学习目的。由于免费用户使用捏盘网为自媒体，捏盘网积极配合国家网信办开展专项整治活动，坚决遏制自媒体。自媒体混沌，坚决维护网络正常交流秩序，努力营造干净、积极、健康、有序的网络空间！伪原创度大大降低，现在免费用户伪原创度降低到50%，自觉做好转载出处，保护作者合法权益原作者！VIP用户不受影响！
　　链接模式 1 关键字
　　网址
　　链接方式2 用户未登录，无法读取用户关键字链接！选择此模式伪原创将没有关键字添加链接！
　　源词库伪原创模式链接文本为粗体
　　插入自定义内容
　　Milk Tray伪原创不断得到补充和改进。如果您有好的意见、建议或问题报告，请点击用户反馈让我们知道，谢谢！
　　奶锅SEO在线伪原创工具介绍
　　
　　在线伪原创工具是一个SEOER实用工具，是生成原创和伪原创文章的工具。伪原创工具可用于复制 Internet 上的文件。文章立即成为你自己的原创文章。本系统的WEB程序是专为Google、百度、雅虎、SOSO等大型搜索引擎收录设计的，在线伪原创工具生成的文章将更好的被用户使用搜索引擎收录并索引到。在线伪原创工具是网页编辑、群发用户和SEOER的必备工具，也是优化工具中不可多得的利器。
　　“在线伪原创工具”具有以下优点：
　　1、本软件采用引擎独有的分析规则和算法分割文章，可以很好的匹配所有搜索引擎。
　　2.唯一的同义词替换词库可以在不改变文章语义的情况下生成原创文章。
　　3.集成了当前主流词库，词库功能非常强大，程序不断更新，无需安装，无需升级，始终保持最新伪原创文章，完全免费。
　　4.添加关键字和链接，加粗关键字，文章底部添加版权等强大功能。
　　关于牛奶锅seo伪原创| 联系我们| 广告服务| 版权声明| 人才招聘| 更新历史| API授权查询| 奶锅API| 帮助
　　Milk Pan seo伪原创是专门针对百度和谷歌的爬虫习惯和分词算法开发的。本软件优化的文章会更受搜索引擎的青睐。奶锅seo伪原创是网络写手、海量帖子用户、SEO们不可多得的工具，也是网站推广者必备的工具。客户服务
　　客服邮箱：点击在线咨询
　　09:00 - 22:00 扫描
　　联系我们QQ群1：118977038
　　QQ群2：346875251
　　链接：伪原创伪原创在线工具伪原创伪原创在线查看全部

　　官方发布:（web端）抖音直播间弹幕消息获取
　　效果演示：
　　只显示消息json的内容字段
　　准备：
　　本文中的操作是在浏览器从跨域状态释放时进行的，普通浏览器也可以使用。
　　做法：复制谷歌浏览器图标，右键，在快捷方式后面添加如下浏览器参数
　　 --disable-web-security --user-data-dir=D:\MyChromeDevUserData // 文件路径自己创建
　　更多浏览器参数请参考谷歌官方文档
　　开始寻找参数
　　随意开个直播间，在控制台可以看到，会有两个请求和一堆加载的个性图片
　　然后我们可以从这些加载的图片的调用栈入手，然后再分析回来。至于为什么要从这些图片开始？? 因为这些个性化图片的加载是伴随着弹幕消息的，按照前瞻思维，消息和图片的链接一般会在一个普通的响应体中返回。
　　随机选择一张图片，跟进调用栈
　　跟着F8几次之后，你会发现这里会有新闻内容，有时还有其他用户信息，这也验证了我们之前的想法
　　

这些显示的消息就是解析后的内容，所以我们可以直接回到调用栈的开头，从那里寻找线索
　　这里可以看到他是一个setInterval定时器
　　向上滚动可以看到key的名字是initialization
　　消息正文的处理顺序
　　此时，我们直接hook代码
　　代码中的变量a就是当前的this，这里放了一个断点
　　再次执行以下代码
　　window.__a__ = a
var publishSync_ = window.__a__.publishSync;
window.__a__.publishSync = (i) => { // 这里用箭头函数，不要用传统function
let obj = i.payload;
console.log(obj);
}

打印所有消息
　　此时，使用RPC来共享消息
　　如果发现提示是跨域的，请回到文章开头的准备工作
　　window.__a__ = a
var xhr_ = new XMLHttpRequest(),
method = "POST",
url = "http://127.0.0.1:45678/port"; // 本地接收弹幕消息接口
var publishSync_ = window.__a__.publishSync;
window.__a__.publishSync = (i) => { // 这里用箭头函数，不要用传统function
let obj = i.payload;
console.log(obj);
xhr_.open(method, url, true);
xhr_.setRequestHeader("Content-type", "application/json");
xhr_.send(JSON.stringify(obj));
}
　　最新消息:【电池咨询】8万人抢米家超级电池
　　奶盘伪原创()
　　SEO伪原创AI伪原创SEO检测伪原创赵耀静自媒体助手采集器自定义排名推广开放API
　　2020年6月12日更新： 1. AI伪原创 API上线 2. 调整部分文案 3. 增加系统词汇 | 奶锅伪原创() 用心做软件，我们一直在努力！VIP和API接口请于2019年6月12日联系客服更新内容： 1.AI伪原创API上线 2.调整部分文案3.添加系统词汇 | 奶盘伪原创() 用心做软件，我们一直在努力！VIP和API接口请联系客服
　　百度智能云最新优惠
　　▇三国志游戏域名低价出售▇
　　网站免更新程序定制开发
　　龙纹三国志手游答题器
　　一对一教学，月入两万
　　无限内容美国专用服务器租用
　　专业的网站排名提升SEO优化辅助软件
　　【微信公众号无限裂变产品寻求合作】
　　高防香港-CN2高速稳定VPS

　　【SEO快速排名点击量低至0.01/次】
　　智能违章监控系统全新上线！为保障广大正常使用付费用户的权益，现对有以下行为的账号进行查封： 1、单人版VIP多人借用。2、VIP用于程序调用或其他非法使用第三方程序。3、其他非正常人类使用行为。被扣账户费用不予退还，请知悉-----2019-12-08
　　奶盘 SEO伪原创
　　系统版本：新版本：3.2.1205 有收录 70980 个同义词 / 47320 个免费用户使用 [提交构建伪原创库]
　　注：新版奶盘SEO伪原创使用独有的分词引擎和自创词库模拟百度等中文分词对伪原创，生成的伪原创文章更新准确，更接近百度收录等搜索引擎。共171个词，16个词由免费用户随机替换【VIP升级后可替换为36个词】，0个词将替换为自定义词，伪原创模式标准伪原创100%
　　伪原创仅用于学习目的。由于免费用户使用捏盘网为自媒体，捏盘网积极配合国家网信办开展专项整治活动，坚决遏制自媒体。自媒体混沌，坚决维护网络正常交流秩序，努力营造干净、积极、健康、有序的网络空间！伪原创度大大降低，现在免费用户伪原创度降低到50%，自觉做好转载出处，保护作者合法权益原作者！VIP用户不受影响！
　　链接模式 1 关键字
　　网址
　　链接方式2 用户未登录，无法读取用户关键字链接！选择此模式伪原创将没有关键字添加链接！
　　源词库伪原创模式链接文本为粗体
　　插入自定义内容
　　Milk Tray伪原创不断得到补充和改进。如果您有好的意见、建议或问题报告，请点击用户反馈让我们知道，谢谢！
　　奶锅SEO在线伪原创工具介绍
　　

　　在线伪原创工具是一个SEOER实用工具，是生成原创和伪原创文章的工具。伪原创工具可用于复制 Internet 上的文件。文章立即成为你自己的原创文章。本系统的WEB程序是专为Google、百度、雅虎、SOSO等大型搜索引擎收录设计的，在线伪原创工具生成的文章将更好的被用户使用搜索引擎收录并索引到。在线伪原创工具是网页编辑、群发用户和SEOER的必备工具，也是优化工具中不可多得的利器。
　　“在线伪原创工具”具有以下优点：
　　1、本软件采用引擎独有的分析规则和算法分割文章，可以很好的匹配所有搜索引擎。
　　2.唯一的同义词替换词库可以在不改变文章语义的情况下生成原创文章。
　　3.集成了当前主流词库，词库功能非常强大，程序不断更新，无需安装，无需升级，始终保持最新伪原创文章，完全免费。
　　4.添加关键字和链接，加粗关键字，文章底部添加版权等强大功能。
　　关于牛奶锅seo伪原创| 联系我们| 广告服务| 版权声明| 人才招聘| 更新历史| API授权查询| 奶锅API| 帮助
　　Milk Pan seo伪原创是专门针对百度和谷歌的爬虫习惯和分词算法开发的。本软件优化的文章会更受搜索引擎的青睐。奶锅seo伪原创是网络写手、海量帖子用户、SEO们不可多得的工具，也是网站推广者必备的工具。客户服务
　　客服邮箱：点击在线咨询
　　09:00 - 22:00 扫描
　　联系我们QQ群1：118977038
　　QQ群2：346875251
　　链接：伪原创伪原创在线工具伪原创伪原创在线

文章采集调用经验:深入浅出JProfiler

采集交流 • 优采云发表了文章 • 0 个评论 • 139 次浏览 • 2022-10-05 07:15 • 来自相关话题

　　文章采集调用经验:深入浅出JProfiler
　　文章来自阿里巴巴市技术协会（ATA）
　　）。由于最近的工作，使用J轮廓器（
　　8）做性能瓶颈分析，发现这个工具真的方便使用，现在整理了JProfiler的相关知识（谷歌查了一下，有没有我想要的）。
　　什么是 J 轮廓器
　　J轮廓器是由ej技术有限公司（也开发部署工具）开发的性能瓶颈分析工具。
　　其特点：
　　二。数据采集
　　问题 1.由于JProfiler是一种性能瓶颈分析工具，因此此分析的相关数据来自哪里？
　　问题 2.J普罗菲勒是如何采集和呈现这些数据的？
　　（图2
　　）。
　　解答 1.分析的数据主要来自以下两个部分
　　1. 部分分析接口来自 jvm（JVM 工具接口），JDK 必须>=1.6
　　JVMTI 是一个基于事件的系统。分析代理库可以为不同的事件注册处理程序函数。然后，它可以启用或禁用选定的事件
　　例如：生命周期
　　对象、线程的生命周期等
　　2. 部分来自仪器类（可以理解为类的重写，增加了JProfiler相关的统计
　　）。
　　例如：方法执行时间、次数、方法堆栈等
　　解答 2.数据采集的原理如图2所示。
　　1. 用户在 J 轮廓控制器 GUI 中发出监控指令（通常通过单击按钮
　　）。
　　2. J轮廓 GUI JVM 通过套接字（默认端口 8849）将指令发送到所分析的 JVM 中的 J 轮廓代理。
　　3. JProfiler 代理（如果您不知道代理文章，请参阅第 3 部分 “启动模式”）收到指令后，将指令转换为相关事件或要侦听的指令，将其注册到 JVMTI 或直接让 JVMTI 执行一个功能（例如转储 jvm 内存）。
　　4. JVMTI 根据注册的事件采集有关当前 jvm 的信息。例如：线程的生命周期;JVM的生命周期;类的生命周期;对象实例的生命周期;有关堆内存等的实时信息
　　5. J轮廓代理将采集信息保存到**内存**中，并根据一定的规则进行计数（如果J-Profiler GUI发送了所有数据，它将对分析的应用程序网络产生比较大的影响）。
　　6. 返回 J 轮廓 GUI 套接字
　　7. J轮廓GUI套接字将收到的信息返回给J轮廓GUI渲染
　　8. J轮廓GUI渲染渲染到最终的显示效果
　　数据采集模式和启动模式
　　解答 1.JProfier 采集方法分为两种类型：采样（样本采集）和检测
　　注意：JProfiler 本身并不指示采集数据类型，此处采集类型是方法调用的采集类型。由于 JProfiler 的大多数核心功能依赖于数据采集方法调用，因此可以直接将其视为 J 轮廓器的数据采集类型。
　　A2：启动模式：
　　4. J轮廓器核心概念
　　筛选器：需要分析的类。有两种类型的筛选器：收录的和不收录的。
　　（图4
　　）。
　　分析设置：收据采集策略：可以自定义采样和检测、某些数据采集详细信息
　　（图5
　　）。
　　触发器：通常在离线模式下用于告诉 JProfiler 代理何时触发什么行为来采集指定信息
　　（图6
　　）。
　　实时内存：有关类/类实例的信息。例如，对象数、大小、用于对象创建的方法执行堆栈、用于对象创建的热点。
　　（图7
　　）。
　　堆步行者：功能强大，可用于静态分析在一定时间内采集的记忆图像信息。收录传出引用、传入引用、最大对象等对象
　　（图8
　　）。
　　CPU视图：CPU消耗的分布和时间（CPU时间或运行时间）;方法的执行图;方法的执行统计信息（最大值、最小值、平均运行时间等）
　　
　　）。
　　（图9
　　）。
　　线程：jvm 中所有线程的当前运行状态、持有锁的线程的状态、可转储线程。
　　（图10
　　）。
　　监视器和锁：所有线程持有锁的情况以及有关锁的信息
　　（图 11
　　）。
　　遥测：收录堆、线程、gc、类等的趋势图（遥测视图）
　　实践
　　为了便于练习，请举一个 JProfiler8 附带的示例来帮助理解上述相关概念。
　　JProfiler 附带了以下示例：模拟内存泄漏和线程阻塞场景：
　　参考： /jprofiler install path/demo/bezier
　　（图 12）。
　　（图 13 泄漏内存模拟内存泄漏，模拟阻塞模拟线程间锁定。
　　解答 1.首先，让我们分析一下内存泄漏场景：（检查图 13 中的泄漏内存模拟内存泄漏）。
　　1. 在遥测>内存视图中，您将看到大致如下图所示的场景（在查看过程中可以每隔一段时间执行一次运行GC）：请参阅下图的蓝色区域，gc（**槽**）之后老一代的内存大小正在缓慢增加（理想情况下，此值应稳定）。
　　（图 14
　　）。单击 **
　　实时内存>记录对象“中的”记录分配数据**“按钮，用于开始计算在一段时间内创建的对象信息。执行Run GC一次后，查看当前对象信息的大小，然后单击工具栏中的“标记为当前”按钮（实际上，它是标记当前对象的数量。运行GC一次，然后继续观察;在继续观察之前运行一次GC。...最后，让我们看看在连续GC之后哪些物体的数量一直在上升。您最终看到的信息可能类似于下图
　　（图15 绿色是标记前的数字，红色是标记后的增量
　　）。
　　分析您刚刚记录在堆步行器中的对象信息
　　（图 16
　　）。
　　（图 17
　　）。
　　单击上图中具有最多实例的类，然后右键单击“使用所选实例>引用>传入引用”
　　发现长数据最终存储在贝塞尔中。BeaierAnim.leakMap**.
　　（图 18
　　）。
　　在“分配”选项卡中，右键单击其中一种方法以查看特定的源代码
　　（图 19
　　）。
　　【注】：此时，问题很清楚，理解为什么图17中哪些实例的数量是一样的，以及为什么内存在fullgc之后仍然没有回收（一个旧区域的对象expleMap，放置信息也会进入旧区域，泄漏Map如果不能回收，那么映射中收录的对象就不能回收）。
　　解答 2.模拟线程阻塞的场景（选中模拟阻塞以模拟线程间锁定阻塞，如图 13 所示
　　）。
　　为了更容易区分线程，我在演示测试中将贝塞尔动画的L236.java命名为线程。
　　public void start() {
thread = new Thread(this, "test");
thread.setPriority(Thread.MIN_PRIORITY);
thread.start();
}
　　
　　通常，如下图所示
　　（图 20
　　）。
　　在演示中选中“模拟阻塞”选项后，如下图所示（注意下图中的状态图标），测试线程块状态明显增加。
　　（图 21
　　）。
　　在观察了监视器和锁>监视器历史记录一段时间后，发生了4种类型的锁。
　　第一个：
　　AWT 事件队列 0 线程在对象上保持锁定，并处于“正在等待”状态。
　　图下面的代码表示演示块方法调用了对象.wait 方法。这仍然相对容易理解。
　　（图 22
　　）。
　　第二种：
　　AWT-事件队列-0 保持贝塞尔上的锁。贝塞尔动画演示实例，而测试线程等待该线程释放。
　　请注意下图中的源代码，此锁定的原因是 AWT 和测试线程上的 Demo 的 blcok 方法
　　将执行，并且方法已同步
　　（图 23
　　）。
　　第三和第四种：
　　测试线程不断将任务提交到事件事件调度线程，从而导致对 java.awt.事件队列对象锁定的竞争。
　　提交任务的方式是以下代码：重绘（）和事件队列。
　　 public void run() {
Thread me = Thread.currentThread();
while (thread == me) {
repaint();
if (block) {
block(false);
}
try {
Thread.sleep(10);
} catch (Exception e) {
break;
}
EventQueue.invokeLater(new Runnable() {
@Override
public void run() {
onEDTMethod();
}
});
}
thread = null;
}
　　（图24
　　）。
　　6. 最佳实践 JProfiler 会给出一些特殊操作的提示，因此最好仔细阅读说明。“标记当前”功能在某些情况下效果很好堆步行器通常会静态分析实时内存>记录器对象中的对象信息，这些信息可能被 GC 回收，从而导致堆步行器中不显示任何内容。这种现象是正常的。您可以在“开始录制文件”工具栏中配置一次采集的信息过滤器收录和排除是否按顺序排列，请注意下图**左下角** **显示过滤器树**以验证顺序
　　（图25）七.参考文献 J轮廓助手：
　　捷运通：
　　如果上述描述中存在错误或内乱，欢迎使用斧头。
　　除此之外：J轮廓器被收费
　　直观:TikTok易销宝 | TikTok小店如何上货？4种高效采集方式揭秘
　　作为辐射全球的短视频应用，TikTok的发展速度惊人。数据显示，TikTok在全球拥有超过10亿的月活跃用户和超过30亿的下载量，成为全球第三大社交平台。
　　同时，随着TikTok生态系统的不断发展和延伸，TikTok的变现模式也越来越多，其中TikTok Shop是目前最受欢迎的一种。
　　TikTok Shop 是卖家在 TikTok 上推出的在线商店。卖家可以在店铺发布自己的产品，然后使用TikTok账号为小店吸引流量，从而直接实现用户在TikTok账号中的购物转化，缩短买家的购物时间。的链接。简单来说，TikTok Shop有国内抖音小店的详细清单。
　　TikTok Shop开张后，卖家需要考虑的是如何快速给店铺加货，吸引流量。有经验的商家只要知道发货速度慢，线上产品不够多，产品不是不断变化，产品不丰富，就很难吸引流量，更谈不上流量的转化率。
　　抖音卖家采集如何一键将商品卖到店铺？TikTok 一品宝介绍了 4 种快速采集和批量采集方法。
　　抖音易销宝
　　抖音全店采集
　　
　　进入shopee或lazada平台的店铺首页链接，点击【在线采集】按钮，即可采集将店铺的所有商品数据采集到一品宝ERP系统中，然后可以修改信息存储在 TikTok 商店上发布的产品。
　　抖音全店采集
　　抖音链接采集
　　顾名思义就是进入单个sku的产品链接，定位采集卖家想要的产品
　　抖音链接采集
　　抖音易销宝
　　
　　TikTok关键词选择
　　东南亚的TikTok卖家可以选择对应的站点，输入产品关键词选择产品采集，一品宝erp会自动抓取shopee/lazada的热销产品，并显示他们的标题、图片、价格、销量体积以及发货地等产品信息，为卖家选择产品和采集提供数据支持。
　　抖音关键词选择
　　TikTok最热门的选择
　　TikTok卖家筛选网站、店铺类型（官方店铺、非官方店铺）、发货地点（国内、海外）、价格、产品排名后，可以发现深耕行业的热门产品，一键同步. 抖音平台。
　　抖音爆款风格选择
　　抖音易行宝专注抖音电商，涵盖店铺更换、店铺隔离、多店铺管理、运营看板、产品搬迁、批量采集、批量发布、自动邀请专家、智能采购、订单管理、仓库管理、智能客服、海外仓代理单板、专属客户成功服务等十余项功能，为抖音卖家提供一站式管理服务。查看全部

　　文章采集调用经验:深入浅出JProfiler
　　文章来自阿里巴巴市技术协会（ATA）
　　）。由于最近的工作，使用J轮廓器（
　　8）做性能瓶颈分析，发现这个工具真的方便使用，现在整理了JProfiler的相关知识（谷歌查了一下，有没有我想要的）。
　　什么是 J 轮廓器
　　J轮廓器是由ej技术有限公司（也开发部署工具）开发的性能瓶颈分析工具。
　　其特点：
　　二。数据采集
　　问题 1.由于JProfiler是一种性能瓶颈分析工具，因此此分析的相关数据来自哪里？
　　问题 2.J普罗菲勒是如何采集和呈现这些数据的？
　　（图2
　　）。
　　解答 1.分析的数据主要来自以下两个部分
　　1. 部分分析接口来自 jvm（JVM 工具接口），JDK 必须>=1.6
　　JVMTI 是一个基于事件的系统。分析代理库可以为不同的事件注册处理程序函数。然后，它可以启用或禁用选定的事件
　　例如：生命周期
　　对象、线程的生命周期等
　　2. 部分来自仪器类（可以理解为类的重写，增加了JProfiler相关的统计
　　）。
　　例如：方法执行时间、次数、方法堆栈等
　　解答 2.数据采集的原理如图2所示。
　　1. 用户在 J 轮廓控制器 GUI 中发出监控指令（通常通过单击按钮
　　）。
　　2. J轮廓 GUI JVM 通过套接字（默认端口 8849）将指令发送到所分析的 JVM 中的 J 轮廓代理。
　　3. JProfiler 代理（如果您不知道代理文章，请参阅第 3 部分 “启动模式”）收到指令后，将指令转换为相关事件或要侦听的指令，将其注册到 JVMTI 或直接让 JVMTI 执行一个功能（例如转储 jvm 内存）。
　　4. JVMTI 根据注册的事件采集有关当前 jvm 的信息。例如：线程的生命周期;JVM的生命周期;类的生命周期;对象实例的生命周期;有关堆内存等的实时信息
　　5. J轮廓代理将采集信息保存到**内存**中，并根据一定的规则进行计数（如果J-Profiler GUI发送了所有数据，它将对分析的应用程序网络产生比较大的影响）。
　　6. 返回 J 轮廓 GUI 套接字
　　7. J轮廓GUI套接字将收到的信息返回给J轮廓GUI渲染
　　8. J轮廓GUI渲染渲染到最终的显示效果
　　数据采集模式和启动模式
　　解答 1.JProfier 采集方法分为两种类型：采样（样本采集）和检测
　　注意：JProfiler 本身并不指示采集数据类型，此处采集类型是方法调用的采集类型。由于 JProfiler 的大多数核心功能依赖于数据采集方法调用，因此可以直接将其视为 J 轮廓器的数据采集类型。
　　A2：启动模式：
　　4. J轮廓器核心概念
　　筛选器：需要分析的类。有两种类型的筛选器：收录的和不收录的。
　　（图4
　　）。
　　分析设置：收据采集策略：可以自定义采样和检测、某些数据采集详细信息
　　（图5
　　）。
　　触发器：通常在离线模式下用于告诉 JProfiler 代理何时触发什么行为来采集指定信息
　　（图6
　　）。
　　实时内存：有关类/类实例的信息。例如，对象数、大小、用于对象创建的方法执行堆栈、用于对象创建的热点。
　　（图7
　　）。
　　堆步行者：功能强大，可用于静态分析在一定时间内采集的记忆图像信息。收录传出引用、传入引用、最大对象等对象
　　（图8
　　）。
　　CPU视图：CPU消耗的分布和时间（CPU时间或运行时间）;方法的执行图;方法的执行统计信息（最大值、最小值、平均运行时间等）
　　

　　）。
　　（图9
　　）。
　　线程：jvm 中所有线程的当前运行状态、持有锁的线程的状态、可转储线程。
　　（图10
　　）。
　　监视器和锁：所有线程持有锁的情况以及有关锁的信息
　　（图 11
　　）。
　　遥测：收录堆、线程、gc、类等的趋势图（遥测视图）
　　实践
　　为了便于练习，请举一个 JProfiler8 附带的示例来帮助理解上述相关概念。
　　JProfiler 附带了以下示例：模拟内存泄漏和线程阻塞场景：
　　参考： /jprofiler install path/demo/bezier
　　（图 12）。
　　（图 13 泄漏内存模拟内存泄漏，模拟阻塞模拟线程间锁定。
　　解答 1.首先，让我们分析一下内存泄漏场景：（检查图 13 中的泄漏内存模拟内存泄漏）。
　　1. 在遥测>内存视图中，您将看到大致如下图所示的场景（在查看过程中可以每隔一段时间执行一次运行GC）：请参阅下图的蓝色区域，gc（**槽**）之后老一代的内存大小正在缓慢增加（理想情况下，此值应稳定）。
　　（图 14
　　）。单击 **
　　实时内存>记录对象“中的”记录分配数据**“按钮，用于开始计算在一段时间内创建的对象信息。执行Run GC一次后，查看当前对象信息的大小，然后单击工具栏中的“标记为当前”按钮（实际上，它是标记当前对象的数量。运行GC一次，然后继续观察;在继续观察之前运行一次GC。...最后，让我们看看在连续GC之后哪些物体的数量一直在上升。您最终看到的信息可能类似于下图
　　（图15 绿色是标记前的数字，红色是标记后的增量
　　）。
　　分析您刚刚记录在堆步行器中的对象信息
　　（图 16
　　）。
　　（图 17
　　）。
　　单击上图中具有最多实例的类，然后右键单击“使用所选实例>引用>传入引用”
　　发现长数据最终存储在贝塞尔中。BeaierAnim.leakMap**.
　　（图 18
　　）。
　　在“分配”选项卡中，右键单击其中一种方法以查看特定的源代码
　　（图 19
　　）。
　　【注】：此时，问题很清楚，理解为什么图17中哪些实例的数量是一样的，以及为什么内存在fullgc之后仍然没有回收（一个旧区域的对象expleMap，放置信息也会进入旧区域，泄漏Map如果不能回收，那么映射中收录的对象就不能回收）。
　　解答 2.模拟线程阻塞的场景（选中模拟阻塞以模拟线程间锁定阻塞，如图 13 所示
　　）。
　　为了更容易区分线程，我在演示测试中将贝塞尔动画的L236.java命名为线程。
　　public void start() {
thread = new Thread(this, "test");
thread.setPriority(Thread.MIN_PRIORITY);
thread.start();
}
　　

　　通常，如下图所示
　　（图 20
　　）。
　　在演示中选中“模拟阻塞”选项后，如下图所示（注意下图中的状态图标），测试线程块状态明显增加。
　　（图 21
　　）。
　　在观察了监视器和锁>监视器历史记录一段时间后，发生了4种类型的锁。
　　第一个：
　　AWT 事件队列 0 线程在对象上保持锁定，并处于“正在等待”状态。
　　图下面的代码表示演示块方法调用了对象.wait 方法。这仍然相对容易理解。
　　（图 22
　　）。
　　第二种：
　　AWT-事件队列-0 保持贝塞尔上的锁。贝塞尔动画演示实例，而测试线程等待该线程释放。
　　请注意下图中的源代码，此锁定的原因是 AWT 和测试线程上的 Demo 的 blcok 方法
　　将执行，并且方法已同步
　　（图 23
　　）。
　　第三和第四种：
　　测试线程不断将任务提交到事件事件调度线程，从而导致对 java.awt.事件队列对象锁定的竞争。
　　提交任务的方式是以下代码：重绘（）和事件队列。
　　 public void run() {
Thread me = Thread.currentThread();
while (thread == me) {
repaint();
if (block) {
block(false);
}
try {
Thread.sleep(10);
} catch (Exception e) {
break;
}
EventQueue.invokeLater(new Runnable() {
@Override
public void run() {
onEDTMethod();
}
});
}
thread = null;
}
　　（图24
　　）。
　　6. 最佳实践 JProfiler 会给出一些特殊操作的提示，因此最好仔细阅读说明。“标记当前”功能在某些情况下效果很好堆步行器通常会静态分析实时内存>记录器对象中的对象信息，这些信息可能被 GC 回收，从而导致堆步行器中不显示任何内容。这种现象是正常的。您可以在“开始录制文件”工具栏中配置一次采集的信息过滤器收录和排除是否按顺序排列，请注意下图**左下角** **显示过滤器树**以验证顺序
　　（图25）七.参考文献 J轮廓助手：
　　捷运通：
　　如果上述描述中存在错误或内乱，欢迎使用斧头。
　　除此之外：J轮廓器被收费
　　直观:TikTok易销宝 | TikTok小店如何上货？4种高效采集方式揭秘
　　作为辐射全球的短视频应用，TikTok的发展速度惊人。数据显示，TikTok在全球拥有超过10亿的月活跃用户和超过30亿的下载量，成为全球第三大社交平台。
　　同时，随着TikTok生态系统的不断发展和延伸，TikTok的变现模式也越来越多，其中TikTok Shop是目前最受欢迎的一种。
　　TikTok Shop 是卖家在 TikTok 上推出的在线商店。卖家可以在店铺发布自己的产品，然后使用TikTok账号为小店吸引流量，从而直接实现用户在TikTok账号中的购物转化，缩短买家的购物时间。的链接。简单来说，TikTok Shop有国内抖音小店的详细清单。
　　TikTok Shop开张后，卖家需要考虑的是如何快速给店铺加货，吸引流量。有经验的商家只要知道发货速度慢，线上产品不够多，产品不是不断变化，产品不丰富，就很难吸引流量，更谈不上流量的转化率。
　　抖音卖家采集如何一键将商品卖到店铺？TikTok 一品宝介绍了 4 种快速采集和批量采集方法。
　　抖音易销宝
　　抖音全店采集
　　

　　进入shopee或lazada平台的店铺首页链接，点击【在线采集】按钮，即可采集将店铺的所有商品数据采集到一品宝ERP系统中，然后可以修改信息存储在 TikTok 商店上发布的产品。
　　抖音全店采集
　　抖音链接采集
　　顾名思义就是进入单个sku的产品链接，定位采集卖家想要的产品
　　抖音链接采集
　　抖音易销宝
　　

　　TikTok关键词选择
　　东南亚的TikTok卖家可以选择对应的站点，输入产品关键词选择产品采集，一品宝erp会自动抓取shopee/lazada的热销产品，并显示他们的标题、图片、价格、销量体积以及发货地等产品信息，为卖家选择产品和采集提供数据支持。
　　抖音关键词选择
　　TikTok最热门的选择
　　TikTok卖家筛选网站、店铺类型（官方店铺、非官方店铺）、发货地点（国内、海外）、价格、产品排名后，可以发现深耕行业的热门产品，一键同步. 抖音平台。
　　抖音爆款风格选择
　　抖音易行宝专注抖音电商，涵盖店铺更换、店铺隔离、多店铺管理、运营看板、产品搬迁、批量采集、批量发布、自动邀请专家、智能采购、订单管理、仓库管理、智能客服、海外仓代理单板、专属客户成功服务等十余项功能，为抖音卖家提供一站式管理服务。

分享文章:织梦解决轮播图模糊调用文章内容页第一张大图方法

采集交流 • 优采云发表了文章 • 0 个评论 • 68 次浏览 • 2022-10-03 15:10 • 来自相关话题

分享文章:织梦解决轮播图模糊调用文章内容页第一张大图方法
　　可织梦文章缩略图自动提取，伪静态和静态网站
　　找到缩略图：[字段：litpic/] 或 [字段：图片名称/]。
　　替换为
　　[字段：id 函数='get_tupian（@me）'/]
　　
　　织梦/收录/扩展函数添加以下函数.php
　　//缩略图
function get_tupian($id){
 global $dsql;
 $row = $dsql->GetOne("SELECT aid,body FROM `dede_addonarticle` where aid='$id'");
 if(preg_match( "/()/",$row['body'] , $regs )){

return $regs[2];
 }else{
 return $GLOBALS['cfg_basehost']."/images/defaultpic.gif";
 }
}
　　织梦二次开发QQ群
　　揭密:百度快照不显示标题和描述大揭秘
　　
　　近日，网上很多朋友网站出现了一个问题，就是搜索结果页的标题网站不完整，网站快照没有描述，网站的快照无法预览，但快照每天都在更新，但网站却没有增加（关于这个杨长生之前写过一篇文章收录百度为什么百度拿了你文章网站的前三朵花）。这是什么原因？之前杨长生处理过网站八闵商业联盟也出现过这样的情况：（这个网站之前的情况是：为了不向搜索引擎提交低质量的测试文章，当这个网站里面是在线的，我屏蔽了所有搜索引擎爬行的机器人，但百度还是收录，等待模板和结构的修改，我清空了机器人，等待蜘蛛爬行和收录，结果，到目前为止所有的快照都是同一天（因为我每天都在更新），但是快照是空白的，你不能浏览快照，在百度中搜索w
　　查看全部

　　分享文章:织梦解决轮播图模糊调用文章内容页第一张大图方法
　　可织梦文章缩略图自动提取，伪静态和静态网站
　　找到缩略图：[字段：litpic/] 或 [字段：图片名称/]。
　　替换为
　　[字段：id 函数='get_tupian（@me）'/]
　　

织梦/收录/扩展函数添加以下函数.php
　　//缩略图
function get_tupian($id){
 global $dsql;
 $row = $dsql->GetOne("SELECT aid,body FROM `dede_addonarticle` where aid='$id'");
 if(preg_match( "/()/",$row['body'] , $regs )){

return $regs[2];
 }else{
 return $GLOBALS['cfg_basehost']."/images/defaultpic.gif";
 }
}
　　织梦二次开发QQ群
　　揭密:百度快照不显示标题和描述大揭秘

　　近日，网上很多朋友网站出现了一个问题，就是搜索结果页的标题网站不完整，网站快照没有描述，网站的快照无法预览，但快照每天都在更新，但网站却没有增加（关于这个杨长生之前写过一篇文章收录百度为什么百度拿了你文章网站的前三朵花）。这是什么原因？之前杨长生处理过网站八闵商业联盟也出现过这样的情况：（这个网站之前的情况是：为了不向搜索引擎提交低质量的测试文章，当这个网站里面是在线的，我屏蔽了所有搜索引擎爬行的机器人，但百度还是收录，等待模板和结构的修改，我清空了机器人，等待蜘蛛爬行和收录，结果，到目前为止所有的快照都是同一天（因为我每天都在更新），但是快照是空白的，你不能浏览快照，在百度中搜索w
　　

解决方案:网络爬虫实例系列 —— 搜狗微信文章采集方案

采集交流 • 优采云发表了文章 • 0 个评论 • 165 次浏览 • 2022-10-03 07:20 • 来自相关话题

　　解决方案:网络爬虫实例系列 —— 搜狗微信文章采集方案
　　微信与搜狗合作推出微信搜索后，各媒体检测平台终于可以获取微信文章的数据；但好景不长，因为大家基本只有这一个接口获取微信的数据，这给搜狗带来了成倍的压力，减少了返回的搜索结果和爬虫输入验证码，让大家很难抓取微信数据；不过，搜狗推出了针对登录用户的关键词订阅功能。针对这些情况，整理出以下两种采集搜狗微信文章的解决方案，仅供参考。
　　方案一：使用搜狗微信文章搜索界面
　　调用以下网址访问搜狗微信关键字搜索结果文章，其中参数query为搜索关键字，值为UTF-8编码字符串。URL返回文章的10条搜索结果，可以直接解析成搜索到的文章名称、文章 URL、公众号和摘要。通过修改page参数的值，可以翻页，获得更多的搜索结果。
　　%E7%BD%91%E7%BB%9C%E7%88%AC%E8%99%AB&sut=13695&lkt=0%2C0%2C0&type=2&sst0=68&page=1&ie=utf8&w=01019900&dr=1
　　优势：
　　实现简单，搜索结果和关键词匹配度比较高
　　缺点：
　　
　　最多只能翻10页，网站反爬虫导致严重屏蔽
　　方案二：使用搜狗微信提供的关键词订阅接口
　　在搜狗微信中，对于已登录的用户，可以将搜索到的关键词添加到订阅列表中。下次，您可以直接查看与您的订阅关键字相关的文章。此功能将每个登录用户限制为最多 20 个订阅关键字。
　　A、以下网址是获取登录用户已订阅的关键字列表，包括关键字和对应的wordId，可用于后续访问订阅中的文章相关关键字。登录用户的登录为注册账号，传入一个参数uid。
　　uid=永中15%&_=28
　　B、以下网址是给指定账号添加订阅关键词的界面。通过该界面，您可以为账户订阅添加关键字。
　　uid=yongzhong15%&word=%E5%9B%BE%E8%AE%BA&_=71
　　C、以下网址删除指定账号的指定关键字，其中关键字是指订阅关键字列表中对应的wordId来指定
　　
　　uid=永中15%&id=49529&_=72
　　D、下面的URL返回指定用户订阅的关键字之一的文章列表，其中文件列表根据start参数分页，关键字由wordid指定。
　　uid=yongzhong15%&start=0&num=10&wordid=49528&clear=1&_=41
　　根据以上A/B/C/D四个API接口，可以查询注册账号下的订阅关键字列表，添加和删除账号下的关键字，获取文章信息。
　　优势：
　　订阅API由搜狗免费提供，不会被屏蔽
　　缺点：
　　每个账号最多只能订阅20个关键词，使用不便；并且对于每个关键字，返回的文章的数量远远少于从搜索界面直接搜索到的相关文章的数量。也就是说，得到的数据是不完整的。
　　解决方案:智能微信公众号数据采集-微信公众号封面图采集提取-批量文章导出
　　微信公众号数据采集，公众号封面图片提取，公众号文章提取。如何提取微信公众号数据如：内容、封面图，如何批量提取微信公众号数据并保存在本地进行修改。今天给大家分享一款免费的微信公众号数据自动提取软件采集。输入关键词或者输入域名自动提取文章到本地，自动解析文章核心很重要。
　　现在说到网站的seo优化，微信公众号数据采集会用到一些seo技术，seo理念，seo策略，分离用户体验，用户需求，网站建立，等。让网站在搜索引擎中排名靠前，让网站更有用，让内容更适合用户。SER 读取。这就是主动SEO，但是在有效SEO、被动SEO背后总有一个黑暗的中心，也就是说你的网站就是SEO，有光有影。
　　
　　谈到公司的网站优化如何有效防止负面SEO干扰的话题，应该讨论两个概念：正面SEO和负面SEO。微信公众号数据采集主动搜索引擎优化就是我们常说的搜索引擎优化，也就是让网站在搜索引擎中排名。负搜索引擎优化和积极搜索引擎优化在运营商和应用程序上是对立的。负面 SEO 是指其他人（恶意网站管理员、竞争对手等）在您的网站上施加一些负面 SEO 元素（搜索引擎知道阻止这些元素），从而使您的网站排名更低，甚至获得严惩。
　　在整个SEO网站优化过程中，难免会有一些针对负面信息的优化技巧。负面信息是真实的。一般来说，它会基于一些故意的反向链接和草率的电子邮件破坏你的网站，这将极大地影响你的网站排名、总流量和权重值。冒险。一般来说，负面信息SEO是一种法律纠葛，很可能对搜索引擎的知名度和收益造成损害。微信公众号数据采集但是，在整个优化过程中，可以防止负面的SEO。如何预防？一般来说，SEO网站的负面信息都会被竞争对手阻止。这是在另一个网站上完成的黑帽 SEO 技术。通常来说，一般来说，竞争对手对降低网站排名的 SEO 攻击不满意。然而，在大多数情况下，很多SEO优化网站站长想要遵循SEO优化规范，却不得不伤人心，堵人心。
　　难免会有人羡慕你的网站排名，用几百个渣滓封杀你的网站，用不正确的评论吞下你的网站，或者马上破译你的网站@ >。微信公众号数据采集注意你的网站速度。网站速度是一个非常有害的排名。如果你的网站越来越慢，你就得开机很久了。你永远不知道如何使用爬行工具来找到一切都不起作用的项目。如果你找不到他们，他们仍然不是很好，受害者可能就是你。大量爬网导致的 Web 服务器负载过重意味着您的网站会变慢并崩溃。如果您认为自己是网络爬虫攻击的受害者，可以联系您的服务器公司或网站管理员了解负载的来源。如果你擅长技术，你可以找到自己惹麻烦的人。
　　
　　关于网站的优化，大家应该都遇到过这样的事情。我们努力做了一个网站，终于做出了网站的排名，但是不知怎的，网站的排名过了一段时间就下降了，而且排名很不稳定。在了解搜索引擎自然排名机制的基础上，对网站进行内外调整优化，提高网站在搜索引擎中的关键词自然排名，获得更多流量，从而达到网站销售和品牌建设的预期目的。为了从搜索引擎获得更多的免费流量，应该从网站结构、内容建立计划、用户交互传播、页面等角度进行合理规划，同时也会使网站 @网站搜索引擎中显示的相关信息。它对用户更具吸引力。下面小编就告诉大家我们如何稳定网站和优化排名？
　　网站排名上升后，我们每天抽时间查看收录和网站的排名状态，以及查看搜索引擎来不来，查看网站当天更新内容还没有收录。关注竞争对手的网站，看看对手的网站有什么好主意。网站的内容会及时更新。这是为了吸引蜘蛛去爬网站，从而增加网站的收录，同时也提高了快照的更新速度。如果网站长时间不更新，搜索引擎会认为这是一场致命的战斗，从而降低你的网站排名，严重的甚至会被降级。
　　网站的外部链接也很重要。一个好的外链是你网站排名的背景，所以我们需要增加网站外链的数量。网站查看和好友链通讯，查看我通讯的好友链是否被删除，对方的网站是否可以正常打开，是否可以降级或暂停，是否及时出现加工。查看全部

　　解决方案:网络爬虫实例系列 —— 搜狗微信文章采集方案
　　微信与搜狗合作推出微信搜索后，各媒体检测平台终于可以获取微信文章的数据；但好景不长，因为大家基本只有这一个接口获取微信的数据，这给搜狗带来了成倍的压力，减少了返回的搜索结果和爬虫输入验证码，让大家很难抓取微信数据；不过，搜狗推出了针对登录用户的关键词订阅功能。针对这些情况，整理出以下两种采集搜狗微信文章的解决方案，仅供参考。
　　方案一：使用搜狗微信文章搜索界面
　　调用以下网址访问搜狗微信关键字搜索结果文章，其中参数query为搜索关键字，值为UTF-8编码字符串。URL返回文章的10条搜索结果，可以直接解析成搜索到的文章名称、文章 URL、公众号和摘要。通过修改page参数的值，可以翻页，获得更多的搜索结果。
　　%E7%BD%91%E7%BB%9C%E7%88%AC%E8%99%AB&sut=13695&lkt=0%2C0%2C0&type=2&sst0=68&page=1&ie=utf8&w=01019900&dr=1
　　优势：
　　实现简单，搜索结果和关键词匹配度比较高
　　缺点：
　　

　　最多只能翻10页，网站反爬虫导致严重屏蔽
　　方案二：使用搜狗微信提供的关键词订阅接口
　　在搜狗微信中，对于已登录的用户，可以将搜索到的关键词添加到订阅列表中。下次，您可以直接查看与您的订阅关键字相关的文章。此功能将每个登录用户限制为最多 20 个订阅关键字。
　　A、以下网址是获取登录用户已订阅的关键字列表，包括关键字和对应的wordId，可用于后续访问订阅中的文章相关关键字。登录用户的登录为注册账号，传入一个参数uid。
　　uid=永中15%&_=28
　　B、以下网址是给指定账号添加订阅关键词的界面。通过该界面，您可以为账户订阅添加关键字。
　　uid=yongzhong15%&word=%E5%9B%BE%E8%AE%BA&_=71
　　C、以下网址删除指定账号的指定关键字，其中关键字是指订阅关键字列表中对应的wordId来指定
　　

　　uid=永中15%&id=49529&_=72
　　D、下面的URL返回指定用户订阅的关键字之一的文章列表，其中文件列表根据start参数分页，关键字由wordid指定。
　　uid=yongzhong15%&start=0&num=10&wordid=49528&clear=1&_=41
　　根据以上A/B/C/D四个API接口，可以查询注册账号下的订阅关键字列表，添加和删除账号下的关键字，获取文章信息。
　　优势：
　　订阅API由搜狗免费提供，不会被屏蔽
　　缺点：
　　每个账号最多只能订阅20个关键词，使用不便；并且对于每个关键字，返回的文章的数量远远少于从搜索界面直接搜索到的相关文章的数量。也就是说，得到的数据是不完整的。
　　解决方案:智能微信公众号数据采集-微信公众号封面图采集提取-批量文章导出
　　微信公众号数据采集，公众号封面图片提取，公众号文章提取。如何提取微信公众号数据如：内容、封面图，如何批量提取微信公众号数据并保存在本地进行修改。今天给大家分享一款免费的微信公众号数据自动提取软件采集。输入关键词或者输入域名自动提取文章到本地，自动解析文章核心很重要。
　　现在说到网站的seo优化，微信公众号数据采集会用到一些seo技术，seo理念，seo策略，分离用户体验，用户需求，网站建立，等。让网站在搜索引擎中排名靠前，让网站更有用，让内容更适合用户。SER 读取。这就是主动SEO，但是在有效SEO、被动SEO背后总有一个黑暗的中心，也就是说你的网站就是SEO，有光有影。
　　

　　谈到公司的网站优化如何有效防止负面SEO干扰的话题，应该讨论两个概念：正面SEO和负面SEO。微信公众号数据采集主动搜索引擎优化就是我们常说的搜索引擎优化，也就是让网站在搜索引擎中排名。负搜索引擎优化和积极搜索引擎优化在运营商和应用程序上是对立的。负面 SEO 是指其他人（恶意网站管理员、竞争对手等）在您的网站上施加一些负面 SEO 元素（搜索引擎知道阻止这些元素），从而使您的网站排名更低，甚至获得严惩。
　　在整个SEO网站优化过程中，难免会有一些针对负面信息的优化技巧。负面信息是真实的。一般来说，它会基于一些故意的反向链接和草率的电子邮件破坏你的网站，这将极大地影响你的网站排名、总流量和权重值。冒险。一般来说，负面信息SEO是一种法律纠葛，很可能对搜索引擎的知名度和收益造成损害。微信公众号数据采集但是，在整个优化过程中，可以防止负面的SEO。如何预防？一般来说，SEO网站的负面信息都会被竞争对手阻止。这是在另一个网站上完成的黑帽 SEO 技术。通常来说，一般来说，竞争对手对降低网站排名的 SEO 攻击不满意。然而，在大多数情况下，很多SEO优化网站站长想要遵循SEO优化规范，却不得不伤人心，堵人心。
　　难免会有人羡慕你的网站排名，用几百个渣滓封杀你的网站，用不正确的评论吞下你的网站，或者马上破译你的网站@ >。微信公众号数据采集注意你的网站速度。网站速度是一个非常有害的排名。如果你的网站越来越慢，你就得开机很久了。你永远不知道如何使用爬行工具来找到一切都不起作用的项目。如果你找不到他们，他们仍然不是很好，受害者可能就是你。大量爬网导致的 Web 服务器负载过重意味着您的网站会变慢并崩溃。如果您认为自己是网络爬虫攻击的受害者，可以联系您的服务器公司或网站管理员了解负载的来源。如果你擅长技术，你可以找到自己惹麻烦的人。
　　

　　关于网站的优化，大家应该都遇到过这样的事情。我们努力做了一个网站，终于做出了网站的排名，但是不知怎的，网站的排名过了一段时间就下降了，而且排名很不稳定。在了解搜索引擎自然排名机制的基础上，对网站进行内外调整优化，提高网站在搜索引擎中的关键词自然排名，获得更多流量，从而达到网站销售和品牌建设的预期目的。为了从搜索引擎获得更多的免费流量，应该从网站结构、内容建立计划、用户交互传播、页面等角度进行合理规划，同时也会使网站 @网站搜索引擎中显示的相关信息。它对用户更具吸引力。下面小编就告诉大家我们如何稳定网站和优化排名？
　　网站排名上升后，我们每天抽时间查看收录和网站的排名状态，以及查看搜索引擎来不来，查看网站当天更新内容还没有收录。关注竞争对手的网站，看看对手的网站有什么好主意。网站的内容会及时更新。这是为了吸引蜘蛛去爬网站，从而增加网站的收录，同时也提高了快照的更新速度。如果网站长时间不更新，搜索引擎会认为这是一场致命的战斗，从而降低你的网站排名，严重的甚至会被降级。
　　网站的外部链接也很重要。一个好的外链是你网站排名的背景，所以我们需要增加网站外链的数量。网站查看和好友链通讯，查看我通讯的好友链是否被删除，对方的网站是否可以正常打开，是否可以降级或暂停，是否及时出现加工。

解决方法:一文详解JVM垃圾收集机制，动图帮你轻松理解大厂面试难点

采集交流 • 优采云发表了文章 • 0 个评论 • 83 次浏览 • 2022-10-03 07:18 • 来自相关话题

解决方法:一文详解JVM垃圾收集机制，动图帮你轻松理解大厂面试难点
　　前言
　　前面的文章介绍了 JVM 的体系结构和运行时数据区域（内存区域），本文章将介绍 JVM 的重点 - 垃圾回收。众所周知，相比C/C++等语言，Java可以省去手动管理内存的繁琐操作，极大地解放了Java程序员的工作效率，这是由于JVM的垃圾回收机制和内存分配策略。我们在编写程序时通常不会感觉到这一点，但如果是在生产环境中，JVM的不同配置对服务器性能的影响非常大，因此掌握JVM调优是高级Java工程师的必备技能。正如所谓的“基础不扎实，地在摇”，在此之前，我们先来了解一下底层的JVM垃圾回收机制。
　　由于您要介绍垃圾回收机制，因此需要澄清以下问题：
　　哪些内存区域需要垃圾回收？
　　如何判断物品是否可回收？
　　如何为新对象分配内存？
　　垃圾回收是如何完成的？
　　本文将通过以下结构进行扩展，以逐一回答上述问题。
　　需要垃圾回收的内存区域;
　　确定对象是否可恢复的方法;
　　主流垃圾回收算法介绍;
　　JVM 的内存分配和垃圾回收机制。
　　让我们从正文开始，或者用图片和文字开始旧食谱，然后走上去。
　　需要垃圾回收的一、内存区域
　　让我们从回顾 JVM 的运行时数据区域开始：
　　JVM 运行时数据范围
　　其中，程序计数器、Java虚拟机栈和局部方法栈都是线程私有的，对应的线程是共生的，与线程同生，与线程同死，堆栈中的堆栈帧也随着方法的进入和退出有序堆叠和输出。因此，这些区域的内存分配和回收是非常确定的，并且在方法的末尾或线程的末尾，内存也会被释放，因此无需考虑这些区域的内存回收问题。
　　堆和方法区域为
　　不一样，Java对象几乎都是在堆上创建的，方法区存储着虚拟机加载的类型信息、常量、静态变量、编译器编译的代码缓存等数据，而运行时常量池中的方法区存储着各种文字和符号引用，以上大部分数据都可以在运行时确定，因此，需要动态内存管理。
　　还应该注意的是，JVM中垃圾回收器的主要关注对象是Java堆，因为这里的垃圾回收的“性价比”最高，特别是在新一代（稍后在代际算法上描述）中，它可以一次回收70%-99%的内存。该方法区由于垃圾回收决策条件，特别是类型卸载决策条件相当苛刻，其采集成本性能很低，所以一些垃圾采集器根本不支持或不完全支持垃圾采集的方法区域，如ZGC采集器在JDK 11中不支持类型卸载。
　　二、确定对象是否可回收的方法2.1 引用计数
　　引用计数方法的实现很简单，向对象添加一个引用计数器，每次有对它的引用时，计数器值就会递增一个;当引用失败时，计数器值减去1;任何具有零时间计数器的对象都不再可以使用。在大多数情况下，此方法有效，但在存在循环引用的情况下，引用计数是无能为力的。例如，在以下情况下：
　　public class Student { // friend 字段 public Student friend = null; public static void test() { Student a = new Student(); Student b = new Student(); a.friend = b; b.friend = a; a = null; b = null; System.gc(); } }
　　上面的代码创建了两个a和b的Dentor实例，并将它们各自的友元字段分配给彼此，除此之外，这两个对象没有引用，然后将它们都分配给null，在这种情况下，这两个对象不能再被访问，但是因为它们相互引用，所以它们的引用计数不为零，并且引用计数算法无法回收它们。如下图所示：
　　循环引用
　　但是在Java程序中，a和b可以回收，因为JVM不使用引用计数来确定对象是否可回收，而是使用可访问性分析。
　　2.2 可达性分析
　　该算法的基本思想是使用一系列称为“GC Roots”的根对象作为起始节点集（GC Root Set），从这些节点开始，根据参考关系向下搜索，搜索过程行进的路径称为“参考链”，如果对象和GC Roots之间没有参考链，这意味着该物体不再使用，可以回收利用。要执行可访问性分析，您需要首先枚举根节点（GC Roots），并且在枚举根节点的过程中，为了防止对象的引用关系发生变化，需要暂停所有用户线程（垃圾回收以外的线程），并调用暂停所有用户线程的这种行为（停止世界）。可达性分析方法如下图所示：
　　可达性分析
　　图中的绿色是 GC 根集中的 GC 根，与它们关联的所有对象都是可访问的并标记为蓝色，而所有与它们没有关联的对象都是不可访问的，并标记为灰色。即使无法访问的对象也不一定被回收，如果对象同时满足以下条件，则仍有可能“逃脱”：
　　对象具有重写的终止（）方法（Object 类中的方法）;
　　
　　最终化（）方法将自身链接到参考链;
　　合资管理公司
　　以前没有调用对象的 finalizize（）方法（因为 JVM 在采集可回收对象时只调用对象的 finalizize（）方法一次）。
　　但是，由于 finalizize（）方法的运行成本高昂、不确定且不保证调用各个对象的顺序，因此不建议使用此方法。那么，GC根在哪里是神圣的呢？在 Java 语言中，可用作 GC 根的固定对象包括：
　　虚拟机堆栈中引用的对象（堆栈帧中的局部变量表），例如每个被调用的线程在方法堆栈中使用的参数、局部变量、临时变量等。
　　方法区域中类的静态属性所引用的对象，例如 Java 类的引用类型的静态变量。
　　由方法区域中的常量引用的对象，如字符串表中的引用。
　　本地方法堆栈中 JNI（通常称为本机方法）引用的对象。
　　Java 虚拟机内部的引用，例如与基元数据类型对应的类对象、一些常见的异常对象（例如
　　空点访问、内存输出错误等，以及系统类加载程序。
　　同步关键字保存的所有对象。
　　JM XBean、在 JVM TI 中注册的回调、反映 Java 虚拟机内部条件的本地代码高速缓存等。
　　三、垃圾回收算法引入了3.1 标记清除算法
　　标签清除算法的思想很简单，顾名思义，该算法的过程分为两个阶段：首先标记出所有需要回收的对象，其中标记过程是使用可访问性分析来确定对象是否为垃圾的过程。标记完成后，所有标记的对象被统一回收，幸存的对象也可以反向标记，所有未标记的对象都被统一回收。原理图如下：
　　标签清除算法
　　虽然这种算法很简单，但它有两个明显的缺点：
　　执行效率不稳定。如果Java堆收录大量对象，并且大部分需要回收，则必须执行大量的标记和清除操作，导致标记和清除过程的执行效率随着对象数量的增加而降低;
　　导致内存空间碎片。标记和清理后，会出现大量不连续的内存碎片，过多的空间碎片可能导致将来在程序运行期间需要分配大对象时找不到足够的连续内存，不得不提前触发另一次垃圾回收操作，极大地影响了程序运行效率。
　　3.2 标签复制算法
　　标签复制算法，
　　通常被称为复制算法，解决了在面对大量可回收对象时标签清除算法执行效率低下的问题。实现也很容易理解：在可用内存中划分两个相同大小的区域，一次只使用其中一个，另一个块保持空闲状态，当第一个块用完时，所有幸存的对象都被复制到第二个区域，然后第一个块全部清空。如下图所示：
　　标记复制算法
　　此算法是
　　非常适合低对象生存，因为它只关注幸存的对象，而不关心可回收的对象，因此该算法用于JVM中的新一代垃圾回收。但是，它的缺点也很明显，每次都浪费一半的内存太奢侈了，但是JVM中的新一代内存划分更加精细，这更好地解决了这个问题，见下文。
　　3.3 标签组织算法
　　该算法完美地解决了标记清理算法的空间碎片化问题，其标记过程与“标记干净”算法相同，但下一步不是直接清理可回收对象，而是让所有幸存的对象移动到内存空间端，然后直接清理边界外的内存。
　　标记排序规则算法
　　虽然这种算法可以很好地解决空间碎片的问题，但每次垃圾回收都需要移动幸存的对象，更新引用这些对象的地方，并且对象移动的操作也需要在整个过程中暂停用户线程（Stop The World）。
　　3.4 代际采集算法
　　与其说它是一种算法，不如说是一种理论。今天的大多数虚拟机实现都是根据“代际采集”理论设计的，这可以被视为经验性的，因为开发人员在开发过程中发现，JVM中幸存对象的数量与其年龄之间存在一定的规律，如下所示
　　：
　　
　　JVM 中幸存对象的数量与年龄之间的关系
　　在此基础上，提出了以下假设：
　　绝大多数物体都是生死的。
　　一个物体在垃圾回收过程中存活的次数越多，它就越难死亡。
　　根据这两个假设，JVM的堆内存大致可以分为新一代和旧时代，大多数新一代对象都有很短的生存时间，每次恢复只关心如何保留少量的生存，而不是标记大量将被回收的物体，你可以以较低的成本回收到大量的空间，所以这个区域一般使用标记复制算法进行垃圾回收，频率比较高。过去是一些难以死亡的对象，垃圾采集可以使用标记清理和标记分类算法进行，并且频率可以更低。
　　根据热点虚拟机的实现情况，新一代和老一代的垃圾回收分为不同的类型，并且有不同的术语，如下所示：
　　部分 GC：指目标不是完全采集的垃圾回收
　　整个Java堆，它分为：次要GC/年轻GC：指目标只是新一代的垃圾回收。主要GC/Old GC：指仅针对老年人的垃圾采集，目前只有cms采集器的并发采集阶段是单独采集老年人的行为。混合GC：目标是从整个新一代以及一些旧一代中采集垃圾回收，目前只有G1采集器才能实践。
　　完整 GC：从整个 Java 堆和方法区域采集垃圾回收。
　　人们经常混淆Major GC和全GC，但这也是可以理解的，因为这两种GC行为都包括老年垃圾回收，而单独的Major GC采集相对较少，在大多数情况下，只要收录老年采集，就会是一个完整的GC，但最好区分一下。
　　四、 JVM 的内存分配和垃圾回收机制
　　在之前的准备之后，现在终于可以瞥见JVM的内存分配和垃圾回收机制。
　　4. 1 JVM 堆内存的划分
　　JVM 堆内存分区，不再从 Java 8 开始永久生成
　　Java 堆是由 JVM 管理的最大内存块，也是垃圾回收器的管理区域。大多数垃圾采集器将堆内存划分为上图所示的几个区域，整体分为新生代和旧，比例为1：2，新生代进一步分为伊甸园，从幸存者和到幸存者，默认比例为8：1：1，请注意，您可以通过SvivorRatio参数进行设置。请注意，从 JDK 8 开始，JVM 中不再有永久世代的概念。无论 Java 堆上的区域如何，都只存储对象的实例，而细分 Java 堆的目的只是为了更好地回收内存，或者更快地分配内存。
　　4.2 代际采集原理4.2.1 新生代物品的分配和采集
　　在大多数情况下，对象优先分配在新生代伊甸园区域中，当 Eden 区域没有足够的空间进行分配时，虚拟机会启动次要 GC。伊甸园、从幸存者和幸存者的比例是8：1：1，这是因为绝大多数物体都在死亡，伊甸园在垃圾采集过程中幸存下来的物体数量不太大，幸存者空间也足够小，每个新生代的可用记忆空间是整个新生代容量的90%（伊甸园的80%加上To的10%）。幸存者），只有来自幸存者的空间，或新一代的10%，被“浪费”。它不会像原创标记复制算法那样浪费一半的内存空间。“幸存者”和“致幸存者”中的空格不是固定的，而是在 S0 和 S1 之间动态转换的，第一个小 GC 选择 S1 作为“到幸存者”，并将 Eden 中幸存的对象复制到其中，将对象的年龄增加 1，请注意，新一代使用的垃圾回收算法是标记复制算法的改进版本。下面是一个示意图，注意颜色变化的第一步是为了突出，虚拟机只做标记活体的操作。
　　第一个小气相色谱的示意图
　　在随后的小指导性案例中，S0和S1交替转换为“从幸存者”和“幸存者”，而《伊甸园》和“幸存者”中的幸存对象被复制到“幸存者”中，年龄增加1。如下图所示：
　　后续次要 GC 原理图
　　4.2.2 升入老年的物品
　　在这些情况下，受试者将被提升到老年。
　　长期幸存者将进入老年
　　每当一个物体在幸存者区域中的小GC中存活时，它的年龄就会增加1年，当它的年龄增加到一定水平（默认为15)时，它就会被提升到中年。对象前进到老年的年龄阈值可以通过参数-XX：MaxTenuringThreshold设置，此参数的最大值为15，因为对象年龄信息存储在对象头中，占4位内存，最大可以表示的数量是15。
　　促进长期幸存者进入老年的示意图
　　2.大型物品可以直接进入老年
　　对于大型对象，尤其是长字符串，或具有大量元素的数组，如果在 Eden 中分配，很容易过早地填满 Eden 空间，从而导致次要 GC，并且还存在较大的内存复制开销，用于在 Eden 和两个幸存者之间来回复制。因此，我们可以通过设置虚拟机参数 -XX：预缩文件大小阈值来让大型对象直接进入旧时代。
　　3.动态对象的时代
　　为了更好地适应不同程序的内存条件，热点虚拟机并不总是要求物体的年龄必须达到-XX：MaxTenuringThreshold才能提升到老年，如果幸存者空间中所有相同年龄的对象大小之和大于幸存者空间的一半，大于或等于年龄的对象可以直接进入老年，而不必等到 -XX：最大收缩阈值中所需的年龄。
　　4.处理促销
　　当幸存者空间不足以容纳在次要GC之后存活的物体时，它依靠其他内存区域（实际上，在大多数情况下，是老年）进行分配保证。在次要GC发生之前，虚拟机必须首先检查旧时代的最大可用连续空间是否大于新一代中所有对象的总空间，如果此条件为真，那么这次次要GC可以保证是安全的。如果没有，虚拟机首先检查-XX：处理升级失败参数的设置值是否允许处理提升失败;如果允许，它将继续检查老年人的最大可用连续空间是否大于过去晋升为老年的对象的平均大小，如果大于，将尝试次要GC，尽管这次次要GC是有风险的;如果小于或 -XX：处理升级失败设置不允许冒险，则应改为执行完整 GC。
　　小技巧:掌握吸引蜘蛛的四大技巧，轻松增加SEO优化的收录量
　　SEO优化作为一种实用的推广手段，是近年来企业宣传的必备条件。但是，即使你做SEO一样，你也可能不一样，有些人有更多的网站收录，几十万，有些人收录很少，甚至一页，后者显然比前者遭受的损失更大。那么，如何提高网页收录呢？如何让蜘蛛抓取更多网站页面？以下是与您分享的四个技巧。
　　技能一、合理稳定地提高网站基本体重
　　高重量的蜘蛛经常抓取，而低重量的蜘蛛以较低的速度爬行。如果想让蜘蛛抓得更多，就得考虑增加网站的重量，新站的重量很容易达到1，只要网站质量通过，技术是有规律的，达到重量1的速度非常快，至于从1到2，它要慢得多。不过，对于SEO网站管理员来说，这也足够了。
　　
　　提示二、网站内容更新频率合理
　　蜘蛛总是喜欢更新频率高的网站，因为它们每天都会来抓，如果你的更新频率降低，蜘蛛会随着时间的推移而变得懒惰。当然，如果能每天更新定点就更好了，通过日志分析，你会发现蜘蛛会多次来到这个点。当然，如果您不知道蜘蛛何时会爬行，担心您的更新无效，建议您通过日志分析获取蜘蛛的抓取规则，这样可以更方便蜘蛛抓取收录页面。当然，蜘蛛每次抓取页面都会在数据库中存在，下次抓取时会比较之前的数据，如果没有更新，蜘蛛会降低抓取的频率，甚至不抓取。随着时间的流逝，蜘蛛将不再光顾你的网站。如果你之前网站更新得很低，现在想提高收录，让蜘蛛抓得更多，建议在固定更新频率的基础上，给一些文章发送一些网站链接，这样蜘蛛就可以被引到你的网站，增加爬行的机会。
　　提示三、朋友链和外部链接选择最好的
　　很多SEO优化者觉得做优化就是做外部链接，所以不管站内，一味追求站外。这种发送大量反向链接的做法在开始时确实产生了一定的效果，但是随着算法的变化，现在已经没有效果了。当然1，反向链接有利于网站排名和收录，适当地添加反向链接对网站有好处。但是，做SEO并不像发送外部链接那么简单，有能力的SEO优化器，即使不发送外部链接，也可以有很好的排名，这就是为什么一些网站优化器觉得外部链接没用的原因。如果你想让蜘蛛知道你网站链接，你需要去一些蜘蛛经常爬行的地方放网站链接，比如百度有专门的网站链接提交平台，它提交网站链接，帮助蜘蛛抓取收录。你也可以在贴吧和其他地方发布链接，至于你是否可以保留它取决于个人技能。至于好友链，它是一种外部链接，但实际效果比外部链接高，因为好友链往往是一些排名相似的相关链接，带来更多的权重和好处。
　　
　　技巧四、科学地控制对页面的访问深度
　　一方面，深度越深，
　　对于用户来说，搜索和点击越困难，另一方面，蜘蛛爬行并不容易，更不用说收录了，所以通常，每个人都会控制目录的第二和第三层的页面深度，而不是没有。当然，也有一些深度比较大的网站收录，往往是行业网络或者门户网络，单个企业站点能做的很少。
　　看完这四点，不知道你有没有掌握网站收录爬行的技巧？这里也提醒大家，蜘蛛喜欢高质量的原创文章，尽量更新高质量的原创文章，增加收录好。查看全部

解决方法:一文详解JVM垃圾收集机制，动图帮你轻松理解大厂面试难点
　　前言
　　前面的文章介绍了 JVM 的体系结构和运行时数据区域（内存区域），本文章将介绍 JVM 的重点 - 垃圾回收。众所周知，相比C/C++等语言，Java可以省去手动管理内存的繁琐操作，极大地解放了Java程序员的工作效率，这是由于JVM的垃圾回收机制和内存分配策略。我们在编写程序时通常不会感觉到这一点，但如果是在生产环境中，JVM的不同配置对服务器性能的影响非常大，因此掌握JVM调优是高级Java工程师的必备技能。正如所谓的“基础不扎实，地在摇”，在此之前，我们先来了解一下底层的JVM垃圾回收机制。
　　由于您要介绍垃圾回收机制，因此需要澄清以下问题：
　　哪些内存区域需要垃圾回收？
　　如何判断物品是否可回收？
　　如何为新对象分配内存？
　　垃圾回收是如何完成的？
　　本文将通过以下结构进行扩展，以逐一回答上述问题。
　　需要垃圾回收的内存区域;
　　确定对象是否可恢复的方法;
　　主流垃圾回收算法介绍;
　　JVM 的内存分配和垃圾回收机制。
　　让我们从正文开始，或者用图片和文字开始旧食谱，然后走上去。
　　需要垃圾回收的一、内存区域
　　让我们从回顾 JVM 的运行时数据区域开始：
　　JVM 运行时数据范围
　　其中，程序计数器、Java虚拟机栈和局部方法栈都是线程私有的，对应的线程是共生的，与线程同生，与线程同死，堆栈中的堆栈帧也随着方法的进入和退出有序堆叠和输出。因此，这些区域的内存分配和回收是非常确定的，并且在方法的末尾或线程的末尾，内存也会被释放，因此无需考虑这些区域的内存回收问题。
　　堆和方法区域为
　　不一样，Java对象几乎都是在堆上创建的，方法区存储着虚拟机加载的类型信息、常量、静态变量、编译器编译的代码缓存等数据，而运行时常量池中的方法区存储着各种文字和符号引用，以上大部分数据都可以在运行时确定，因此，需要动态内存管理。
　　还应该注意的是，JVM中垃圾回收器的主要关注对象是Java堆，因为这里的垃圾回收的“性价比”最高，特别是在新一代（稍后在代际算法上描述）中，它可以一次回收70%-99%的内存。该方法区由于垃圾回收决策条件，特别是类型卸载决策条件相当苛刻，其采集成本性能很低，所以一些垃圾采集器根本不支持或不完全支持垃圾采集的方法区域，如ZGC采集器在JDK 11中不支持类型卸载。
　　二、确定对象是否可回收的方法2.1 引用计数
　　引用计数方法的实现很简单，向对象添加一个引用计数器，每次有对它的引用时，计数器值就会递增一个;当引用失败时，计数器值减去1;任何具有零时间计数器的对象都不再可以使用。在大多数情况下，此方法有效，但在存在循环引用的情况下，引用计数是无能为力的。例如，在以下情况下：
　　public class Student { // friend 字段 public Student friend = null; public static void test() { Student a = new Student(); Student b = new Student(); a.friend = b; b.friend = a; a = null; b = null; System.gc(); } }
　　上面的代码创建了两个a和b的Dentor实例，并将它们各自的友元字段分配给彼此，除此之外，这两个对象没有引用，然后将它们都分配给null，在这种情况下，这两个对象不能再被访问，但是因为它们相互引用，所以它们的引用计数不为零，并且引用计数算法无法回收它们。如下图所示：
　　循环引用
　　但是在Java程序中，a和b可以回收，因为JVM不使用引用计数来确定对象是否可回收，而是使用可访问性分析。
　　2.2 可达性分析
　　该算法的基本思想是使用一系列称为“GC Roots”的根对象作为起始节点集（GC Root Set），从这些节点开始，根据参考关系向下搜索，搜索过程行进的路径称为“参考链”，如果对象和GC Roots之间没有参考链，这意味着该物体不再使用，可以回收利用。要执行可访问性分析，您需要首先枚举根节点（GC Roots），并且在枚举根节点的过程中，为了防止对象的引用关系发生变化，需要暂停所有用户线程（垃圾回收以外的线程），并调用暂停所有用户线程的这种行为（停止世界）。可达性分析方法如下图所示：
　　可达性分析
　　图中的绿色是 GC 根集中的 GC 根，与它们关联的所有对象都是可访问的并标记为蓝色，而所有与它们没有关联的对象都是不可访问的，并标记为灰色。即使无法访问的对象也不一定被回收，如果对象同时满足以下条件，则仍有可能“逃脱”：
　　对象具有重写的终止（）方法（Object 类中的方法）;

　　最终化（）方法将自身链接到参考链;
　　合资管理公司
　　以前没有调用对象的 finalizize（）方法（因为 JVM 在采集可回收对象时只调用对象的 finalizize（）方法一次）。
　　但是，由于 finalizize（）方法的运行成本高昂、不确定且不保证调用各个对象的顺序，因此不建议使用此方法。那么，GC根在哪里是神圣的呢？在 Java 语言中，可用作 GC 根的固定对象包括：
　　虚拟机堆栈中引用的对象（堆栈帧中的局部变量表），例如每个被调用的线程在方法堆栈中使用的参数、局部变量、临时变量等。
　　方法区域中类的静态属性所引用的对象，例如 Java 类的引用类型的静态变量。
　　由方法区域中的常量引用的对象，如字符串表中的引用。
　　本地方法堆栈中 JNI（通常称为本机方法）引用的对象。
　　Java 虚拟机内部的引用，例如与基元数据类型对应的类对象、一些常见的异常对象（例如
　　空点访问、内存输出错误等，以及系统类加载程序。
　　同步关键字保存的所有对象。
　　JM XBean、在 JVM TI 中注册的回调、反映 Java 虚拟机内部条件的本地代码高速缓存等。
　　三、垃圾回收算法引入了3.1 标记清除算法
　　标签清除算法的思想很简单，顾名思义，该算法的过程分为两个阶段：首先标记出所有需要回收的对象，其中标记过程是使用可访问性分析来确定对象是否为垃圾的过程。标记完成后，所有标记的对象被统一回收，幸存的对象也可以反向标记，所有未标记的对象都被统一回收。原理图如下：
　　标签清除算法
　　虽然这种算法很简单，但它有两个明显的缺点：
　　执行效率不稳定。如果Java堆收录大量对象，并且大部分需要回收，则必须执行大量的标记和清除操作，导致标记和清除过程的执行效率随着对象数量的增加而降低;
　　导致内存空间碎片。标记和清理后，会出现大量不连续的内存碎片，过多的空间碎片可能导致将来在程序运行期间需要分配大对象时找不到足够的连续内存，不得不提前触发另一次垃圾回收操作，极大地影响了程序运行效率。
　　3.2 标签复制算法
　　标签复制算法，
　　通常被称为复制算法，解决了在面对大量可回收对象时标签清除算法执行效率低下的问题。实现也很容易理解：在可用内存中划分两个相同大小的区域，一次只使用其中一个，另一个块保持空闲状态，当第一个块用完时，所有幸存的对象都被复制到第二个区域，然后第一个块全部清空。如下图所示：
　　标记复制算法
　　此算法是
　　非常适合低对象生存，因为它只关注幸存的对象，而不关心可回收的对象，因此该算法用于JVM中的新一代垃圾回收。但是，它的缺点也很明显，每次都浪费一半的内存太奢侈了，但是JVM中的新一代内存划分更加精细，这更好地解决了这个问题，见下文。
　　3.3 标签组织算法
　　该算法完美地解决了标记清理算法的空间碎片化问题，其标记过程与“标记干净”算法相同，但下一步不是直接清理可回收对象，而是让所有幸存的对象移动到内存空间端，然后直接清理边界外的内存。
　　标记排序规则算法
　　虽然这种算法可以很好地解决空间碎片的问题，但每次垃圾回收都需要移动幸存的对象，更新引用这些对象的地方，并且对象移动的操作也需要在整个过程中暂停用户线程（Stop The World）。
　　3.4 代际采集算法
　　与其说它是一种算法，不如说是一种理论。今天的大多数虚拟机实现都是根据“代际采集”理论设计的，这可以被视为经验性的，因为开发人员在开发过程中发现，JVM中幸存对象的数量与其年龄之间存在一定的规律，如下所示
　　：
　　

　　JVM 中幸存对象的数量与年龄之间的关系
　　在此基础上，提出了以下假设：
　　绝大多数物体都是生死的。
　　一个物体在垃圾回收过程中存活的次数越多，它就越难死亡。
　　根据这两个假设，JVM的堆内存大致可以分为新一代和旧时代，大多数新一代对象都有很短的生存时间，每次恢复只关心如何保留少量的生存，而不是标记大量将被回收的物体，你可以以较低的成本回收到大量的空间，所以这个区域一般使用标记复制算法进行垃圾回收，频率比较高。过去是一些难以死亡的对象，垃圾采集可以使用标记清理和标记分类算法进行，并且频率可以更低。
　　根据热点虚拟机的实现情况，新一代和老一代的垃圾回收分为不同的类型，并且有不同的术语，如下所示：
　　部分 GC：指目标不是完全采集的垃圾回收
　　整个Java堆，它分为：次要GC/年轻GC：指目标只是新一代的垃圾回收。主要GC/Old GC：指仅针对老年人的垃圾采集，目前只有cms采集器的并发采集阶段是单独采集老年人的行为。混合GC：目标是从整个新一代以及一些旧一代中采集垃圾回收，目前只有G1采集器才能实践。
　　完整 GC：从整个 Java 堆和方法区域采集垃圾回收。
　　人们经常混淆Major GC和全GC，但这也是可以理解的，因为这两种GC行为都包括老年垃圾回收，而单独的Major GC采集相对较少，在大多数情况下，只要收录老年采集，就会是一个完整的GC，但最好区分一下。
　　四、 JVM 的内存分配和垃圾回收机制
　　在之前的准备之后，现在终于可以瞥见JVM的内存分配和垃圾回收机制。
　　4. 1 JVM 堆内存的划分
　　JVM 堆内存分区，不再从 Java 8 开始永久生成
　　Java 堆是由 JVM 管理的最大内存块，也是垃圾回收器的管理区域。大多数垃圾采集器将堆内存划分为上图所示的几个区域，整体分为新生代和旧，比例为1：2，新生代进一步分为伊甸园，从幸存者和到幸存者，默认比例为8：1：1，请注意，您可以通过SvivorRatio参数进行设置。请注意，从 JDK 8 开始，JVM 中不再有永久世代的概念。无论 Java 堆上的区域如何，都只存储对象的实例，而细分 Java 堆的目的只是为了更好地回收内存，或者更快地分配内存。
　　4.2 代际采集原理4.2.1 新生代物品的分配和采集
　　在大多数情况下，对象优先分配在新生代伊甸园区域中，当 Eden 区域没有足够的空间进行分配时，虚拟机会启动次要 GC。伊甸园、从幸存者和幸存者的比例是8：1：1，这是因为绝大多数物体都在死亡，伊甸园在垃圾采集过程中幸存下来的物体数量不太大，幸存者空间也足够小，每个新生代的可用记忆空间是整个新生代容量的90%（伊甸园的80%加上To的10%）。幸存者），只有来自幸存者的空间，或新一代的10%，被“浪费”。它不会像原创标记复制算法那样浪费一半的内存空间。“幸存者”和“致幸存者”中的空格不是固定的，而是在 S0 和 S1 之间动态转换的，第一个小 GC 选择 S1 作为“到幸存者”，并将 Eden 中幸存的对象复制到其中，将对象的年龄增加 1，请注意，新一代使用的垃圾回收算法是标记复制算法的改进版本。下面是一个示意图，注意颜色变化的第一步是为了突出，虚拟机只做标记活体的操作。
　　第一个小气相色谱的示意图
　　在随后的小指导性案例中，S0和S1交替转换为“从幸存者”和“幸存者”，而《伊甸园》和“幸存者”中的幸存对象被复制到“幸存者”中，年龄增加1。如下图所示：
　　后续次要 GC 原理图
　　4.2.2 升入老年的物品
　　在这些情况下，受试者将被提升到老年。
　　长期幸存者将进入老年
　　每当一个物体在幸存者区域中的小GC中存活时，它的年龄就会增加1年，当它的年龄增加到一定水平（默认为15)时，它就会被提升到中年。对象前进到老年的年龄阈值可以通过参数-XX：MaxTenuringThreshold设置，此参数的最大值为15，因为对象年龄信息存储在对象头中，占4位内存，最大可以表示的数量是15。
　　促进长期幸存者进入老年的示意图
　　2.大型物品可以直接进入老年
　　对于大型对象，尤其是长字符串，或具有大量元素的数组，如果在 Eden 中分配，很容易过早地填满 Eden 空间，从而导致次要 GC，并且还存在较大的内存复制开销，用于在 Eden 和两个幸存者之间来回复制。因此，我们可以通过设置虚拟机参数 -XX：预缩文件大小阈值来让大型对象直接进入旧时代。
　　3.动态对象的时代
　　为了更好地适应不同程序的内存条件，热点虚拟机并不总是要求物体的年龄必须达到-XX：MaxTenuringThreshold才能提升到老年，如果幸存者空间中所有相同年龄的对象大小之和大于幸存者空间的一半，大于或等于年龄的对象可以直接进入老年，而不必等到 -XX：最大收缩阈值中所需的年龄。
　　4.处理促销
　　当幸存者空间不足以容纳在次要GC之后存活的物体时，它依靠其他内存区域（实际上，在大多数情况下，是老年）进行分配保证。在次要GC发生之前，虚拟机必须首先检查旧时代的最大可用连续空间是否大于新一代中所有对象的总空间，如果此条件为真，那么这次次要GC可以保证是安全的。如果没有，虚拟机首先检查-XX：处理升级失败参数的设置值是否允许处理提升失败;如果允许，它将继续检查老年人的最大可用连续空间是否大于过去晋升为老年的对象的平均大小，如果大于，将尝试次要GC，尽管这次次要GC是有风险的;如果小于或 -XX：处理升级失败设置不允许冒险，则应改为执行完整 GC。
　　小技巧:掌握吸引蜘蛛的四大技巧，轻松增加SEO优化的收录量
　　SEO优化作为一种实用的推广手段，是近年来企业宣传的必备条件。但是，即使你做SEO一样，你也可能不一样，有些人有更多的网站收录，几十万，有些人收录很少，甚至一页，后者显然比前者遭受的损失更大。那么，如何提高网页收录呢？如何让蜘蛛抓取更多网站页面？以下是与您分享的四个技巧。
　　技能一、合理稳定地提高网站基本体重
　　高重量的蜘蛛经常抓取，而低重量的蜘蛛以较低的速度爬行。如果想让蜘蛛抓得更多，就得考虑增加网站的重量，新站的重量很容易达到1，只要网站质量通过，技术是有规律的，达到重量1的速度非常快，至于从1到2，它要慢得多。不过，对于SEO网站管理员来说，这也足够了。
　　

　　提示二、网站内容更新频率合理
　　蜘蛛总是喜欢更新频率高的网站，因为它们每天都会来抓，如果你的更新频率降低，蜘蛛会随着时间的推移而变得懒惰。当然，如果能每天更新定点就更好了，通过日志分析，你会发现蜘蛛会多次来到这个点。当然，如果您不知道蜘蛛何时会爬行，担心您的更新无效，建议您通过日志分析获取蜘蛛的抓取规则，这样可以更方便蜘蛛抓取收录页面。当然，蜘蛛每次抓取页面都会在数据库中存在，下次抓取时会比较之前的数据，如果没有更新，蜘蛛会降低抓取的频率，甚至不抓取。随着时间的流逝，蜘蛛将不再光顾你的网站。如果你之前网站更新得很低，现在想提高收录，让蜘蛛抓得更多，建议在固定更新频率的基础上，给一些文章发送一些网站链接，这样蜘蛛就可以被引到你的网站，增加爬行的机会。
　　提示三、朋友链和外部链接选择最好的
　　很多SEO优化者觉得做优化就是做外部链接，所以不管站内，一味追求站外。这种发送大量反向链接的做法在开始时确实产生了一定的效果，但是随着算法的变化，现在已经没有效果了。当然1，反向链接有利于网站排名和收录，适当地添加反向链接对网站有好处。但是，做SEO并不像发送外部链接那么简单，有能力的SEO优化器，即使不发送外部链接，也可以有很好的排名，这就是为什么一些网站优化器觉得外部链接没用的原因。如果你想让蜘蛛知道你网站链接，你需要去一些蜘蛛经常爬行的地方放网站链接，比如百度有专门的网站链接提交平台，它提交网站链接，帮助蜘蛛抓取收录。你也可以在贴吧和其他地方发布链接，至于你是否可以保留它取决于个人技能。至于好友链，它是一种外部链接，但实际效果比外部链接高，因为好友链往往是一些排名相似的相关链接，带来更多的权重和好处。
　　

　　技巧四、科学地控制对页面的访问深度
　　一方面，深度越深，
　　对于用户来说，搜索和点击越困难，另一方面，蜘蛛爬行并不容易，更不用说收录了，所以通常，每个人都会控制目录的第二和第三层的页面深度，而不是没有。当然，也有一些深度比较大的网站收录，往往是行业网络或者门户网络，单个企业站点能做的很少。
　　看完这四点，不知道你有没有掌握网站收录爬行的技巧？这里也提醒大家，蜘蛛喜欢高质量的原创文章，尽量更新高质量的原创文章，增加收录好。

分享:【文末赠书】红队攻防之信息收集总结

采集交流 • 优采云发表了文章 • 0 个评论 • 88 次浏览 • 2022-10-02 13:12 • 来自相关话题

分享:【文末赠书】红队攻防之信息收集总结
　　我之前也总结过类似的信息采集相关文章，但是理解和方法会不时有所不同。本文从渗透测试的角度总结了自己的一些在hvv或授权但只提供公司名和域名的情况下。最近的信息采集过程例程。
　　信息采集一、初始已知信息
　　在前言中提到的两种情况下，一般初始信息只有公司名称、个人官网域名、目标名称等信息，信息都是从这个起点采集的。
　　二、搜索根域名
　　这一步我个人的体会是，面对大公司，首选工信部备案。小公司以搜索引擎为起点，然后可以通过几种方法查漏补缺，尽量获取最完整的信息。大多数公司的根域名并不多，也不会花费太多时间来浏览它们。
　　1.搜索引擎
　　搜索引擎直接搜索其公司名称，获取其相关根域名
　　2.天眼检查、企业检查
　　从天眼查、七查查等，输入公司名称查询其域名和全资子公司域名。
　　3.工信部备案
　　工信部记录查询域名/ip地址（需要详细准确的公司名称，结果会很全面）
　　#/综合/记录查询
　　4.佛法
　　fofa查询公司名称，获取相关域名
　　5.站长之家
　　使用它的 icp 查询功能来查询记录。当我们不知道公司全名的时候，我们也可以使用这个网站函数来查询使用已知域名的完整记录公司名
　　6.反向查找域名
　　使用一些已知的IP反向域名
　　三、子域
　　我一般不喜欢在子域集合中爆破的方法。子域的爆破更多地依赖字典。如果字典小，则集合不完整，如果字典大，则耗时。
　　
　　1.各类网站查询分析记录
　　以bilibili为例：
　　类似的网站还有很多，这两个是免费的，但是第二个需要注册登录
　　2.子域爆破
　　相关工具很多，有些扫描仪也自带子域爆破功能或者可以安装相关插件。
　　subDomainsBrute
　　3.fofa, shodan
　　使用此类工具查询域名资产，例如
　　fofa 语法域=””
　　4.OneForAll
　　该工具将整合各种采集子域的方法，包括dns查询、证书查询等，具体请参见其项目中的readme
　　安装
　　1 2 3 4 5 
　　git clone https://github.com/shmilylty/OneForAll.git cd OneForAll/ python3 -m pip install -U pip setuptools wheel -i https://mirrors.aliyun.com/pypi/simple/ pip3 install -r requirements.txt -i https://mirrors.aliyun.com/pypi/simple/ python3 oneforall.py --help 
　　1 2 
　　python3 oneforall.py --target example.com run python3 oneforall.py --targets ./example.txt run 
　　四、ip
　　IP列表并不完全来源于域名解析。有些IP直接使用IP地址提供服务。这部分信息需要提前采集，另一部分通过域名解析获取。
　　1.各类网站查询分析记录
　　与子域查询中的操作相同，但需要做的是导出ip列表
　　2.解析域名
　　
　　调用 dig 或 nslookup 通过脚本将采集到的所有子域批量解析 IP
　　1 2 
　　nslookup xxx.com dig xxx.com @114.114.114.114 
　　编写脚本批量调用dig命令并导出结果
　　或者将域名列表放在在线解析网站中，导出其解析结果
　　这一步需要特别注意cdn的情况，绕过cdn找到它的真实ip，可以参考这个文档
　　3.c 段
　　将之前获取的IP全部整理出来，使用脚本进行整理。如果懒得写脚本，也可以使用在线功能。
　　比如ip地址排序计算器
　　得到排序后的ip后，可以先判断哪些c段可能属于目标，然后进行一些扫描和访问，组织一个更全面的ip列表。
　　五、端口
　　使用masscan、nmap等工具采集端口信息
　　六、网络服务
　　使用webfinder等工具扫描对ip列表进行排序的常用web端口，以:port/和:port/的形式导出web服务列表
　　指纹识别
　　1.
　　2.
　　七、缺少扫描1.主机扫描
　　上面编译的ip列表和域名列表可以扔进主机扫描相关的扫描器中，比如goby、Nessus等。
　　2.网络扫描
　　整理好web服务列表后，可以扔进awvs等工具进行扫描，也可以用xray批量扫描。
　　史上最强:最强黑科技合集！没有之一！！
　　由于微信公众号改版，当前公众号新闻不再按时间顺序排列。因此，朋友很容易错过分享的内容。
　　喜欢猫哥的朋友可以把公众号设为star，这样就不会迷路了~操作方法：
　　大家好，说到手机工具箱，大家可能会想到木信，酷炫的安全神器，它聚合了很多实用功能，不过今天推荐的比木信更强大。它被称为竹信。目前完全免费，无需任何GSM插入，功能还在不断增加。目前，它只支持安卓。
　　竹信 (Android)
　　软件只有4.3M，打开软件，功能尽显，各个功能无需额外下载即可直接使用。
　　超强资源导航：这是一个网站资源导航，汇集了众多精品网站，电影、动漫、漫画、小说、直播一应俱全，还有大家最喜欢的香港和奥地利电视直播频道。.
　　
　　生活不容易。希望大家可以【点击】下方的小卡片。您的流畅点击将是我坚持的动力。只需单击它。非常感谢！
　　小霸王游戏机：打开搜索想玩的游戏，比如《魂斗罗》直接打开玩，也支持作弊工具。
　　逐图搜索：这个功能大家都很熟悉，也很常用。您可以通过单个图像找到其原创图像或更多类似图像。
　　全网高级点播和VIP视频分析工具，将VIP视频连接粘贴到分析框中，点击“分析”生成，进入浏览器免费观看。
　　
　　以前非常流行的狗屎伪原创文章自动生成器，舔狗日记生成工具，世界货币兑换工具，世界实时地震监测工具。
　　这些只是冰山一角，还有全网音乐下载、asmr助眠、ip地址查询、视频去水印、壁纸下载、语言翻译等诸多实用功能。
　　总之，这款软件集实用娱乐等诸多功能于一体。还可以避免手机因为安装太多软件而卡死，功能还在不断增加。可以说非常实用。有兴趣的朋友赶紧起床！！
　　软件获取查看全部

　　分享:【文末赠书】红队攻防之信息收集总结
　　我之前也总结过类似的信息采集相关文章，但是理解和方法会不时有所不同。本文从渗透测试的角度总结了自己的一些在hvv或授权但只提供公司名和域名的情况下。最近的信息采集过程例程。
　　信息采集一、初始已知信息
　　在前言中提到的两种情况下，一般初始信息只有公司名称、个人官网域名、目标名称等信息，信息都是从这个起点采集的。
　　二、搜索根域名
　　这一步我个人的体会是，面对大公司，首选工信部备案。小公司以搜索引擎为起点，然后可以通过几种方法查漏补缺，尽量获取最完整的信息。大多数公司的根域名并不多，也不会花费太多时间来浏览它们。
　　1.搜索引擎
　　搜索引擎直接搜索其公司名称，获取其相关根域名
　　2.天眼检查、企业检查
　　从天眼查、七查查等，输入公司名称查询其域名和全资子公司域名。
　　3.工信部备案
　　工信部记录查询域名/ip地址（需要详细准确的公司名称，结果会很全面）
　　#/综合/记录查询
　　4.佛法
　　fofa查询公司名称，获取相关域名
　　5.站长之家
　　使用它的 icp 查询功能来查询记录。当我们不知道公司全名的时候，我们也可以使用这个网站函数来查询使用已知域名的完整记录公司名
　　6.反向查找域名
　　使用一些已知的IP反向域名
　　三、子域
　　我一般不喜欢在子域集合中爆破的方法。子域的爆破更多地依赖字典。如果字典小，则集合不完整，如果字典大，则耗时。
　　

1.各类网站查询分析记录
　　以bilibili为例：
　　类似的网站还有很多，这两个是免费的，但是第二个需要注册登录
　　2.子域爆破
　　相关工具很多，有些扫描仪也自带子域爆破功能或者可以安装相关插件。
　　subDomainsBrute
　　3.fofa, shodan
　　使用此类工具查询域名资产，例如
　　fofa 语法域=””
　　4.OneForAll
　　该工具将整合各种采集子域的方法，包括dns查询、证书查询等，具体请参见其项目中的readme
　　安装
　　1 2 3 4 5 
　　git clone https://github.com/shmilylty/OneForAll.git cd OneForAll/ python3 -m pip install -U pip setuptools wheel -i https://mirrors.aliyun.com/pypi/simple/ pip3 install -r requirements.txt -i https://mirrors.aliyun.com/pypi/simple/ python3 oneforall.py --help 
　　1 2 
　　python3 oneforall.py --target example.com run python3 oneforall.py --targets ./example.txt run 
　　四、ip
　　IP列表并不完全来源于域名解析。有些IP直接使用IP地址提供服务。这部分信息需要提前采集，另一部分通过域名解析获取。
　　1.各类网站查询分析记录
　　与子域查询中的操作相同，但需要做的是导出ip列表
　　2.解析域名

调用 dig 或 nslookup 通过脚本将采集到的所有子域批量解析 IP
　　1 2 
　　nslookup xxx.com dig xxx.com @114.114.114.114 
　　编写脚本批量调用dig命令并导出结果
　　或者将域名列表放在在线解析网站中，导出其解析结果
　　这一步需要特别注意cdn的情况，绕过cdn找到它的真实ip，可以参考这个文档
　　3.c 段
　　将之前获取的IP全部整理出来，使用脚本进行整理。如果懒得写脚本，也可以使用在线功能。
　　比如ip地址排序计算器
　　得到排序后的ip后，可以先判断哪些c段可能属于目标，然后进行一些扫描和访问，组织一个更全面的ip列表。
　　五、端口
　　使用masscan、nmap等工具采集端口信息
　　六、网络服务
　　使用webfinder等工具扫描对ip列表进行排序的常用web端口，以:port/和:port/的形式导出web服务列表
　　指纹识别
　　1.
　　2.
　　七、缺少扫描1.主机扫描
　　上面编译的ip列表和域名列表可以扔进主机扫描相关的扫描器中，比如goby、Nessus等。
　　2.网络扫描
　　整理好web服务列表后，可以扔进awvs等工具进行扫描，也可以用xray批量扫描。
　　史上最强:最强黑科技合集！没有之一！！
　　由于微信公众号改版，当前公众号新闻不再按时间顺序排列。因此，朋友很容易错过分享的内容。
　　喜欢猫哥的朋友可以把公众号设为star，这样就不会迷路了~操作方法：
　　大家好，说到手机工具箱，大家可能会想到木信，酷炫的安全神器，它聚合了很多实用功能，不过今天推荐的比木信更强大。它被称为竹信。目前完全免费，无需任何GSM插入，功能还在不断增加。目前，它只支持安卓。
　　竹信 (Android)
　　软件只有4.3M，打开软件，功能尽显，各个功能无需额外下载即可直接使用。
　　超强资源导航：这是一个网站资源导航，汇集了众多精品网站，电影、动漫、漫画、小说、直播一应俱全，还有大家最喜欢的香港和奥地利电视直播频道。.

　　生活不容易。希望大家可以【点击】下方的小卡片。您的流畅点击将是我坚持的动力。只需单击它。非常感谢！
　　小霸王游戏机：打开搜索想玩的游戏，比如《魂斗罗》直接打开玩，也支持作弊工具。
　　逐图搜索：这个功能大家都很熟悉，也很常用。您可以通过单个图像找到其原创图像或更多类似图像。
　　全网高级点播和VIP视频分析工具，将VIP视频连接粘贴到分析框中，点击“分析”生成，进入浏览器免费观看。
　　

　　以前非常流行的狗屎伪原创文章自动生成器，舔狗日记生成工具，世界货币兑换工具，世界实时地震监测工具。
　　这些只是冰山一角，还有全网音乐下载、asmr助眠、ip地址查询、视频去水印、壁纸下载、语言翻译等诸多实用功能。
　　总之，这款软件集实用娱乐等诸多功能于一体。还可以避免手机因为安装太多软件而卡死，功能还在不断增加。可以说非常实用。有兴趣的朋友赶紧起床！！
　　软件获取

最新版:V8 中的垃圾收集（GC），图文指南

采集交流 • 优采云发表了文章 • 0 个评论 • 91 次浏览 • 2022-10-02 13:11 • 来自相关话题

　　最新版:V8 中的垃圾收集（GC），图文指南
　　原标题：V8 中的垃圾采集，图文并茂的指南原文链接：@_lrlna/garbage-采集-in-v8-an-illustrated-guide-d24a952ee3b8
　　本指南不同于我迄今为止编写的任何其他指南，我在其中添加了一些草图。我勾勒出垃圾采集 (GC) 的整个概念以及它是如何在 javascript 中处理的，更准确地说是在运行 javascript 的引擎中。顺便说一句，本指南面向初学者，并未涵盖 V8 内存管理的所有方面和 V8 的内部结构。我添加了一些资源来帮助您深入挖掘。本指南重点关注✨javascript✨，对于某些语言，垃圾回收是完全不同的，例如 C 语言。
　　好的，让我们开始吧。
　　什么是 v8？
　　V8 是 JavaScript 的运行时引擎，不要与你最喜欢的番茄汁混淆，它负责编译和执行你喜欢的 JavaScript。V8 有一个分代垃圾采集器，我稍后会解释。它与 Chrome 一起使用，而 SpiderMonkey 是 Mozilla 的引擎，而 Chakra 是 Microsoft 的。基本上在运行 javascript 时，您需要一个引擎来处理它，而 V8 是您的选择之一，无论是在浏览器中还是在 node.js 环境中。（PS V8 是✨开源✨。）
　　什么是垃圾采集？
　　垃圾采集的重点是通过使用特定程序来管理内存使用情况。C等语言往往可以直接操作程序中的内存，并在程序的上下文中分配和释放对象。另一方面，ECMAScript 缺少访问内存管理的特定接口（是的，这意味着没有 API）。这基本上意味着程序中的所有内存管理权限都转移到了V8。
　　
　　由于我们无法访问无限量的内存，垃圾采集器的工作是查看内存中分配的对象以确定它们是死的还是活的。那些活着的留在内存中，那些死的被删除，内存被分配回堆。
　　什么是堆？堆是一个非结构化区域，堆中的对象占用分配的内存。这种分配是动态的，因为对象的大小/生命周期/数量是未知的，需要在运行时分配和释放。
　　如果我们看一下并发模型，堆直接与调用堆栈一起工作，因为堆栈上的对象需要进行内存分配。它看起来像这样：
　　死或生？
　　如何检查一个对象的生死是客户端或程序代码是否可以到达该对象。您能想到的最可达的对象可能是在根范围中定义的对象。
　　一些 C++ 绑定（或客户端上的 Web API）也是根的一部分，因此您可以通过例如 setInterval 直接访问它。
　　可达性也可以这样理解：其他对象或根是否可以获取，如果可以，则保留该对象所需的内存。
　　
　　那么我们如何进行垃圾回收呢？（告诉我告诉我！）
　　当创建新对象或新“指针”时，V8 会在堆上分配内存。（javascript没有真正的指针，所以“指针”在技术上只是对原创对象的引用的副本）。堆中不同类型的对象会占用不同的空间，其组织方式如下：
　　出于垃圾采集的目的，V8 将堆分为两部分：新生区和陈旧区。当您执行需要 V8 分配内存的操作时，V8 会在新区域中分配空间。当你不断地添加到堆中时，你最终会耗尽内存，所以 V8 将不得不运行一次 GC 来清理。新创建的对象在对象死亡时被快速分配和清理（更短和更快的采集）。一旦对象“存活”了一些（确切地说是 2 个周期）采集扫描周期，它们就会被提升到父区，在一个单独的周期中采集垃圾。
　　较旧的对象是那些在不止一次垃圾采集扫描中幸存下来的对象，这意味着它们仍然被其他对象引用并且仍然需要占用该内存。它们通常不引用较年轻的对象，只引用较旧的对象。主要周期不经常发生。在将足够多的物体移动到旧区域后，通常会发生一个大循环。
　　来源.js
　　本指南来自 lrlna 在 github 上的 sketchin 指南✨。
　　最新版:ArchiveWebpage(网页存档) V0.8.1 官方版
　　ArchiveWebpage 是浏览器的网页存档和扩展类型工具。该工具可以帮助您以扩展的方式归档网页。它非常适合与客户端一起使用。网页内容会在您需要时保存和复制！
　　【软件功能】
　　直接在浏览器中创建高保真网络档案
　　
　　该扩展允许用户直接在浏览器中创建高保真网络档案。
　　启用后，扩展程序“记录”特定选项卡上的网络流量并将数据存储在浏览器中。记录页面显示所有存档页面的列表。
　　该扩展允许用户重播存档网页（使用 replayweb.page 系统）并允许用户以标准 WARC 和新 WACZ 格式导出存档网页。
　　
　　【软件特色】
　　直接记录网页上某段时间的数据
　　随时保存网页上的相关内容
　　以 WARC 和新的 WACZ 格式导出查看全部

　　最新版:V8 中的垃圾收集（GC），图文指南
　　原标题：V8 中的垃圾采集，图文并茂的指南原文链接：@_lrlna/garbage-采集-in-v8-an-illustrated-guide-d24a952ee3b8
　　本指南不同于我迄今为止编写的任何其他指南，我在其中添加了一些草图。我勾勒出垃圾采集 (GC) 的整个概念以及它是如何在 javascript 中处理的，更准确地说是在运行 javascript 的引擎中。顺便说一句，本指南面向初学者，并未涵盖 V8 内存管理的所有方面和 V8 的内部结构。我添加了一些资源来帮助您深入挖掘。本指南重点关注✨javascript✨，对于某些语言，垃圾回收是完全不同的，例如 C 语言。
　　好的，让我们开始吧。
　　什么是 v8？
　　V8 是 JavaScript 的运行时引擎，不要与你最喜欢的番茄汁混淆，它负责编译和执行你喜欢的 JavaScript。V8 有一个分代垃圾采集器，我稍后会解释。它与 Chrome 一起使用，而 SpiderMonkey 是 Mozilla 的引擎，而 Chakra 是 Microsoft 的。基本上在运行 javascript 时，您需要一个引擎来处理它，而 V8 是您的选择之一，无论是在浏览器中还是在 node.js 环境中。（PS V8 是✨开源✨。）
　　什么是垃圾采集？
　　垃圾采集的重点是通过使用特定程序来管理内存使用情况。C等语言往往可以直接操作程序中的内存，并在程序的上下文中分配和释放对象。另一方面，ECMAScript 缺少访问内存管理的特定接口（是的，这意味着没有 API）。这基本上意味着程序中的所有内存管理权限都转移到了V8。
　　

　　由于我们无法访问无限量的内存，垃圾采集器的工作是查看内存中分配的对象以确定它们是死的还是活的。那些活着的留在内存中，那些死的被删除，内存被分配回堆。
　　什么是堆？堆是一个非结构化区域，堆中的对象占用分配的内存。这种分配是动态的，因为对象的大小/生命周期/数量是未知的，需要在运行时分配和释放。
　　如果我们看一下并发模型，堆直接与调用堆栈一起工作，因为堆栈上的对象需要进行内存分配。它看起来像这样：
　　死或生？
　　如何检查一个对象的生死是客户端或程序代码是否可以到达该对象。您能想到的最可达的对象可能是在根范围中定义的对象。
　　一些 C++ 绑定（或客户端上的 Web API）也是根的一部分，因此您可以通过例如 setInterval 直接访问它。
　　可达性也可以这样理解：其他对象或根是否可以获取，如果可以，则保留该对象所需的内存。
　　

　　那么我们如何进行垃圾回收呢？（告诉我告诉我！）
　　当创建新对象或新“指针”时，V8 会在堆上分配内存。（javascript没有真正的指针，所以“指针”在技术上只是对原创对象的引用的副本）。堆中不同类型的对象会占用不同的空间，其组织方式如下：
　　出于垃圾采集的目的，V8 将堆分为两部分：新生区和陈旧区。当您执行需要 V8 分配内存的操作时，V8 会在新区域中分配空间。当你不断地添加到堆中时，你最终会耗尽内存，所以 V8 将不得不运行一次 GC 来清理。新创建的对象在对象死亡时被快速分配和清理（更短和更快的采集）。一旦对象“存活”了一些（确切地说是 2 个周期）采集扫描周期，它们就会被提升到父区，在一个单独的周期中采集垃圾。
　　较旧的对象是那些在不止一次垃圾采集扫描中幸存下来的对象，这意味着它们仍然被其他对象引用并且仍然需要占用该内存。它们通常不引用较年轻的对象，只引用较旧的对象。主要周期不经常发生。在将足够多的物体移动到旧区域后，通常会发生一个大循环。
　　来源.js
　　本指南来自 lrlna 在 github 上的 sketchin 指南✨。
　　最新版:ArchiveWebpage(网页存档) V0.8.1 官方版
　　ArchiveWebpage 是浏览器的网页存档和扩展类型工具。该工具可以帮助您以扩展的方式归档网页。它非常适合与客户端一起使用。网页内容会在您需要时保存和复制！
　　【软件功能】
　　直接在浏览器中创建高保真网络档案
　　

　　该扩展允许用户直接在浏览器中创建高保真网络档案。
　　启用后，扩展程序“记录”特定选项卡上的网络流量并将数据存储在浏览器中。记录页面显示所有存档页面的列表。
　　该扩展允许用户重播存档网页（使用 replayweb.page 系统）并允许用户以标准 WARC 和新 WACZ 格式导出存档网页。
　　

　　【软件特色】
　　直接记录网页上某段时间的数据
　　随时保存网页上的相关内容
　　以 WARC 和新的 WACZ 格式导出

案例研究:帝国CMS文章页面设置TAGS关键字调用及TAGS静态化规则

采集交流 • 优采云发表了文章 • 0 个评论 • 86 次浏览 • 2022-10-01 05:09 • 来自相关话题

案例研究:帝国CMS文章页面设置TAGS关键字调用及TAGS静态化规则
　　老蒋今天上午在和朋友讨论他的网站布局问题，他是一个范文类网站，采用的是帝国CMS，选择的CMS是比较好的，毕竟大内容是需要帝国CMS或者织梦这样的静态系统，而不是WP这种博客系统。但是有一个问题，他告知帝国的系统问题，无法设置TAG调用，这里简单先找找是不是有类似的办法。
　　第一步、帝国CMS TAG设置
　　1、登录后台，单击【栏目】菜单【TAGS管理】【设置TAGS参数】子菜单，进入设置TAGS参数界面。
　　2、进入设置TAGS参数界面，前台开启TAGS：设置前台/e/tags/页面是否开启使用。
　　默认使用的模板：选择tags的列表模板，这里建议选择和文章一样的列表模板；每页显示信息：设置不指定line情况下默认的每页显示信息数。
　　第二步、帝国CMS TAGS标签调用
　　1、用帝国cms自带的自定义调用工具进行调用：
　　[showtags]分类ID,显示数量,每行显示数量,显示排序,只显示推荐,推荐TAGS属性,显示间隔符,是否显示信息数,链接附加参数,链接使用变量[/showtags]
　　具体参考：模板==》自动生成标签===》调用tags标签模板
　　2、帝国cms使用灵动标签调用当前文章内容tag标签
　　[e:loop={"SELECT*FROMseo_ecms_newsWHEREid="".$navinfor[id].""LIMIT0,30",1,24,0}]
[/e:loop]
　　复制
　　3、帝国CMS灵动标签调用TAGS
　　[e:loop={"select * from [!db.pre!]enewstags order by num desc limit 10",0,24,0}]
</a>
[/e:loop]
　　复制
　　第三步、设置伪静态规则
　　如果我们采用的伪静态，则需要添加伪静态规则。
　　1、Apache
　　检查.htaccess里是否有这个规则
　　#TAGS信息列表页
RewriteCond %{QUERY_STRING} ^(.*)$
RewriteRule ^tags-(.+?)-(.+?)\.html$ /e/tags/index.php?tagname=$1&page=$2
　　复制
　　2、Nginx
　　如果我们是Nginx，需要看下规则里是否有
　　rewrite ^/tags-(.+?)-([0-9]+).html$ /e/tags/index.php?tagname=$1&page=$2 last;
　　复制
　　以上是我们要对帝国CMS设置TAG静态调用的方法。
　　本文出处：老蒋部落 » 帝国CMS文章页面设置TAGS关键字调用及TAGS静态化规则 | 欢迎分享
　　解决方案:小说自动采集网站源码-pc端+独立手机端自适应
　　小说自动采集网站源码-pc端+独立手机端自适应
　　自适应小说自动采集网站源码
　　程序开发：PHP+mysql
　　程序演示： , 账户，密码
　　程序特色：
　　1、小说自动采集；
　　
　　2、小说章节实时更新；
　　3、采集的小说入库，不受源站影响；
　　4、高效储存模式，节约服务器空间使用；
　　程序优点：
　　1、小说自动推送到百度搜索引擎，加快页面收录；
　　2、页面深度优化，合理部署，深受搜索引擎喜爱；
　　3、pc端+独立手机端自适应，全方位满足搜索引擎需求；
　　
　　安装环境推荐：
　　1、空间、服务器均可
　　2、PHP：5.4+
　　3、数据库：mysql5.6+
　　4.安装前先设置thinkphp伪静态
　　5.后台点击批量采集新书，然后批量处理文章，后面都是自动采集查看全部

案例研究:帝国CMS文章页面设置TAGS关键字调用及TAGS静态化规则
　　老蒋今天上午在和朋友讨论他的网站布局问题，他是一个范文类网站，采用的是帝国CMS，选择的CMS是比较好的，毕竟大内容是需要帝国CMS或者织梦这样的静态系统，而不是WP这种博客系统。但是有一个问题，他告知帝国的系统问题，无法设置TAG调用，这里简单先找找是不是有类似的办法。
　　第一步、帝国CMS TAG设置
　　1、登录后台，单击【栏目】菜单【TAGS管理】【设置TAGS参数】子菜单，进入设置TAGS参数界面。
　　2、进入设置TAGS参数界面，前台开启TAGS：设置前台/e/tags/页面是否开启使用。
　　默认使用的模板：选择tags的列表模板，这里建议选择和文章一样的列表模板；每页显示信息：设置不指定line情况下默认的每页显示信息数。
　　第二步、帝国CMS TAGS标签调用
　　1、用帝国cms自带的自定义调用工具进行调用：
　　[showtags]分类ID,显示数量,每行显示数量,显示排序,只显示推荐,推荐TAGS属性,显示间隔符,是否显示信息数,链接附加参数,链接使用变量[/showtags]
　　具体参考：模板==》自动生成标签===》调用tags标签模板
　　2、帝国cms使用灵动标签调用当前文章内容tag标签
　　[e:loop={"SELECT*FROMseo_ecms_newsWHEREid="".$navinfor[id].""LIMIT0,30",1,24,0}]
[/e:loop]
　　复制
　　3、帝国CMS灵动标签调用TAGS
　　[e:loop={"select * from [!db.pre!]enewstags order by num desc limit 10",0,24,0}]
</a>
[/e:loop]
　　复制
　　第三步、设置伪静态规则
　　如果我们采用的伪静态，则需要添加伪静态规则。
　　1、Apache
　　检查.htaccess里是否有这个规则
　　#TAGS信息列表页
RewriteCond %{QUERY_STRING} ^(.*)$
RewriteRule ^tags-(.+?)-(.+?)\.html$ /e/tags/index.php?tagname=$1&page=$2
　　复制
　　2、Nginx
　　如果我们是Nginx，需要看下规则里是否有
　　rewrite ^/tags-(.+?)-([0-9]+).html$ /e/tags/index.php?tagname=$1&page=$2 last;
　　复制
　　以上是我们要对帝国CMS设置TAG静态调用的方法。
　　本文出处：老蒋部落 » 帝国CMS文章页面设置TAGS关键字调用及TAGS静态化规则 | 欢迎分享
　　解决方案:小说自动采集网站源码-pc端+独立手机端自适应
　　小说自动采集网站源码-pc端+独立手机端自适应
　　自适应小说自动采集网站源码
　　程序开发：PHP+mysql
　　程序演示： , 账户，密码
　　程序特色：
　　1、小说自动采集；

　　2、小说章节实时更新；
　　3、采集的小说入库，不受源站影响；
　　4、高效储存模式，节约服务器空间使用；
　　程序优点：
　　1、小说自动推送到百度搜索引擎，加快页面收录；
　　2、页面深度优化，合理部署，深受搜索引擎喜爱；
　　3、pc端+独立手机端自适应，全方位满足搜索引擎需求；
　　

　　安装环境推荐：
　　1、空间、服务器均可
　　2、PHP：5.4+
　　3、数据库：mysql5.6+
　　4.安装前先设置thinkphp伪静态
　　5.后台点击批量采集新书，然后批量处理文章，后面都是自动采集

解决方案:MATLAB调用采集卡实现数据采集

采集交流 • 优采云发表了文章 • 0 个评论 • 406 次浏览 • 2022-10-01 00:29 • 来自相关话题

　　解决方案:MATLAB调用采集卡实现数据采集
　　
　　NI 数据采集卡入门一、安装和配置： 1. 安装板块前，请安装 NI- DAQ 驱动软件。您可以在卡附带的光盘中找到此驱动程序软件。此外， NI 的网站还提供免费下载了该驱动软件： 89？打开文档&node=132070_US 如果您使用 LabVIEW 或 LabWindows/CVI 软件进行编程，则需要在安装驱动软件之前安装开发平台 LabVIEW 或 LabWindows/CVI 软件。在安装过程中，安装程序会提醒您插入 DAQ 驱动程序 CD。2.正确安装了NI-DAQ驱动程序软件，请关闭计算机，将数据插入采集板，启动计算机，然后就可以启动它了
　　
　　秘密武器:自媒体运营必备的6款辅助工具，让运营效率成倍提升
　　无论你是自媒体老鸟还是刚刚进入自媒体行业的新手，在自媒体操作的过程中都需要使用一些辅助工具，今天小编会和大家分享一些网站操作中可能用到的辅助工具和自媒体，有了这些辅助工具，就可以让运营效率成倍增加。
　　
　　1、操作辅助工具 - 易于编写
　　要做自媒体操作我们需要追热点、找材料等，如果没有好的辅助工具就会浪费时间，而且容易编写自媒体工具，基于数据挖掘技术来集成和分析各大自媒体平台的内容，对于自媒体作者在操作过程中需要使用实时的热点跟踪，爆文视频批量采集下载、文章编辑器布局、标题生成和原创检测等服务。
　　
　　2、仔猪的GIF 查看全部

　　解决方案:MATLAB调用采集卡实现数据采集
　　

　　NI 数据采集卡入门一、安装和配置： 1. 安装板块前，请安装 NI- DAQ 驱动软件。您可以在卡附带的光盘中找到此驱动程序软件。此外， NI 的网站还提供免费下载了该驱动软件： 89？打开文档&node=132070_US 如果您使用 LabVIEW 或 LabWindows/CVI 软件进行编程，则需要在安装驱动软件之前安装开发平台 LabVIEW 或 LabWindows/CVI 软件。在安装过程中，安装程序会提醒您插入 DAQ 驱动程序 CD。2.正确安装了NI-DAQ驱动程序软件，请关闭计算机，将数据插入采集板，启动计算机，然后就可以启动它了
　　

　　秘密武器:自媒体运营必备的6款辅助工具，让运营效率成倍提升
　　无论你是自媒体老鸟还是刚刚进入自媒体行业的新手，在自媒体操作的过程中都需要使用一些辅助工具，今天小编会和大家分享一些网站操作中可能用到的辅助工具和自媒体，有了这些辅助工具，就可以让运营效率成倍增加。
　　

　　1、操作辅助工具 - 易于编写
　　要做自媒体操作我们需要追热点、找材料等，如果没有好的辅助工具就会浪费时间，而且容易编写自媒体工具，基于数据挖掘技术来集成和分析各大自媒体平台的内容，对于自媒体作者在操作过程中需要使用实时的热点跟踪，爆文视频批量采集下载、文章编辑器布局、标题生成和原创检测等服务。
　　

　　2、仔猪的GIF

精选文章:【织梦/dedecms 当文章转载时不需要设置图片水印的设置

采集交流 • 优采云发表了文章 • 0 个评论 • 73 次浏览 • 2022-09-29 14:13 • 来自相关话题

精选文章:【织梦/dedecms 当文章转载时不需要设置图片水印的设置
　　织梦dedecms缩写标题调用标签使用指南
　　在使用织梦DEDEcms建站的过程中，为了让被调用的文章的标题简短而相对完整（原标题太长），我们不得不使用调用缩写标题的方法，使标题显示为短标题，指向标题时显示完整标题。并得到文章的静态地址链接我们来看看DEDE织梦cms的简称调用方法：使用的代码如下：复制代码代码如下： {dede :arclist titlelen='60' orderby='pubdate' row='6' typeid='5'}
　　做好织梦dedecms安全防护的所有方法
　　很多同学遇到网站被攻击绞死，而且大部分都不是竞争对手做的。在大多数情况下，黑客使用工具对入侵进行批量扫描。因此，安全防护非常重要。织梦安装时注意：修改默认数据库前缀：在安装dedecms时修改数据库的表前缀，尽量不要使用默认前缀dede_，改其他英文字母小写即可。防止黑客猜测。安装完成后，去掉所有然后带后门和漏洞1.修改默认后台路径：功能：是为了防止黑客猜测你的后台，进行其他操作。进入网站的根目录，可以看到dede文件夹，重命名为But。比如改成礼三宝，
　　织梦dedecms获取当前页面URL地址的调用方法
　　织梦内容页面如何调用当前页面url？相信很多对织梦感兴趣的朋友都会考虑这个问题：在文章的内容中加入本文的链接，除了保护自己的版权，还可以增加外链网站收录。网上有很多帖子，但是大部分只能调用相对地址，还得在前面加一个网站域名，这个方法还可以，但是这个模板会闹是用来建其他网站的，所以不可行。织梦dedecms获取当前页面URL地址的正确方法：在调用相对地址前添加网站根地址标签{dede:global.cfg_basehost/}标签。
　　织梦dedecms数据库结构字段说明-简要说明
　　dede_addonarticle 附加文章表格辅助 int(11) 文章编号 typeid int(11) 类别列号正文 mediumtext 文章内容 dede_addonflash 附加 Flash 表格辅助 int( 11) FLASH number typeid int(11) Category column number filesize varchar(10) File size playtime varchar(10) Playing duration flashtype varchar(10)@ > 工作类型 flashrank smallint(6) 工作排名 wid...
　　织梦Dedecms主文件夹目录及模板文件说明
　　虽然织梦Dedecms曾因为安全问题饱受诟病，但漏洞并不能掩盖漏洞。在用户数量和时间方面，织梦Dedecms是国内排名第一的几款cms建站程序。想要学习cms的二次开发，必须学习织梦Dedecms。对于织梦Dede。以下是默认的织梦Dedecms程序根目录。
　　如何判断网站织梦Dedecms的版本
　　该方法可以确定目标网站使用的是哪个版本的织梦Dedecms，以及应用补丁的日期。在官方版本的 URL 路径后添加 /data/admin/ver.txt 附加历史更新：2010-08-18 安全更新 2010-08-03 安全更新 20100708 是最新版本 5.6 20100324 是5.5 20100429及以后都是5.6版本，对应的日期就是补丁日期，可以知道哪些漏洞没有修复5.6版本更新……
　　织梦德德cms网站内部SEO详解
　　
　　一.确定网站关键词的目标最重要的方面，一般网站首页目标关键词建议1-3个目标。对于目标关键词@的选择有几个建议1.定位：网站内容和业务相关2.分析：用户体验和竞争对手的分析网站@ >3. 筛选：为了优化，如果目标关键词在前三个建议中都达不到，最好不要做，用户目标不强，最好不要做它，并避免行业领导者的目标网站关键词。二.写3个标签1.标题标签：2.关键词标签：3.描述标签：关键词2@>子导航网站二级导航就是加一行target<
　　织梦德德cms技术资料
　　dedecms调用文章方法发布时间11-20 style([field:pubdate function='strftime("%m-%d",@me)'/]) 2009年5月15日 style ([field:pubdate function='strftime("%b %d, %Y",@me)'/]) 2009-12-27 18:30:02 style [field:pubdate function="GetDateTimeMK(@me) "/] 200…
　　织梦Dedecms模板防盗的四种方法
　　织梦(Dedecms) 模板也是一种财富。如果你不希望自己辛辛苦苦的模板被盗，如果网上有一些和自己一模一样的网站，那就需要做好模板了。防小偷。本文采集自网上，但网络版没有提供通过Nginx 301重定向实现dedecms模板防盗和403文件禁止实现织梦模板防盗的方法。以下是织梦模板防盗的四种方法，希望对大家有所帮助。1.系统文件修复方法系统文件修复方法这个方法好像比较麻烦一点。也需要对织梦(Dedecms)系统有一定的熟悉度，才建议这样做……
　　热点话题
　　SpringMVC上传csv文件
　　使用 while 语句求 1 100 的累积和
　　如何检索 git 已删除工作区的内容
　　网易 duilib 运行 vs
　　2015无法卸载，提示安装包丢失或损坏
　　grafana api获取监视器图像
　　Android googlemap 搜索附近
　　
　　Android仿生开源
　　ubuntu usb驱动没有权限
　　特征计数的注释文件
　　ssh 连接到 linux
　　WPF序列化控制xaml
　　mssql 调试触发器
　　如何解决source insight中文评论显示乱码
　　thinkphp5.1 加载资源文件常量
　　github android发光动画
　　DESTOON在后台取shell
　　python中类继承对象和不继承的区别
　　c# Lucene全文搜索
　　先docker mount再下载
　　推荐文章:红队信息搜集工具（附下载地址）
　　ratel(獾) 是一个由rust开发的信息搜集工具，专注web资产发现，支持从fofa，zoomeye API查询，提供详细的配置参数，可靠，可以从错误中恢复查询，自动去重。
　　同时也支持主动扫描端口，探测http，提取https证书中域名。
　　
　　ratel 提供细粒度的http poc探测模块，支持多请求的poc，利用自定义正则表达式提取响应内容并作为后续请求的变量。ratel输出格式为csv。
　　下载及详细用法地址：
　　
　　好文推荐
　　欢迎关注系统安全运维查看全部

　　精选文章:【织梦/dedecms 当文章转载时不需要设置图片水印的设置
　　织梦dedecms缩写标题调用标签使用指南
　　在使用织梦DEDEcms建站的过程中，为了让被调用的文章的标题简短而相对完整（原标题太长），我们不得不使用调用缩写标题的方法，使标题显示为短标题，指向标题时显示完整标题。并得到文章的静态地址链接我们来看看DEDE织梦cms的简称调用方法：使用的代码如下：复制代码代码如下： {dede :arclist titlelen='60' orderby='pubdate' row='6' typeid='5'}
　　做好织梦dedecms安全防护的所有方法
　　很多同学遇到网站被攻击绞死，而且大部分都不是竞争对手做的。在大多数情况下，黑客使用工具对入侵进行批量扫描。因此，安全防护非常重要。织梦安装时注意：修改默认数据库前缀：在安装dedecms时修改数据库的表前缀，尽量不要使用默认前缀dede_，改其他英文字母小写即可。防止黑客猜测。安装完成后，去掉所有然后带后门和漏洞1.修改默认后台路径：功能：是为了防止黑客猜测你的后台，进行其他操作。进入网站的根目录，可以看到dede文件夹，重命名为But。比如改成礼三宝，
　　织梦dedecms获取当前页面URL地址的调用方法
　　织梦内容页面如何调用当前页面url？相信很多对织梦感兴趣的朋友都会考虑这个问题：在文章的内容中加入本文的链接，除了保护自己的版权，还可以增加外链网站收录。网上有很多帖子，但是大部分只能调用相对地址，还得在前面加一个网站域名，这个方法还可以，但是这个模板会闹是用来建其他网站的，所以不可行。织梦dedecms获取当前页面URL地址的正确方法：在调用相对地址前添加网站根地址标签{dede:global.cfg_basehost/}标签。
　　织梦dedecms数据库结构字段说明-简要说明
　　dede_addonarticle 附加文章表格辅助 int(11) 文章编号 typeid int(11) 类别列号正文 mediumtext 文章内容 dede_addonflash 附加 Flash 表格辅助 int( 11) FLASH number typeid int(11) Category column number filesize varchar(10) File size playtime varchar(10) Playing duration flashtype varchar(10)@ > 工作类型 flashrank smallint(6) 工作排名 wid...
　　织梦Dedecms主文件夹目录及模板文件说明
　　虽然织梦Dedecms曾因为安全问题饱受诟病，但漏洞并不能掩盖漏洞。在用户数量和时间方面，织梦Dedecms是国内排名第一的几款cms建站程序。想要学习cms的二次开发，必须学习织梦Dedecms。对于织梦Dede。以下是默认的织梦Dedecms程序根目录。
　　如何判断网站织梦Dedecms的版本
　　该方法可以确定目标网站使用的是哪个版本的织梦Dedecms，以及应用补丁的日期。在官方版本的 URL 路径后添加 /data/admin/ver.txt 附加历史更新：2010-08-18 安全更新 2010-08-03 安全更新 20100708 是最新版本 5.6 20100324 是5.5 20100429及以后都是5.6版本，对应的日期就是补丁日期，可以知道哪些漏洞没有修复5.6版本更新……
　　织梦德德cms网站内部SEO详解
　　

一.确定网站关键词的目标最重要的方面，一般网站首页目标关键词建议1-3个目标。对于目标关键词@的选择有几个建议1.定位：网站内容和业务相关2.分析：用户体验和竞争对手的分析网站@ >3. 筛选：为了优化，如果目标关键词在前三个建议中都达不到，最好不要做，用户目标不强，最好不要做它，并避免行业领导者的目标网站关键词。二.写3个标签1.标题标签：2.关键词标签：3.描述标签：关键词2@>子导航网站二级导航就是加一行target<
　　织梦德德cms技术资料
　　dedecms调用文章方法发布时间11-20 style([field:pubdate function='strftime("%m-%d",@me)'/]) 2009年5月15日 style ([field:pubdate function='strftime("%b %d, %Y",@me)'/]) 2009-12-27 18:30:02 style [field:pubdate function="GetDateTimeMK(@me) "/] 200…
　　织梦Dedecms模板防盗的四种方法
　　织梦(Dedecms) 模板也是一种财富。如果你不希望自己辛辛苦苦的模板被盗，如果网上有一些和自己一模一样的网站，那就需要做好模板了。防小偷。本文采集自网上，但网络版没有提供通过Nginx 301重定向实现dedecms模板防盗和403文件禁止实现织梦模板防盗的方法。以下是织梦模板防盗的四种方法，希望对大家有所帮助。1.系统文件修复方法系统文件修复方法这个方法好像比较麻烦一点。也需要对织梦(Dedecms)系统有一定的熟悉度，才建议这样做……
　　热点话题
　　SpringMVC上传csv文件
　　使用 while 语句求 1 100 的累积和
　　如何检索 git 已删除工作区的内容
　　网易 duilib 运行 vs
　　2015无法卸载，提示安装包丢失或损坏
　　grafana api获取监视器图像
　　Android googlemap 搜索附近

　　Android仿生开源
　　ubuntu usb驱动没有权限
　　特征计数的注释文件
　　ssh 连接到 linux
　　WPF序列化控制xaml
　　mssql 调试触发器
　　如何解决source insight中文评论显示乱码
　　thinkphp5.1 加载资源文件常量
　　github android发光动画
　　DESTOON在后台取shell
　　python中类继承对象和不继承的区别
　　c# Lucene全文搜索
　　先docker mount再下载
　　推荐文章:红队信息搜集工具（附下载地址）
　　ratel(獾) 是一个由rust开发的信息搜集工具，专注web资产发现，支持从fofa，zoomeye API查询，提供详细的配置参数，可靠，可以从错误中恢复查询，自动去重。
　　同时也支持主动扫描端口，探测http，提取https证书中域名。
　　

　　ratel 提供细粒度的http poc探测模块，支持多请求的poc，利用自定义正则表达式提取响应内容并作为后续请求的变量。ratel输出格式为csv。
　　下载及详细用法地址：
　　

　　好文推荐
　　欢迎关注系统安全运维

解决方案:抖音数据采集教程，Android群控黑盒调用，Sekiro使用手册

采集交流 • 优采云发表了文章 • 0 个评论 • 235 次浏览 • 2022-09-27 17:15 • 来自相关话题

解决方案:抖音数据采集教程，Android群控黑盒调用，Sekiro使用手册
　　抖音资料采集教程，Android群控黑盒调用，Sekiro手册0x0前言
　　之前试过用virjar的hermesagent，后来老大基于长链接迭代了一个新的只狼。我一直想看它，但被推迟了。今天正好抽空试了一下，顺便写了个笔记。有错误。各位大侠请指正
　　0x1只狼简介
　　SEKIRO是android下的API服务暴露框架，可用于app反向、app数据抓取、android群控等场景
　　与其他群控框架相比，特点如下：
　　只狼架构
　　server:
暴露一个TCP端口和两个HTTP端口
管理通过TCP连接的client和user发来的http 请求
client:
通过TCP和server连接，响应server发来的请求

工作流程是这样的：
1. client通过TCP和server建立长连接
2. user发送http请求给server
3. server根据用户发来的http请求的参数，通过TCP将请求转发给client
4. client收到请求并响应server
5. server将从client收到的请求返回给user
　　具体可以看项目的readme，很详细：项目传送门
　　0x2 服务器部署
　　server端在`sekiro-server/src/main/resources/appliation.properties`中可以配置三个服务端端口, 主要服务端安全策略的出入口需要开放这个三个端口
#tomcat 占用端口
server.port=5602
#长链接服务占用端口
natServerPort=5600
# 异步http占用端口
natHttpServerPort=5601
# websocket占用端口
webSocketServerPort=5603

如果自定义端口,client需要调用SekiroClient.start(String serverHost, int serverPort, final String clientID, String group)中去连接server
　　执行命令：./gradlew sekiro-server:bootJar 在 sekiro-server/build/libs/sekiro-server-0.0.1-SNAPSHOT.jar 中查找 all-in-one jar包
　　
　　0x3 客户端
　　public class MainActivity extends AppCompatActivity {

public static int Add(int n1, int n2)
{
return n1 + n2;
}

@Override
protected void onCreate(Bundle savedInstanceState) {
super.onCreate(savedInstanceState);
setContentView(R.layout.activity_main);

Toast.makeText(MainActivity.this, "3 + 2 = " + Add(3, 2), Toast.LENGTH_LONG).show();
}
}
　　Log.i(TAG, "connect server....");
//服务端host
String testHost = "your_host";
//客户端标识
String clientId = UUID.randomUUID().toString();
//接口组名称
String groupName = "addDemoTest2";
//暴露的接口名称
String actionName = "myAdd";
//拿classloader
clzLoader = lpparam.classLoader;

//连接服务端并且注册处理的handler
SekiroClient.start(testHost, clientId, groupName)
.registerHandler(actionName, new SekiroRequestHandler(){
@Override

public void handleRequest(SekiroRequest sekiroRequest, SekiroResponse sekiroResponse){

//当服务端分配任务时, 这里处理逻辑, 并把结果返回给服务端, 服务端再返回给调用者
Class clz = XposedHelpers.findClass("com.example.administrator.adddemo.MainActivity", clzLoader);
int arg1 = sekiroRequest.getInt("arg1");
int arg2 = sekiroRequest.getInt("arg2");
Log.i(TAG, String.format("arg1 : %d, arg2 : %d", arg1, arg2));
Object result = XposedHelpers.callStaticMethod(clz, "Add", arg1, arg2);
Log.i(TAG, "result : " + result);
sekiroResponse.success(result);
}

});
　　//build.gradle里android{}添加错误的path

packagingOptions {
exclude 'META-INF/DEPENDENCIES'
exclude 'META-INF/INDEX.LIST'
exclude ('META-INF/io.netty.versions.properties')
}
　　0x4 尝试调用
　　格式: your_server_ip:[natHttpServerPort]/[invoke_type]?group=[group_id]&action=[action_name]&param1=[arg]

例子: https://x.x.x.x:5602/asyncInvo ... 3D300
　　感谢和参考
　　只狼练习
　　更多短视频数据实时采集接口请查看文档：TiToData
　　免责声明：本文档仅供学习参考，请勿用于非法用途！否则后果自负。
　　程序员信标
　　转载请注明原文链接：抖音资料采集教程、Android群控黑盒调用、Sekiro用户手册
　　教程:抖音采集工具更新了
　　我几天前发布了这个工具，但是有人说它不起作用，有人说它不起作用。我今天查了一下。作者更新了，更新的工具更好用。作者软件更新地址：，访问密码：52pj
　　
　　该软件非常易于使用：
　　先复制抖音链接，然后点击“添加采集”，将抖音链接复制进去，点击“保存”。
　　
　　然后点击“开始采集”，软件会自动启动到采集，采集下载完成后会弹出完成对话框。
　　请说明，我不是软件作者，如果您对使用该软件有任何疑问，请不要问我。本软件移至我爱论坛()。您可以在五爱论坛搜索“抖音采集tools”找到软件作者。查看全部

　　解决方案:抖音数据采集教程，Android群控黑盒调用，Sekiro使用手册
　　抖音资料采集教程，Android群控黑盒调用，Sekiro手册0x0前言
　　之前试过用virjar的hermesagent，后来老大基于长链接迭代了一个新的只狼。我一直想看它，但被推迟了。今天正好抽空试了一下，顺便写了个笔记。有错误。各位大侠请指正
　　0x1只狼简介
　　SEKIRO是android下的API服务暴露框架，可用于app反向、app数据抓取、android群控等场景
　　与其他群控框架相比，特点如下：
　　只狼架构
　　server:
暴露一个TCP端口和两个HTTP端口
管理通过TCP连接的client和user发来的http 请求
client:
通过TCP和server连接，响应server发来的请求

工作流程是这样的：
1. client通过TCP和server建立长连接
2. user发送http请求给server
3. server根据用户发来的http请求的参数，通过TCP将请求转发给client
4. client收到请求并响应server
5. server将从client收到的请求返回给user
　　具体可以看项目的readme，很详细：项目传送门
　　0x2 服务器部署
　　server端在`sekiro-server/src/main/resources/appliation.properties`中可以配置三个服务端端口, 主要服务端安全策略的出入口需要开放这个三个端口
#tomcat 占用端口
server.port=5602
#长链接服务占用端口
natServerPort=5600
# 异步http占用端口
natHttpServerPort=5601
# websocket占用端口
webSocketServerPort=5603

如果自定义端口,client需要调用SekiroClient.start(String serverHost, int serverPort, final String clientID, String group)中去连接server
　　执行命令：./gradlew sekiro-server:bootJar 在 sekiro-server/build/libs/sekiro-server-0.0.1-SNAPSHOT.jar 中查找 all-in-one jar包
　　

0x3 客户端
　　public class MainActivity extends AppCompatActivity {

public static int Add(int n1, int n2)
{
return n1 + n2;
}

@Override
protected void onCreate(Bundle savedInstanceState) {
super.onCreate(savedInstanceState);
setContentView(R.layout.activity_main);

Toast.makeText(MainActivity.this, "3 + 2 = " + Add(3, 2), Toast.LENGTH_LONG).show();
}
}
　　Log.i(TAG, "connect server....");
//服务端host
String testHost = "your_host";
//客户端标识
String clientId = UUID.randomUUID().toString();
//接口组名称
String groupName = "addDemoTest2";
//暴露的接口名称
String actionName = "myAdd";
//拿classloader
clzLoader = lpparam.classLoader;

//连接服务端并且注册处理的handler
SekiroClient.start(testHost, clientId, groupName)
.registerHandler(actionName, new SekiroRequestHandler(){
@Override

public void handleRequest(SekiroRequest sekiroRequest, SekiroResponse sekiroResponse){

//当服务端分配任务时, 这里处理逻辑, 并把结果返回给服务端, 服务端再返回给调用者
Class clz = XposedHelpers.findClass("com.example.administrator.adddemo.MainActivity", clzLoader);
int arg1 = sekiroRequest.getInt("arg1");
int arg2 = sekiroRequest.getInt("arg2");
Log.i(TAG, String.format("arg1 : %d, arg2 : %d", arg1, arg2));
Object result = XposedHelpers.callStaticMethod(clz, "Add", arg1, arg2);
Log.i(TAG, "result : " + result);
sekiroResponse.success(result);
}

});
　　//build.gradle里android{}添加错误的path

packagingOptions {
exclude 'META-INF/DEPENDENCIES'
exclude 'META-INF/INDEX.LIST'
exclude ('META-INF/io.netty.versions.properties')
}
　　0x4 尝试调用
　　格式: your_server_ip:[natHttpServerPort]/[invoke_type]?group=[group_id]&action=[action_name]&param1=[arg]

例子: https://x.x.x.x:5602/asyncInvo ... 3D300
　　感谢和参考
　　只狼练习
　　更多短视频数据实时采集接口请查看文档：TiToData
　　免责声明：本文档仅供学习参考，请勿用于非法用途！否则后果自负。
　　程序员信标
　　转载请注明原文链接：抖音资料采集教程、Android群控黑盒调用、Sekiro用户手册
　　教程:抖音采集工具更新了
　　我几天前发布了这个工具，但是有人说它不起作用，有人说它不起作用。我今天查了一下。作者更新了，更新的工具更好用。作者软件更新地址：，访问密码：52pj

　　该软件非常易于使用：
　　先复制抖音链接，然后点击“添加采集”，将抖音链接复制进去，点击“保存”。
　　

　　然后点击“开始采集”，软件会自动启动到采集，采集下载完成后会弹出完成对话框。
　　请说明，我不是软件作者，如果您对使用该软件有任何疑问，请不要问我。本软件移至我爱论坛()。您可以在五爱论坛搜索“抖音采集tools”找到软件作者。

技巧:Java性能分析神器-JProfiler详解

采集交流 • 优采云发表了文章 • 0 个评论 • 157 次浏览 • 2022-09-27 12:19 • 来自相关话题

　　技巧:Java性能分析神器-JProfiler详解
　　偶然在云栖社区发现有人推荐Jprofiler，我就安装了版本使用。首先声明本软件为商用，不建议大家使用破解版！
　　让我们开始我们的 Jprofiler 之旅吧。
　　一.什么是JProfiler
　　JProfiler 是由 ej-technologies GmbH 开发的性能瓶颈分析工具（该公司还开发部署工具）。
　　特点：
　　二.数据采集
　　Q1.既然JProfiler是一个性能瓶颈分析工具，那么这些分析的相关数据是从哪里来的呢？
　　Q2. JProfiler 如何采集和呈现这些数据？
　　A1.分析的数据主要来自以下两部分
　　1.部分分析接口来自jvm **JVMTI**(JVM Tool Interface)，JDK必须>=1.6
　　JVMTI 是一个基于事件的系统。分析代理库可以为不同的事件注册处理函数。然后它可以启用或禁用选定的事件
　　例如：对象生命周期、线程生命周期等信息
　　2.部分来自instruments类（可以理解为类的重写，增加了JProfiler相关的统计函数）
　　例如：方法执行时间、次数、方法栈等信息
　　A2.数据采集原理如图2所示
　　
　　1. 用户在 JProfiler GUI 中发出监控命令（通常通过单击按钮）
　　2. JProfiler GUI JVM 通过 socket（默认端口 8849).
　　向被分析 jvm 中的 JProfile Agent 发送指令
　　3. JProfiler Agent（如果对Agent不清楚，请看文章Part 3“启动模式”）收到指令后，将指令转换成相关事件或需要执行的指令被监听注册去JVMTI或者直接让JVMTI执行一个功能（比如dump jvm内存）
　　4. JVMTI 根据注册的事件采集当前 jvm 的信息。例如：线程的生命周期； jvm的生命周期；类的生命周期；对象实例的生命周期；堆内存等实时信息。
　　5. JProfiler Agent 将采集好的信息保存在**内存**中，并按照一定的规则进行统计（如果所有数据都发送到 JProfiler GUI 中，它会比较分析的应用网络大影响）
　　6. 返回 JProfiler GUI Socket。
　　7. JProfiler GUI Socket 将接收到的信息返回给 JProfiler GUI Render
　　8. JProfiler GUI Render 渲染最终显示效果
　　三.数据采集模式和启动模式
　　A1.JProfier采集有两种方式：采样（Sampling采集）和Instrumentation
　　注意：JProfiler 本身并不表示采集类型的数据，这里的采集类型是采集类型用于方法调用。因为JProfiler的大部分核心功能都依赖于方法调用采集的数据，所以可以直接认为是JProfiler的数据采集类型。
　　A2：启动模式：
　　四. JProfiler核心概念Filter：需要分析什么类。收录和不收录两种类型的过滤器。
　　
　　Profiling Settings: Receipt 采集 strategy: Sampling and Instrumentation, 部分数据采集细节可定制。
　　触发器：一般在**离线**模式下使用，告诉JProfiler Agent什么时候触发什么行为来采集指定信息。
　　Live memory：关于类/类实例的信息。比如对象的个数和大小，对象创建的方法执行栈，对象创建的热点。
　　Heap walker：静态分析一定时间内采集到的内存对象信息，功能强大，好用。收录对象的传出引用、传入引用、最大对象等
　　CPU视图：CPU消耗分布和时间（cpu时间或运行时间）；方法执行图；方法执行统计（最大值、最小值、平均运行时间等）
　　Thread：当前jvm所有线程的运行状态，持有锁的线程的状态，可以dump线程。
　　监视器和锁：所有线程都持有锁和锁信息
　　Telemetries：趋势图（遥测视图），包括堆、线程、gc、类等。
　　空间有限。我将在这里介绍jprofiler。以后会分享更多的工作内容。有兴趣的朋友可以关注！！
　　技巧:如何写一篇高质量有利于SEO优化的文章？
　　做SEO不仅需要分析网站的结构、流量、关键词、搜索引擎爬取等数据，SEO人经常做的一件事就是定期发布和更新文章的内容。做SEO的都知道，发布的内容文章不能过多的复制粘贴别人的文章内容，这样会让搜索引擎觉得本站的内容已经是别人的了，所以它不会访问该网站，该网站的内容也不会被抓取。如果过于频繁地复制别人的信息，对SEO优化是最不利的。所以，想要网站排名高且稳定，发布的文章肯定比原创文章好，偶尔有的伪原创也可以。
　　原创文章够用了，但是不明显，如何快速写出有利于SEO的优质文章？写一个文章并不难，写一个文章既浪费时间又无聊，所以很多 SEO 很难坚持原创的内容。但是，如果掌握好方法，对行业有深入的了解，参考一些好的同行网站文章，借鉴别人的写法，还是可以写出高质量的对 SEO 有益的文章文章。跟着双思网小编一起来学习如何写出高质量的SEO文章。
　　一、什么文章对SEO优化好
　　1、段落清晰，文字间距合理，图文协调。
　　2、文章逻辑清晰，对用户有一定的价值，吸引用户阅读。
　　3、文章原创，有图有文，有自己的看法。
　　4、主体清晰，关键词合理部署文章。
　　5、文章清晰易读。
　　
　　如果你写SEO文章并按照上面的要求进行编辑，对SEO优化是非常有利的。文章原创、文章有价值，可以吸引用户阅读。这篇文章是 SEO文章的核心。当然，如果想让这个文章被搜索引擎抓取，有图有文，合理的分布也是必不可少的。
　　二、如何快速写一篇SEO文章文章
　　1、了解行业
　　要想写出好的文章，就必须做市场调研，而好的SEO文章也离不开对行业的了解。如果一个人连行业都不了解，很难写出适合这个行业的文章。而如果你不了解这个行业，你就不知道用户的需求在哪里。写文章就是为用户写，根据用户的需要写，让文章能提升网站的质量。
　　2、分析对等站点
　　写出高质量的文章，离不开分析同行的高质量文章。我们可以分析同行文章的优质站点，找到更多的同行文章进行分析，整理成自己的想法，随着时间的推移形成自己的特色，这样就可以快速写出优质文章文章。
　　3、文章标题
　　作为一名SEO文章，不仅内容精彩，标题也很重要。一个好的标题在SEO优化中起着至关重要的作用。对于用户来说，一个好的文章标题可以吸引用户阅读。对于搜索引擎来说，一个好的标题对于搜索爬取排名至关重要，而关键词布局至关重要。
　　
　　4、段落清晰，逻辑清晰
　　一个好的文章必须有清晰的段落和逻辑思维。这样，写一篇文章文章就变得简单了。如果你遵循逻辑思维，思维就会清晰，写文章的时间会变得更快。
　　5、关键词布局
　　一个好的seo文章不同于平时的文章，seo文章要能够被搜索引擎抓取，并给出排名来提高整体网站质量，为此，写出来的文章也需要合理分配文章topics关键词，这个关键词可以告诉搜索引擎这个文章@的核心> 是什么。
　　6、插图和文字
　　一个好的文章不可能全是文字，需要一张合理的图片才能让整个文章更加生动。这样的一段内容可以吸引用户留下脚步和浏览。文章，可以证明用户喜欢，用户喜欢，搜索引擎喜欢，搜索引擎喜欢，自然排名还不错，目的是提升网站@的整体排名> 可以实现。
　　综上所述，通过这种方法，何愁写不出高质量的SEO文章。简单来说，写一篇高质量的文章文章需要符合用户体验，这样文章才能吸引用户阅读，而了解用户需求是seo的核心。查看全部

　　技巧:Java性能分析神器-JProfiler详解
　　偶然在云栖社区发现有人推荐Jprofiler，我就安装了版本使用。首先声明本软件为商用，不建议大家使用破解版！
　　让我们开始我们的 Jprofiler 之旅吧。
　　一.什么是JProfiler
　　JProfiler 是由 ej-technologies GmbH 开发的性能瓶颈分析工具（该公司还开发部署工具）。
　　特点：
　　二.数据采集
　　Q1.既然JProfiler是一个性能瓶颈分析工具，那么这些分析的相关数据是从哪里来的呢？
　　Q2. JProfiler 如何采集和呈现这些数据？
　　A1.分析的数据主要来自以下两部分
　　1.部分分析接口来自jvm **JVMTI**(JVM Tool Interface)，JDK必须>=1.6
　　JVMTI 是一个基于事件的系统。分析代理库可以为不同的事件注册处理函数。然后它可以启用或禁用选定的事件
　　例如：对象生命周期、线程生命周期等信息
　　2.部分来自instruments类（可以理解为类的重写，增加了JProfiler相关的统计函数）
　　例如：方法执行时间、次数、方法栈等信息
　　A2.数据采集原理如图2所示
　　

　　1. 用户在 JProfiler GUI 中发出监控命令（通常通过单击按钮）
　　2. JProfiler GUI JVM 通过 socket（默认端口 8849).
　　向被分析 jvm 中的 JProfile Agent 发送指令
　　3. JProfiler Agent（如果对Agent不清楚，请看文章Part 3“启动模式”）收到指令后，将指令转换成相关事件或需要执行的指令被监听注册去JVMTI或者直接让JVMTI执行一个功能（比如dump jvm内存）
　　4. JVMTI 根据注册的事件采集当前 jvm 的信息。例如：线程的生命周期； jvm的生命周期；类的生命周期；对象实例的生命周期；堆内存等实时信息。
　　5. JProfiler Agent 将采集好的信息保存在**内存**中，并按照一定的规则进行统计（如果所有数据都发送到 JProfiler GUI 中，它会比较分析的应用网络大影响）
　　6. 返回 JProfiler GUI Socket。
　　7. JProfiler GUI Socket 将接收到的信息返回给 JProfiler GUI Render
　　8. JProfiler GUI Render 渲染最终显示效果
　　三.数据采集模式和启动模式
　　A1.JProfier采集有两种方式：采样（Sampling采集）和Instrumentation
　　注意：JProfiler 本身并不表示采集类型的数据，这里的采集类型是采集类型用于方法调用。因为JProfiler的大部分核心功能都依赖于方法调用采集的数据，所以可以直接认为是JProfiler的数据采集类型。
　　A2：启动模式：
　　四. JProfiler核心概念Filter：需要分析什么类。收录和不收录两种类型的过滤器。
　　

　　Profiling Settings: Receipt 采集 strategy: Sampling and Instrumentation, 部分数据采集细节可定制。
　　触发器：一般在**离线**模式下使用，告诉JProfiler Agent什么时候触发什么行为来采集指定信息。
　　Live memory：关于类/类实例的信息。比如对象的个数和大小，对象创建的方法执行栈，对象创建的热点。
　　Heap walker：静态分析一定时间内采集到的内存对象信息，功能强大，好用。收录对象的传出引用、传入引用、最大对象等
　　CPU视图：CPU消耗分布和时间（cpu时间或运行时间）；方法执行图；方法执行统计（最大值、最小值、平均运行时间等）
　　Thread：当前jvm所有线程的运行状态，持有锁的线程的状态，可以dump线程。
　　监视器和锁：所有线程都持有锁和锁信息
　　Telemetries：趋势图（遥测视图），包括堆、线程、gc、类等。
　　空间有限。我将在这里介绍jprofiler。以后会分享更多的工作内容。有兴趣的朋友可以关注！！
　　技巧:如何写一篇高质量有利于SEO优化的文章？
　　做SEO不仅需要分析网站的结构、流量、关键词、搜索引擎爬取等数据，SEO人经常做的一件事就是定期发布和更新文章的内容。做SEO的都知道，发布的内容文章不能过多的复制粘贴别人的文章内容，这样会让搜索引擎觉得本站的内容已经是别人的了，所以它不会访问该网站，该网站的内容也不会被抓取。如果过于频繁地复制别人的信息，对SEO优化是最不利的。所以，想要网站排名高且稳定，发布的文章肯定比原创文章好，偶尔有的伪原创也可以。
　　原创文章够用了，但是不明显，如何快速写出有利于SEO的优质文章？写一个文章并不难，写一个文章既浪费时间又无聊，所以很多 SEO 很难坚持原创的内容。但是，如果掌握好方法，对行业有深入的了解，参考一些好的同行网站文章，借鉴别人的写法，还是可以写出高质量的对 SEO 有益的文章文章。跟着双思网小编一起来学习如何写出高质量的SEO文章。
　　一、什么文章对SEO优化好
　　1、段落清晰，文字间距合理，图文协调。
　　2、文章逻辑清晰，对用户有一定的价值，吸引用户阅读。
　　3、文章原创，有图有文，有自己的看法。
　　4、主体清晰，关键词合理部署文章。
　　5、文章清晰易读。
　　

　　如果你写SEO文章并按照上面的要求进行编辑，对SEO优化是非常有利的。文章原创、文章有价值，可以吸引用户阅读。这篇文章是 SEO文章的核心。当然，如果想让这个文章被搜索引擎抓取，有图有文，合理的分布也是必不可少的。
　　二、如何快速写一篇SEO文章文章
　　1、了解行业
　　要想写出好的文章，就必须做市场调研，而好的SEO文章也离不开对行业的了解。如果一个人连行业都不了解，很难写出适合这个行业的文章。而如果你不了解这个行业，你就不知道用户的需求在哪里。写文章就是为用户写，根据用户的需要写，让文章能提升网站的质量。
　　2、分析对等站点
　　写出高质量的文章，离不开分析同行的高质量文章。我们可以分析同行文章的优质站点，找到更多的同行文章进行分析，整理成自己的想法，随着时间的推移形成自己的特色，这样就可以快速写出优质文章文章。
　　3、文章标题
　　作为一名SEO文章，不仅内容精彩，标题也很重要。一个好的标题在SEO优化中起着至关重要的作用。对于用户来说，一个好的文章标题可以吸引用户阅读。对于搜索引擎来说，一个好的标题对于搜索爬取排名至关重要，而关键词布局至关重要。
　　

　　4、段落清晰，逻辑清晰
　　一个好的文章必须有清晰的段落和逻辑思维。这样，写一篇文章文章就变得简单了。如果你遵循逻辑思维，思维就会清晰，写文章的时间会变得更快。
　　5、关键词布局
　　一个好的seo文章不同于平时的文章，seo文章要能够被搜索引擎抓取，并给出排名来提高整体网站质量，为此，写出来的文章也需要合理分配文章topics关键词，这个关键词可以告诉搜索引擎这个文章@的核心> 是什么。
　　6、插图和文字
　　一个好的文章不可能全是文字，需要一张合理的图片才能让整个文章更加生动。这样的一段内容可以吸引用户留下脚步和浏览。文章，可以证明用户喜欢，用户喜欢，搜索引擎喜欢，搜索引擎喜欢，自然排名还不错，目的是提升网站@的整体排名> 可以实现。
　　综上所述，通过这种方法，何愁写不出高质量的SEO文章。简单来说，写一篇高质量的文章文章需要符合用户体验，这样文章才能吸引用户阅读，而了解用户需求是seo的核心。

文章采集调用深圳品牌推广哪家好深圳品牌推广哪里找

采集交流 • 优采云发表了文章 • 0 个评论 • 110 次浏览 • 2022-09-20 21:39 • 来自相关话题

　　文章采集调用深圳品牌推广哪家好深圳品牌推广哪里找
　　随着百度的算法不断更新，SEO站长工具也对词库算法进行了升级，细心的人们可能会发现，现在很多站点的词库都得到了大幅提升，并且排名也更加精准了，能给优化人员们提供更精准的参考依据，那么在现今的优化过程中，深圳网络推广又该如何通过坚持新的文章生成方法来让流量暴涨呢？
　　
　　1、自动生成文章程序和样板
　　通过自己写了个php自动处理文章的程序，其原理就是自己动手采集一些与关键词相关的文章，然后通过PHP程序进行以分号，句号等来分割成一句句话，然后输出到一个文本里面。然后通过另外一个php程序进行随机调用，形成每篇文章3个段落的模板。
　　
　　2、大量拓展相关长尾词，坚持每日发布
　　深圳网络推广表示可以根据网站以及采集文章的主要核心内容，进行挖掘相关关键词，并进行更合理的拓展，然后每天就坚持按照相关的关键词长尾词做标题进行更新网站，但也要注意进行语句的检查通顺等。
　　现在做网站SEO优化越来越不容易，竞争力也越来越大，深圳网络推广的优化人员们也要不断地学习和探索新的优化方法，来对优化进行不断地调整，帮助网站排名越来越好。查看全部

　　文章采集调用深圳品牌推广哪家好深圳品牌推广哪里找
　　随着百度的算法不断更新，SEO站长工具也对词库算法进行了升级，细心的人们可能会发现，现在很多站点的词库都得到了大幅提升，并且排名也更加精准了，能给优化人员们提供更精准的参考依据，那么在现今的优化过程中，深圳网络推广又该如何通过坚持新的文章生成方法来让流量暴涨呢？
　　

　　1、自动生成文章程序和样板
　　通过自己写了个php自动处理文章的程序，其原理就是自己动手采集一些与关键词相关的文章，然后通过PHP程序进行以分号，句号等来分割成一句句话，然后输出到一个文本里面。然后通过另外一个php程序进行随机调用，形成每篇文章3个段落的模板。
　　

　　2、大量拓展相关长尾词，坚持每日发布
　　深圳网络推广表示可以根据网站以及采集文章的主要核心内容，进行挖掘相关关键词，并进行更合理的拓展，然后每天就坚持按照相关的关键词长尾词做标题进行更新网站，但也要注意进行语句的检查通顺等。
　　现在做网站SEO优化越来越不容易，竞争力也越来越大，深圳网络推广的优化人员们也要不断地学习和探索新的优化方法，来对优化进行不断地调整，帮助网站排名越来越好。

python网络爬虫开发之爬虫的开发--整理与实战

采集交流 • 优采云发表了文章 • 0 个评论 • 72 次浏览 • 2022-09-17 09:01 • 来自相关话题

　　python网络爬虫开发之爬虫的开发--整理与实战
　　文章采集调用十多个网站（包括个人博客）采集的内容，内容包括wp-cruiser爬虫基础算法与深度学习+tensorflow机器学习。这里关于wp-cruiser安装，这篇已经有详细介绍，网上有具体的安装教程，可以搜索了解下。主要的原理是基于wp-cruiser算法实现的。我们更关心的是最终效果如何？源代码和相关解释在cookiefailures.py文件，放在我的github地址。
　　
　　这个文件源码，之前已经放到github上，代码打算公开，并统一按照doc格式提交。github地址：yaw-zhang/wp-cruiser项目部署请参考链接。
　　被采集对象（即知乎）采用多站点-多触点方式进行采集。本文已获得作者授权，希望对学习python爬虫或者python爬虫开发感兴趣的朋友，能够认真阅读本文，在这里把本人的总结提炼下，分享给大家。python网络爬虫开发之爬虫的开发--整理与实战。整理与实战可以加入爬虫开发从0到1的实战训练营，有兴趣的同学，可以加入。
　　
　　一.思维导图本项目整体结构为：urllib/requests库获取登录页面的url，利用beautifulsoup库解析页面获取行政区划信息gb/tm字段解析与组合批量采集行政区划信息selenium库用于模拟登录抓取页面bs4解析页面页面vs.post请求，爬虫的正确姿势及爬虫开发框架与任务分配。二.本文主要解决几个问题1.爬虫采集哪些网站？2.爬虫如何解析页面?3.如何将爬取到的网站页面在requests中封装为field？三.实现结构1.urllib库登录/授权/登录方式（ssl，和session，cookie）2.beautifulsoup库爬取/解析请求相关页面3.爬虫解析爬取页面4.抓取登录页面5.获取授权登录页面6.获取行政区划信息/local_map页面7.抓取获取group_name页面8.抓取获取指定区划页面9.爬取post请求信息的信息。
　　5.有几个请求？分别包括哪些参数，请求会不会被封ip?6.请求参数中传递了哪些参数？请求间有什么联系？7.登录登录成功返回url请求后还是不能登录或者登录成功后不能解析页面.登录成功后会不会成功授权获取登录相关信息然后就不能登录，或者授权获取之后又不能抓取相关信息等问题.1.用登录登录看似简单，但是爬虫未必好爬取，毕竟不是全自动登录。
　　一般采用几种：初始化自动登录；二次登录第三方登录；手动登录+授权登录。2.获取登录页面，一般根据浏览器实现，分为基于get请求登录和post请求登录。举个例子：requests请求登录，要做的事情，比如设置头、响应验证码、验证码破解等，数据格式是xml，所以需要转成json。并且会生成封装的x。查看全部

　　python网络爬虫开发之爬虫的开发--整理与实战
　　文章采集调用十多个网站（包括个人博客）采集的内容，内容包括wp-cruiser爬虫基础算法与深度学习+tensorflow机器学习。这里关于wp-cruiser安装，这篇已经有详细介绍，网上有具体的安装教程，可以搜索了解下。主要的原理是基于wp-cruiser算法实现的。我们更关心的是最终效果如何？源代码和相关解释在cookiefailures.py文件，放在我的github地址。
　　

　　这个文件源码，之前已经放到github上，代码打算公开，并统一按照doc格式提交。github地址：yaw-zhang/wp-cruiser项目部署请参考链接。
　　被采集对象（即知乎）采用多站点-多触点方式进行采集。本文已获得作者授权，希望对学习python爬虫或者python爬虫开发感兴趣的朋友，能够认真阅读本文，在这里把本人的总结提炼下，分享给大家。python网络爬虫开发之爬虫的开发--整理与实战。整理与实战可以加入爬虫开发从0到1的实战训练营，有兴趣的同学，可以加入。
　　

　　一.思维导图本项目整体结构为：urllib/requests库获取登录页面的url，利用beautifulsoup库解析页面获取行政区划信息gb/tm字段解析与组合批量采集行政区划信息selenium库用于模拟登录抓取页面bs4解析页面页面vs.post请求，爬虫的正确姿势及爬虫开发框架与任务分配。二.本文主要解决几个问题1.爬虫采集哪些网站？2.爬虫如何解析页面?3.如何将爬取到的网站页面在requests中封装为field？三.实现结构1.urllib库登录/授权/登录方式（ssl，和session，cookie）2.beautifulsoup库爬取/解析请求相关页面3.爬虫解析爬取页面4.抓取登录页面5.获取授权登录页面6.获取行政区划信息/local_map页面7.抓取获取group_name页面8.抓取获取指定区划页面9.爬取post请求信息的信息。
　　5.有几个请求？分别包括哪些参数，请求会不会被封ip?6.请求参数中传递了哪些参数？请求间有什么联系？7.登录登录成功返回url请求后还是不能登录或者登录成功后不能解析页面.登录成功后会不会成功授权获取登录相关信息然后就不能登录，或者授权获取之后又不能抓取相关信息等问题.1.用登录登录看似简单，但是爬虫未必好爬取，毕竟不是全自动登录。
　　一般采用几种：初始化自动登录；二次登录第三方登录；手动登录+授权登录。2.获取登录页面，一般根据浏览器实现，分为基于get请求登录和post请求登录。举个例子：requests请求登录，要做的事情，比如设置头、响应验证码、验证码破解等，数据格式是xml，所以需要转成json。并且会生成封装的x。

文章采集调用外贸b2b海外采购退税c2c收款行香港对公账户提现

采集交流 • 优采云发表了文章 • 0 个评论 • 132 次浏览 • 2022-09-16 14:04 • 来自相关话题

　　文章采集调用外贸b2b海外采购退税c2c收款行香港对公账户提现
　　文章采集调用固定ip，但是不能采集国内外的信息，需要采集国外的信息是因为，开通外贸b2b海外采购退税提供中国的站点，能实现支付宝跨境收款，将国外收取到的款项通过支付宝转到国内账户，实现c2c收款方式，那么，
　　1、在产品详情页面，
　　2、填写收款公司，
　　3、填写收款金额
　　
　　4、填写收款账号信息
　　5、填写收款公司邮箱，请告知对方邮箱地址，
　　6、确认后，即可收款国外网站的款项，并且无法将款项退回国内对账户。
　　需要谨慎操作，
　　1、国外收款公司是否与amazon、亚马逊，
　　
　　2、国外收款公司提供的银行账号信息，
　　3、国外收款公司提供的收款账号，是否为visa、mastercard等国际收单公司，
　　4、国外收款公司的提现账号信息是否一致
　　5、国外收款公司是否支持中国卖家账号提现
　　6、国外收款公司的官网有无支付宝收款二维码
　　我们是可以支持香港云平台收款的。收款行香港对公账户，云平台会给推荐多家香港银行机构的合作资格。国内支付平台收款也支持香港对公账户提现到公司账户，国内不支持跨境支付。查看全部

　　文章采集调用外贸b2b海外采购退税c2c收款行香港对公账户提现
　　文章采集调用固定ip，但是不能采集国内外的信息，需要采集国外的信息是因为，开通外贸b2b海外采购退税提供中国的站点，能实现支付宝跨境收款，将国外收取到的款项通过支付宝转到国内账户，实现c2c收款方式，那么，
　　1、在产品详情页面，
　　2、填写收款公司，
　　3、填写收款金额
　　

　　4、填写收款账号信息
　　5、填写收款公司邮箱，请告知对方邮箱地址，
　　6、确认后，即可收款国外网站的款项，并且无法将款项退回国内对账户。
　　需要谨慎操作，
　　1、国外收款公司是否与amazon、亚马逊，
　　

　　2、国外收款公司提供的银行账号信息，
　　3、国外收款公司提供的收款账号，是否为visa、mastercard等国际收单公司，
　　4、国外收款公司的提现账号信息是否一致
　　5、国外收款公司是否支持中国卖家账号提现
　　6、国外收款公司的官网有无支付宝收款二维码
　　我们是可以支持香港云平台收款的。收款行香港对公账户，云平台会给推荐多家香港银行机构的合作资格。国内支付平台收款也支持香港对公账户提现到公司账户，国内不支持跨境支付。

Golang性能分析工具pprof使用总结

采集交流 • 优采云发表了文章 • 0 个评论 • 103 次浏览 • 2022-08-31 10:01 • 来自相关话题

Golang性能分析工具pprof使用总结
　　pprof是Golang自带的一款开箱即用的性能监控和分析工具, 使用非常简单方便。
　　1. pprof使用
　　pprof使用主要有两种方式，一种是在项目中导入runtime/pprof，另一种是导入net/http/pprof, 两者的差异如下：
　　使用示例如下:
　　1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 
　　package main import ( "fmt" "os" "runtime/pprof" "time" ) func main() { // 创建分析文件 file, err := os.Create("./cpu.prof") if err != nil { fmt.Printf("创建采集文件失败, err:%v\n", err) return } // 进行cpu数据的获取 pprof.StartCPUProfile(file) defer pprof.StopCPUProfile() time.Sleep(10 * time.Second) } 
　　之后通过命令行分析cpu.prof文件进行性能分析，由于该方式使用不多，这里不进行深度总结，感兴趣可以查阅相关文章，这次我们重点总结http形式采集数据。
　　http形式使用十分简单，importnet/http/pprof即可，会自动调用package里面的init方法，进行初始化，如下：
　　1 2 3 4 5 
　　import _ "net/http/pprof" go func() { http.ListenAndServe("localhost:8080", nil) }()
　　之后就可以通过:8080/debug/pprof/[类型]获取对应的采样数据。支持的”[类型]”有:
　　类型描述
　　allocs
　　内存分配情况的采样信息
　　blocks
　　阻塞操作情况的采样信息
　　cmdline
　　显示程序启动命令参数及其参数
　　goroutine
　　显示当前所有协程的堆栈信息
　　heap
　　堆上的内存分配情况的采样信息
　　mutex
　　锁竞争情况的采样信息
　　profile
　　cpu占用情况的采样信息，点击会下载文件
　　threadcreate
　　系统线程创建情况的采样信息
　　trace
　　程序运行跟踪信息
　　
　　重点我们关注以下几种类型:
　　2. 分析实践2.1 CPU使用分析
　　通过以下命令分析CPU使用情况。
　　1 
　　go tool pprof http://localhost:8080/debug/pprof/profile
　　等待30秒后，执行top命令可以看到如下结果:
　　先简单了解一下结果中flat,sum,cum的含义:
　　类型描述举例
　　flat
　　该函数占用CPU的耗时
　　selectnbrecv占用CPU的耗时是12.29s
　　flat%
　　该函数占用CPU的耗时的百分比
　　selectnbrecv耗时：12.29s，cpu总耗时：29.14，12.29/29.14=42.18
　　sum%
　　top命令中排在它上面的函数以及本函数flat%之和
　　chanrecv：42.18%+30.47% = 72.65%
　　cum
　　当前函数加上该函数调用之前的累计CPU耗时
　　chanrecv：8.88+0.54=9.42
　　cum%
　　当前函数加上该函数调用之前的累计CPU耗时的百分比
　　9.42/29.14=32.33%
　　通过以上结果，我们可以看到占用CPU比较高的方法，接下来可以通过list WirteString(list+方法名)查看占用CPU最高的方法代码明细:
　　通过代码明细我们可以看到，字符串拼接占用的CPU资源最多，可以针对这行代码进行优化。
　　2.2 内存使用分析
　　内存使用分析我们可以直接在网页上点击heap标签进行查看，如下:
　　
　　直接在网页上查看并不是特别便利，一般情况下我们采用go tool pprof命令下载Profile采样文件进行可视化分析, 可采用如下命令:
　　1 
　　go tool pprof --http=:1234 go tool pprof http://localhost:8080/debug/pprof/heap 
　　以上命令会打开一个网页，页面效果如下:
　　左上的下拉条可以选择不同的可视化方式查看不同的数据:
　　选项卡SAMPLE中space相关是展示内存大小，单位是Byte；而objects相关展示的对象，单位是个，是有差异的。例如inuse_space展示的是现在正在使用的内存，被分配但是还没有被释放，alloc_space展示的是程序启动到现在的分配内存，包括那些已经被释放的内存，我们一般用这个来定位代码中创建临时变量的大户;
　　通过VIEW选项卡，我们可以切换不同的视图形式来查看分析结果。
　　Top
　　源码形式
　　火焰图形式
　　2.3 协程分析
　　协程分析我们可以直接在网页上点击goroutine标签进行查看, 也可以采用go tool pprof命令下载采样文件进行可视化分析。
　　在goroutine分析页面我们可以看到协程数量和每个方法产生的协程数量。
　　1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 
　　goroutine profile: total 108 83 @ 0x438196 0x40666c 0x406098 0xc10cbd 0x4687c1 # 0xc10cbc jzserver/core/os/gtimer.(*Timer).loop.func1+0x7c /Documents/gotest/core/os/gtimer/gtimer_timer_loop.go:15 11 @ 0x438196 0x447f32 0x91ac0c 0x4687c1 # 0x91ac0b jzserver/core/net/gnet.(*MsgHandler).startOneWorker+0xab /Documents/gotest/core/net/gnet/gnet_msg_handler.go:76 1 @ 0x40bb54 0x464f18 0xc13279 0x4687c1 # 0x464f17 os/signal.signal_recv+0x97 /go/go1.17.6/src/runtime/sigqueue.go:169 # 0xc13278 os/signal.loop+0x18 /go/go1.17.6/src/os/signal/signal_unix.go:24 1 @ 0x438196 0x40666c 0x406098 0xc1509c 0xd8a1a5 0x437dc7 0x4687c1 # 0xc1509b jzserver/main/internal.WaitStopSignal+0xbb /Documents/gotest/main/internal/signal.go:15 # 0xd8a1a4 main.main+0x144 /Documents/gotest/main/game_server.go:75 # 0x437dc6 runtime.main+0x226 /go/go1.17.6/src/runtime/proc.go:255 1 @ 0x438196 0x40666c 0x406098 0xc1536c 0x4687c1 # 0xc1536b jzserver/main/internal.WaitReloadConfigSignal.func1+0x2b /Documents/gotest/main/internal/signal.go:47 1 @ 0x438196 0x40666c 0x4060d8 0xc45431 0x4687c1 # 0xc45430 jzserver/core/net/gwebsocket.(*Server).Run+0x30 /Documents/gotest/core/net/gwebsocket/gwebsocket_server.go:152 1 @ 0x438196 0x430813 0x463069 0x4cecf2 0x4d005a 0x4d0048 0x5f5829 0x602685 0x4abb3a 0xc0c1d3 0xc0c1ae 0x4687c1 # 0x463068 internal/poll.runtime_pollWait+0x88 /go/go1.17.6/src/runtime/netpoll.go:234 # 0x4cecf1 internal/poll.(*pollDesc).wait+0x31 /go/go1.17.6/src/internal/poll/fd_poll_runtime.go:84 # 0x4d0059 internal/poll.(*pollDesc).waitRead+0x259 /go/go1.17.6/src/internal/poll/fd_poll_runtime.go:89 # 0x4d0047 internal/poll.(*FD).Read+0x247 /go/go1.17.6/src/internal/poll/fd_unix.go:167 # 0x5f5828 net.(*netFD).Read+0x28 /go/go1.17.6/src/net/fd_posix.go:56 # 0x602684 net.(*conn).Read+0x44 /go/go1.17.6/src/net/net.go:183 # 0x4abb39 io.ReadAtLeast+0x99 /go/go1.17.6/src/io/io.go:328 # 0xc0c1d2 io.ReadFull+0x132 /go/go1.17.6/src/io/io.go:347 # 0xc0c1ad jzserver/core/net/gtcp.(*Connection).StartReader+0x10d /Documents/gotest/core/net/gtcp/gtcp_connection.go:100 1 @ 0x438196 0x430813 0x463069 0x4cecf2 0x4d005a 0x4d0048 0x5f5829 0x602685 0x6c57df 0x4687c1 # 0x463068 internal/poll.runtime_pollWait+0x88 /go/go1.17.6/src/runtime/netpoll.go:234 # 0x4cecf1 internal/poll.(*pollDesc).wait+0x31 /go/go1.17.6/src/internal/poll/fd_poll_runtime.go:84 # 0x4d0059 internal/poll.(*pollDesc).waitRead+0x259 /go/go1.17.6/src/internal/poll/fd_poll_runtime.go:89 # 0x4d0047 internal/poll.(*FD).Read+0x247 /go/go1.17.6/src/internal/poll/fd_unix.go:167 # 0x5f5828 net.(*netFD).Read+0x28 /go/go1.17.6/src/net/fd_posix.go:56 # 0x602684 net.(*conn).Read+0x44 /go/go1.17.6/src/net/net.go:183 # 0x6c57de net/http.(*connReader).backgroundRead+0x3e /go/go1.17.6/src/net/http/server.go:672 
　　我们将链接后面的debug=1改为debug=2(以unrecovered panic的格式打印堆栈，可读性更高)，可以见到各协程等待时长，可用于分析goroutine泄漏
　　1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 
　　goroutine 57914819 [running]: runtime/pprof.writeGoroutineStacks({0x10a4760, 0xc000990fc0}) /gotest/go1.17.6/src/runtime/pprof/pprof.go:693 +0x70 runtime/pprof.writeGoroutine({0x10a4760, 0xc000990fc0}, 0x0) /gotest/go1.17.6/src/runtime/pprof/pprof.go:682 +0x2b runtime/pprof.(*Profile).WriteTo(0xeadca0, {0x10a4760, 0xc000990fc0}, 0xc) /gotest/go1.17.6/src/runtime/pprof/pprof.go:331 +0x14b net/http/pprof.handler.ServeHTTP({0xc000952191, 0x1822580}, {0x10bd528, 0xc000990fc0}, 0xc000952184) /gotest/go1.17.6/src/net/http/pprof/pprof.go:253 +0x49a net/http/pprof.Index({0x10bd528, 0xc000990fc0}, 0xc000ca8300) /gotest/go1.17.6/src/net/http/pprof/pprof.go:371 +0x12e net/http.HandlerFunc.ServeHTTP(0x0, {0x10bd528, 0xc000990fc0}, 0x0) /gotest/go1.17.6/src/net/http/server.go:2047 +0x2f net/http.(*ServeMux).ServeHTTP(0xc00095219b, {0x10bd528, 0xc000990fc0}, 0xc000ca8300) /gotest/go1.17.6/src/net/http/server.go:2425 +0x149 net/http.serverHandler.ServeHTTP({0xc00168d800}, {0x10bd528, 0xc000990fc0}, 0xc000ca8300) /gotest/go1.17.6/src/net/http/server.go:2879 +0x43b net/http.(*conn).serve(0xc0015f5220, {0x10c06c0, 0xc000472210}) /gotest/go1.17.6/src/net/http/server.go:1930 +0xb08 created by net/http.(*Server).Serve /gotest/go1.17.6/src/net/http/server.go:3034 +0x4e8 goroutine 1 [chan receive, 7547 minutes]: jzserver/main/internal.WaitStopSignal() /gotest/main/internal/signal.go:15 +0xbc main.main() /gotest/main/game_server.go:75 +0x145 goroutine 50 [select, 48 minutes]: database/sql.(*DB).connectionCleaner(0xc0000a24e0, 0xc0001ca8d0) /gotest/go1.17.6/src/database/sql/sql.go:1068 +0xbd created by database/sql.(*DB).startCleanerLocked /gotest/go1.17.6/src/database/sql/sql.go:1055 +0x105 goroutine 49 [chan receive]: jzserver/core/os/gtimer.(*Timer).loop.func1() /gotest/core/os/gtimer/gtimer_timer_loop.go:15 +0x7d created by jzserver/core/os/gtimer.(*Timer).loop /gotest/core/os/gtimer/gtimer_timer_loop.go:7 +0x5b goroutine 6 [select, 7547 minutes]: database/sql.(*DB).connectionOpener(0xc0000a24e0, {0x10c0618, 0xc00021c440}) /gotest/go1.17.6/src/database/sql/sql.go:1196 +0x93 created by database/sql.OpenDB /gotest/go1.17.6/src/database/sql/sql.go:794 +0x188
　　3. 其他总结
　　1 
　　brew install graphviz 
　　其他系统安装参考Graphviz Download。查看全部

Golang性能分析工具pprof使用总结
　　pprof是Golang自带的一款开箱即用的性能监控和分析工具, 使用非常简单方便。
　　1. pprof使用
　　pprof使用主要有两种方式，一种是在项目中导入runtime/pprof，另一种是导入net/http/pprof, 两者的差异如下：
　　使用示例如下:
　　1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 
　　package main import ( "fmt" "os" "runtime/pprof" "time" ) func main() { // 创建分析文件 file, err := os.Create("./cpu.prof") if err != nil { fmt.Printf("创建采集文件失败, err:%v\n", err) return } // 进行cpu数据的获取 pprof.StartCPUProfile(file) defer pprof.StopCPUProfile() time.Sleep(10 * time.Second) } 
　　之后通过命令行分析cpu.prof文件进行性能分析，由于该方式使用不多，这里不进行深度总结，感兴趣可以查阅相关文章，这次我们重点总结http形式采集数据。
　　http形式使用十分简单，importnet/http/pprof即可，会自动调用package里面的init方法，进行初始化，如下：
　　1 2 3 4 5 
　　import _ "net/http/pprof" go func() { http.ListenAndServe("localhost:8080", nil) }()
　　之后就可以通过:8080/debug/pprof/[类型]获取对应的采样数据。支持的”[类型]”有:
　　类型描述
　　allocs
　　内存分配情况的采样信息
　　blocks
　　阻塞操作情况的采样信息
　　cmdline
　　显示程序启动命令参数及其参数
　　goroutine
　　显示当前所有协程的堆栈信息
　　heap
　　堆上的内存分配情况的采样信息
　　mutex
　　锁竞争情况的采样信息
　　profile
　　cpu占用情况的采样信息，点击会下载文件
　　threadcreate
　　系统线程创建情况的采样信息
　　trace
　　程序运行跟踪信息

重点我们关注以下几种类型:
　　2. 分析实践2.1 CPU使用分析
　　通过以下命令分析CPU使用情况。
　　1 
　　go tool pprof http://localhost:8080/debug/pprof/profile
　　等待30秒后，执行top命令可以看到如下结果:
　　先简单了解一下结果中flat,sum,cum的含义:
　　类型描述举例
　　flat
　　该函数占用CPU的耗时
　　selectnbrecv占用CPU的耗时是12.29s
　　flat%
　　该函数占用CPU的耗时的百分比
　　selectnbrecv耗时：12.29s，cpu总耗时：29.14，12.29/29.14=42.18
　　sum%
　　top命令中排在它上面的函数以及本函数flat%之和
　　chanrecv：42.18%+30.47% = 72.65%
　　cum
　　当前函数加上该函数调用之前的累计CPU耗时
　　chanrecv：8.88+0.54=9.42
　　cum%
　　当前函数加上该函数调用之前的累计CPU耗时的百分比
　　9.42/29.14=32.33%
　　通过以上结果，我们可以看到占用CPU比较高的方法，接下来可以通过list WirteString(list+方法名)查看占用CPU最高的方法代码明细:
　　通过代码明细我们可以看到，字符串拼接占用的CPU资源最多，可以针对这行代码进行优化。
　　2.2 内存使用分析
　　内存使用分析我们可以直接在网页上点击heap标签进行查看，如下:

直接在网页上查看并不是特别便利，一般情况下我们采用go tool pprof命令下载Profile采样文件进行可视化分析, 可采用如下命令:
　　1 
　　go tool pprof --http=:1234 go tool pprof http://localhost:8080/debug/pprof/heap 
　　以上命令会打开一个网页，页面效果如下:
　　左上的下拉条可以选择不同的可视化方式查看不同的数据:
　　选项卡SAMPLE中space相关是展示内存大小，单位是Byte；而objects相关展示的对象，单位是个，是有差异的。例如inuse_space展示的是现在正在使用的内存，被分配但是还没有被释放，alloc_space展示的是程序启动到现在的分配内存，包括那些已经被释放的内存，我们一般用这个来定位代码中创建临时变量的大户;
　　通过VIEW选项卡，我们可以切换不同的视图形式来查看分析结果。
　　Top
　　源码形式
　　火焰图形式
　　2.3 协程分析
　　协程分析我们可以直接在网页上点击goroutine标签进行查看, 也可以采用go tool pprof命令下载采样文件进行可视化分析。
　　在goroutine分析页面我们可以看到协程数量和每个方法产生的协程数量。
　　1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 
　　goroutine profile: total 108 83 @ 0x438196 0x40666c 0x406098 0xc10cbd 0x4687c1 # 0xc10cbc jzserver/core/os/gtimer.(*Timer).loop.func1+0x7c /Documents/gotest/core/os/gtimer/gtimer_timer_loop.go:15 11 @ 0x438196 0x447f32 0x91ac0c 0x4687c1 # 0x91ac0b jzserver/core/net/gnet.(*MsgHandler).startOneWorker+0xab /Documents/gotest/core/net/gnet/gnet_msg_handler.go:76 1 @ 0x40bb54 0x464f18 0xc13279 0x4687c1 # 0x464f17 os/signal.signal_recv+0x97 /go/go1.17.6/src/runtime/sigqueue.go:169 # 0xc13278 os/signal.loop+0x18 /go/go1.17.6/src/os/signal/signal_unix.go:24 1 @ 0x438196 0x40666c 0x406098 0xc1509c 0xd8a1a5 0x437dc7 0x4687c1 # 0xc1509b jzserver/main/internal.WaitStopSignal+0xbb /Documents/gotest/main/internal/signal.go:15 # 0xd8a1a4 main.main+0x144 /Documents/gotest/main/game_server.go:75 # 0x437dc6 runtime.main+0x226 /go/go1.17.6/src/runtime/proc.go:255 1 @ 0x438196 0x40666c 0x406098 0xc1536c 0x4687c1 # 0xc1536b jzserver/main/internal.WaitReloadConfigSignal.func1+0x2b /Documents/gotest/main/internal/signal.go:47 1 @ 0x438196 0x40666c 0x4060d8 0xc45431 0x4687c1 # 0xc45430 jzserver/core/net/gwebsocket.(*Server).Run+0x30 /Documents/gotest/core/net/gwebsocket/gwebsocket_server.go:152 1 @ 0x438196 0x430813 0x463069 0x4cecf2 0x4d005a 0x4d0048 0x5f5829 0x602685 0x4abb3a 0xc0c1d3 0xc0c1ae 0x4687c1 # 0x463068 internal/poll.runtime_pollWait+0x88 /go/go1.17.6/src/runtime/netpoll.go:234 # 0x4cecf1 internal/poll.(*pollDesc).wait+0x31 /go/go1.17.6/src/internal/poll/fd_poll_runtime.go:84 # 0x4d0059 internal/poll.(*pollDesc).waitRead+0x259 /go/go1.17.6/src/internal/poll/fd_poll_runtime.go:89 # 0x4d0047 internal/poll.(*FD).Read+0x247 /go/go1.17.6/src/internal/poll/fd_unix.go:167 # 0x5f5828 net.(*netFD).Read+0x28 /go/go1.17.6/src/net/fd_posix.go:56 # 0x602684 net.(*conn).Read+0x44 /go/go1.17.6/src/net/net.go:183 # 0x4abb39 io.ReadAtLeast+0x99 /go/go1.17.6/src/io/io.go:328 # 0xc0c1d2 io.ReadFull+0x132 /go/go1.17.6/src/io/io.go:347 # 0xc0c1ad jzserver/core/net/gtcp.(*Connection).StartReader+0x10d /Documents/gotest/core/net/gtcp/gtcp_connection.go:100 1 @ 0x438196 0x430813 0x463069 0x4cecf2 0x4d005a 0x4d0048 0x5f5829 0x602685 0x6c57df 0x4687c1 # 0x463068 internal/poll.runtime_pollWait+0x88 /go/go1.17.6/src/runtime/netpoll.go:234 # 0x4cecf1 internal/poll.(*pollDesc).wait+0x31 /go/go1.17.6/src/internal/poll/fd_poll_runtime.go:84 # 0x4d0059 internal/poll.(*pollDesc).waitRead+0x259 /go/go1.17.6/src/internal/poll/fd_poll_runtime.go:89 # 0x4d0047 internal/poll.(*FD).Read+0x247 /go/go1.17.6/src/internal/poll/fd_unix.go:167 # 0x5f5828 net.(*netFD).Read+0x28 /go/go1.17.6/src/net/fd_posix.go:56 # 0x602684 net.(*conn).Read+0x44 /go/go1.17.6/src/net/net.go:183 # 0x6c57de net/http.(*connReader).backgroundRead+0x3e /go/go1.17.6/src/net/http/server.go:672 
　　我们将链接后面的debug=1改为debug=2(以unrecovered panic的格式打印堆栈，可读性更高)，可以见到各协程等待时长，可用于分析goroutine泄漏
　　1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 
　　goroutine 57914819 [running]: runtime/pprof.writeGoroutineStacks({0x10a4760, 0xc000990fc0}) /gotest/go1.17.6/src/runtime/pprof/pprof.go:693 +0x70 runtime/pprof.writeGoroutine({0x10a4760, 0xc000990fc0}, 0x0) /gotest/go1.17.6/src/runtime/pprof/pprof.go:682 +0x2b runtime/pprof.(*Profile).WriteTo(0xeadca0, {0x10a4760, 0xc000990fc0}, 0xc) /gotest/go1.17.6/src/runtime/pprof/pprof.go:331 +0x14b net/http/pprof.handler.ServeHTTP({0xc000952191, 0x1822580}, {0x10bd528, 0xc000990fc0}, 0xc000952184) /gotest/go1.17.6/src/net/http/pprof/pprof.go:253 +0x49a net/http/pprof.Index({0x10bd528, 0xc000990fc0}, 0xc000ca8300) /gotest/go1.17.6/src/net/http/pprof/pprof.go:371 +0x12e net/http.HandlerFunc.ServeHTTP(0x0, {0x10bd528, 0xc000990fc0}, 0x0) /gotest/go1.17.6/src/net/http/server.go:2047 +0x2f net/http.(*ServeMux).ServeHTTP(0xc00095219b, {0x10bd528, 0xc000990fc0}, 0xc000ca8300) /gotest/go1.17.6/src/net/http/server.go:2425 +0x149 net/http.serverHandler.ServeHTTP({0xc00168d800}, {0x10bd528, 0xc000990fc0}, 0xc000ca8300) /gotest/go1.17.6/src/net/http/server.go:2879 +0x43b net/http.(*conn).serve(0xc0015f5220, {0x10c06c0, 0xc000472210}) /gotest/go1.17.6/src/net/http/server.go:1930 +0xb08 created by net/http.(*Server).Serve /gotest/go1.17.6/src/net/http/server.go:3034 +0x4e8 goroutine 1 [chan receive, 7547 minutes]: jzserver/main/internal.WaitStopSignal() /gotest/main/internal/signal.go:15 +0xbc main.main() /gotest/main/game_server.go:75 +0x145 goroutine 50 [select, 48 minutes]: database/sql.(*DB).connectionCleaner(0xc0000a24e0, 0xc0001ca8d0) /gotest/go1.17.6/src/database/sql/sql.go:1068 +0xbd created by database/sql.(*DB).startCleanerLocked /gotest/go1.17.6/src/database/sql/sql.go:1055 +0x105 goroutine 49 [chan receive]: jzserver/core/os/gtimer.(*Timer).loop.func1() /gotest/core/os/gtimer/gtimer_timer_loop.go:15 +0x7d created by jzserver/core/os/gtimer.(*Timer).loop /gotest/core/os/gtimer/gtimer_timer_loop.go:7 +0x5b goroutine 6 [select, 7547 minutes]: database/sql.(*DB).connectionOpener(0xc0000a24e0, {0x10c0618, 0xc00021c440}) /gotest/go1.17.6/src/database/sql/sql.go:1196 +0x93 created by database/sql.OpenDB /gotest/go1.17.6/src/database/sql/sql.go:794 +0x188
　　3. 其他总结
　　1 
　　brew install graphviz 
　　其他系统安装参考Graphviz Download。

你有真正了解过国产开源框架APM工具——SkyWalking技术有多牛吗

采集交流 • 优采云发表了文章 • 0 个评论 • 135 次浏览 • 2022-08-31 09:56 • 来自相关话题

　　你有真正了解过国产开源框架APM工具——SkyWalking技术有多牛吗
　　◆SkyWalking技术
　　SkyWalking是国内一个开源并提交到Apache孵化器的产品，是用于收集、分析、聚合、可视化来自不同服务和本地基础服务的数据的可视化的平台。SkyWalking提供了一个可以对分布式系统甚至是跨云服务有清晰了解的简单方法。SkyWalking符合OpenTracing规范，同时提供更加现代化、炫酷的UI，可以更加直观地监控应用。SkyWalking的官方架构如下图所示。
　　整个系统分为三部分。
　　SkyWalking符合OpenTracing规范，调用链采集数据格式如下。
　　
　　◆SkyWalking接入介绍
　　Idea本地启动：
　　使用jar方式启动：
　　
　　SkyWalking的TraceID与日志组件（Log4j、Logback、ELK等）的集成：
　　SkyWalking的页面展示，以及整体服务调用情况统计DashBoard，如下图所示。
　　调用链详细信息展示，如下图所示。
　　监控系统按照原理和作用大致可以分为三类：度量类（Metrics）、日志类（Log）、调用链类（Tracing）。对于不同的监控对象和监控数据类型，需要采用对应的技术栈和监控手段。对于Spring Boot微服务架构，除了开发框架自带的生产就绪组件能够支持服务的健康状态指标查询，我们还需要引入第三方ELK框架作为日志监控组件，与Zipkin和SkyWalking等组件共同实现调用链监控。查看全部

　　你有真正了解过国产开源框架APM工具——SkyWalking技术有多牛吗
　　◆SkyWalking技术
　　SkyWalking是国内一个开源并提交到Apache孵化器的产品，是用于收集、分析、聚合、可视化来自不同服务和本地基础服务的数据的可视化的平台。SkyWalking提供了一个可以对分布式系统甚至是跨云服务有清晰了解的简单方法。SkyWalking符合OpenTracing规范，同时提供更加现代化、炫酷的UI，可以更加直观地监控应用。SkyWalking的官方架构如下图所示。
　　整个系统分为三部分。
　　SkyWalking符合OpenTracing规范，调用链采集数据格式如下。
　　

　　◆SkyWalking接入介绍
　　Idea本地启动：
　　使用jar方式启动：
　　

　　SkyWalking的TraceID与日志组件（Log4j、Logback、ELK等）的集成：
　　SkyWalking的页面展示，以及整体服务调用情况统计DashBoard，如下图所示。
　　调用链详细信息展示，如下图所示。
　　监控系统按照原理和作用大致可以分为三类：度量类（Metrics）、日志类（Log）、调用链类（Tracing）。对于不同的监控对象和监控数据类型，需要采用对应的技术栈和监控手段。对于Spring Boot微服务架构，除了开发框架自带的生产就绪组件能够支持服务的健康状态指标查询，我们还需要引入第三方ELK框架作为日志监控组件，与Zipkin和SkyWalking等组件共同实现调用链监控。

【实务操作】外部数据：用信息不对称解决审计信息不对称

采集交流 • 优采云发表了文章 • 0 个评论 • 87 次浏览 • 2022-08-23 13:40 • 来自相关话题

　　【实务操作】外部数据：用信息不对称解决审计信息不对称
　　导读
　　数字化审计的基石
　　数据是数字化审计的基石，思路实现、模型训练、结果验证、问题支撑等都离不开数据。
　　数据都是从具体的活动或场景中产生后，通过各种技术抽取、存储下来的。
　　数据抽取过程是降维的过程，剥离了场景的细节，而审计人员分析和应用数据的过程是个升维的过程，基于个人能力、判断和模型假设等进行场景还原。这个还原过程，很容易受到审计人员个人主观经验和经历的影响。
　　正确认识数据、准确判断数据来源、客观评价数据价值，对数字化审计工作很重要。
　　是否具有对数据所在场景的认知，数据的来源是否可靠等等，对审计分析或风险判断的全面性、准确性影响很大。
　　从内部审计的角度，数据按照来源的不同可以分为内部数据和外部数据。
　　1内部数据
　　内部数据是公司内部的经营管理过程中生成的数据，一般来自于业务系统、数据仓库、被审计对象提供的数据包等。
　　在数字化审计过程中，内部数据面临的最大难点是如何克服“数据孤岛”，进行字段映射，多源数据融合。
　　2外部数据
　　外部数据是公司经营管理之外及所处环境中相关的数据。
　　外部数据主要来源有互联网上的以网页形式展现的公开信息、开源数据集、商业付费数据和政府开放共享的数据。
　　利用信息不对称
　　
　　由于行为主体根据不同的目的，总是会选择不同的信息展现方式，不同的方式和内容间存在的差异就是矛盾所在，也就是审计可以关注的触点。
　　在数字化审计过程中，外部数据可以帮助审计人员扩展信息的边界。
　　很多时候利用行为主体在内外部数据中表现出来的不对称，通过外部数据和内部数据的交叉验证、“碰库”，往往会有很多重要发现。
　　举个例子，仓库的保管员在从仓库中顺出重要零配件或成品时，会最大程度掩盖信息，不让人知道其拿出的产品名称、规格型号等。但其顺出成品的目的是为了出售获利，在闲鱼等二手交易平台上，其会选择最大程度展现信息，吸引更多的卖家。
　　注意到这个信息不对称的情况，就可以使用网页数据采集工具从二手交易平台上获得相关公司产品的交易情况，内外部数据相结合，反向进行追踪。
　　网页背后的“交互”
　　1所见
　　当我们在浏览器（Edge、Firefox、Chrome、Safari等）地址栏中输入一个网址后，浏览器就向目标网站的Web服务器发出一个HTTP报文请求（Request），目标网站的Web服务器经过校验确认是一个正常的请求后，将请求的页面文件（包含图片、链接等资源）返回给浏览器（Response），浏览器收到返回的数据后，调用网页文件解析内核进行渲染，显示在浏览器窗口中。
　　（图源：wiki）
　　打开浏览器如Edge，按F12键（其他浏览器也是这个快捷键），进入浏览器的“开发人员工具”界面。
　　在浏览器窗口的右侧就会出现“开发人员工具”操作区域，在这个区域中可以浏览、跟踪、调试、分析浏览器和Web服务器的HTTP报文交互。
　　HTTP报文一般可以分为报文首部（Header）和报文主体（Body）两块。报文首部包含Web服务器或浏览器需处理的请求或响应的内容及属性。
　　2所得
　　浏览器返回的是一个超文本标记语言（HyperText Markup Language，HTML）文件（或动态页面文件），实际是文本型的文件。
　　浏览器页面右键“查看页面源代码”，可以看到文本形式展现的信息。如下图所示：
　　（图源：《数字化审计实务指南》）
　　如何从网站返回的各类文件中（HTML、PDF、Word等）获取信息记录，可参见“看得到，取得到，才是数据”系列推文。
　　
　　如何获取外部数据
　　理论上，在符合数据安全保护等法律法规的前提下，所有在浏览器中看到的信息都可以自动采集下来。
　　但网站的web服务器技术千变万化，大多数网站都不是静态网页，信息的采集也需要平衡工具采购、代码开发需要的时间和对数据分析的价值。
　　外部数据的获取，根据来源的不同有信息采集、API接口调用、离线下载和付费购买。
　　无论哪一种形式，在获取过程中都需要注意遵守《数据安全管理办法》等相关的法律法规，需要注意涉及个人信息的隐私安全保护。
　　1使用信息采集工具
　　网页信息采集工具非常丰富，各有各的特色。对于比较规范、常规的网页，信息采集工具是个时效比非常高的选择。
　　开源的网页信息采集工具有Heritrix、Hawk（ Advanced Crawler& ETL tool written in C#/WPF ）等。在线的网页信息采集工具有ParseHub等。
　　可以免费使用部分功能的商业网页信息采集工具有优采云、优采云、集搜客（GooSeeker）、优采云采集等等。
　　以下的介绍仅仅是个人使用操作描述，不涉及商业推广，不构成推荐建议。
　　作为后起之秀，优采云采集号称“小白神器！”、“前谷歌技术团队倾力打造，基于人工智能技术，只需输入网址就能自动识别采集内容”。
　　（图源：）
　　优采云采集器提供智能模式和流程图模式两种操作模式。
　　智能模式下，只需要输入首页网址，软件就能智能识别网页上的列表（li）、表格（table）、链接（a）、图片（img）等元素，实现一键采集，对常见的网站信息采集比较方便。
　　流程图模式下，按照人为浏览网页的操作方式，通过软件自动识别和操作提示选择的方式，自动生成采集规则。
　　如，设置优采云采集器打开一个行政处罚公告列表页面，软件会自动识别页面上的列表链接、翻页链接，提示选择是否循环点击列表、是否自动翻页，点击列表链接后，自动打开处罚公告的详细内容页面，然后根据要素点击选择需要提取的信息。做完这几步，就可以生成当前网站的采集规则。
　　流程图模式下，软件还可以模拟人浏览网页的动作，比如输入文本、点击按钮、滚动页面、等待加载等。
　　优采云采集器目前也支持免费导出全量采集结果。采集结果可以以TXT、EXCEL、CSV和HTML等文件格式导出到本地，也可以直接发布到MySQL、MongoDB、SQL Server等数据库中。查看全部

　　【实务操作】外部数据：用信息不对称解决审计信息不对称
　　导读
　　数字化审计的基石
　　数据是数字化审计的基石，思路实现、模型训练、结果验证、问题支撑等都离不开数据。
　　数据都是从具体的活动或场景中产生后，通过各种技术抽取、存储下来的。
　　数据抽取过程是降维的过程，剥离了场景的细节，而审计人员分析和应用数据的过程是个升维的过程，基于个人能力、判断和模型假设等进行场景还原。这个还原过程，很容易受到审计人员个人主观经验和经历的影响。
　　正确认识数据、准确判断数据来源、客观评价数据价值，对数字化审计工作很重要。
　　是否具有对数据所在场景的认知，数据的来源是否可靠等等，对审计分析或风险判断的全面性、准确性影响很大。
　　从内部审计的角度，数据按照来源的不同可以分为内部数据和外部数据。
　　1内部数据
　　内部数据是公司内部的经营管理过程中生成的数据，一般来自于业务系统、数据仓库、被审计对象提供的数据包等。
　　在数字化审计过程中，内部数据面临的最大难点是如何克服“数据孤岛”，进行字段映射，多源数据融合。
　　2外部数据
　　外部数据是公司经营管理之外及所处环境中相关的数据。
　　外部数据主要来源有互联网上的以网页形式展现的公开信息、开源数据集、商业付费数据和政府开放共享的数据。
　　利用信息不对称
　　

　　由于行为主体根据不同的目的，总是会选择不同的信息展现方式，不同的方式和内容间存在的差异就是矛盾所在，也就是审计可以关注的触点。
　　在数字化审计过程中，外部数据可以帮助审计人员扩展信息的边界。
　　很多时候利用行为主体在内外部数据中表现出来的不对称，通过外部数据和内部数据的交叉验证、“碰库”，往往会有很多重要发现。
　　举个例子，仓库的保管员在从仓库中顺出重要零配件或成品时，会最大程度掩盖信息，不让人知道其拿出的产品名称、规格型号等。但其顺出成品的目的是为了出售获利，在闲鱼等二手交易平台上，其会选择最大程度展现信息，吸引更多的卖家。
　　注意到这个信息不对称的情况，就可以使用网页数据采集工具从二手交易平台上获得相关公司产品的交易情况，内外部数据相结合，反向进行追踪。
　　网页背后的“交互”
　　1所见
　　当我们在浏览器（Edge、Firefox、Chrome、Safari等）地址栏中输入一个网址后，浏览器就向目标网站的Web服务器发出一个HTTP报文请求（Request），目标网站的Web服务器经过校验确认是一个正常的请求后，将请求的页面文件（包含图片、链接等资源）返回给浏览器（Response），浏览器收到返回的数据后，调用网页文件解析内核进行渲染，显示在浏览器窗口中。
　　（图源：wiki）
　　打开浏览器如Edge，按F12键（其他浏览器也是这个快捷键），进入浏览器的“开发人员工具”界面。
　　在浏览器窗口的右侧就会出现“开发人员工具”操作区域，在这个区域中可以浏览、跟踪、调试、分析浏览器和Web服务器的HTTP报文交互。
　　HTTP报文一般可以分为报文首部（Header）和报文主体（Body）两块。报文首部包含Web服务器或浏览器需处理的请求或响应的内容及属性。
　　2所得
　　浏览器返回的是一个超文本标记语言（HyperText Markup Language，HTML）文件（或动态页面文件），实际是文本型的文件。
　　浏览器页面右键“查看页面源代码”，可以看到文本形式展现的信息。如下图所示：
　　（图源：《数字化审计实务指南》）
　　如何从网站返回的各类文件中（HTML、PDF、Word等）获取信息记录，可参见“看得到，取得到，才是数据”系列推文。
　　

　　如何获取外部数据
　　理论上，在符合数据安全保护等法律法规的前提下，所有在浏览器中看到的信息都可以自动采集下来。
　　但网站的web服务器技术千变万化，大多数网站都不是静态网页，信息的采集也需要平衡工具采购、代码开发需要的时间和对数据分析的价值。
　　外部数据的获取，根据来源的不同有信息采集、API接口调用、离线下载和付费购买。
　　无论哪一种形式，在获取过程中都需要注意遵守《数据安全管理办法》等相关的法律法规，需要注意涉及个人信息的隐私安全保护。
　　1使用信息采集工具
　　网页信息采集工具非常丰富，各有各的特色。对于比较规范、常规的网页，信息采集工具是个时效比非常高的选择。
　　开源的网页信息采集工具有Heritrix、Hawk（ Advanced Crawler& ETL tool written in C#/WPF ）等。在线的网页信息采集工具有ParseHub等。
　　可以免费使用部分功能的商业网页信息采集工具有优采云、优采云、集搜客（GooSeeker）、优采云采集等等。
　　以下的介绍仅仅是个人使用操作描述，不涉及商业推广，不构成推荐建议。
　　作为后起之秀，优采云采集号称“小白神器！”、“前谷歌技术团队倾力打造，基于人工智能技术，只需输入网址就能自动识别采集内容”。
　　（图源：）
　　优采云采集器提供智能模式和流程图模式两种操作模式。
　　智能模式下，只需要输入首页网址，软件就能智能识别网页上的列表（li）、表格（table）、链接（a）、图片（img）等元素，实现一键采集，对常见的网站信息采集比较方便。
　　流程图模式下，按照人为浏览网页的操作方式，通过软件自动识别和操作提示选择的方式，自动生成采集规则。
　　如，设置优采云采集器打开一个行政处罚公告列表页面，软件会自动识别页面上的列表链接、翻页链接，提示选择是否循环点击列表、是否自动翻页，点击列表链接后，自动打开处罚公告的详细内容页面，然后根据要素点击选择需要提取的信息。做完这几步，就可以生成当前网站的采集规则。
　　流程图模式下，软件还可以模拟人浏览网页的动作，比如输入文本、点击按钮、滚动页面、等待加载等。
　　优采云采集器目前也支持免费导出全量采集结果。采集结果可以以TXT、EXCEL、CSV和HTML等文件格式导出到本地，也可以直接发布到MySQL、MongoDB、SQL Server等数据库中。

文章采集调用的主要有以下四种：apidebugremoteformgov包完成简单的文章抓取

采集交流 • 优采云发表了文章 • 0 个评论 • 115 次浏览 • 2022-08-21 12:02 • 来自相关话题

文章采集调用的主要有以下四种：apidebugremoteformgov包完成简单的文章抓取
　　
　　文章采集调用的api主要有以下四种：apidebugremoteformgov开发时，一般建议这四种api都先完整的实现一下。本文就使用apidebug包完成简单的文章抓取。效果如下：基于apidebug包，目前已经实现了：最新tip文章抓取结果-tips注：tips包是更新版本，抓取时需要更新包，具体更新方法网上很多，我这里就不赘述了。
　　
2.建立抓取文章的表格，即“//content”表，并给出主要的文章id、string、书籍id、手机号码，这个代码网上已经有不少人实现过了。3.本文中，这个表格只用到了apidebug包中的api函数，即getunspiderinstance()，具体对应的api函数如下：voidgetunspiderinstance(contextcontext){longstirrate=(long)getunspider.run(context);if(stirrate 查看全部

　　文章采集调用的主要有以下四种：apidebugremoteformgov包完成简单的文章抓取
　　

　　文章采集调用的api主要有以下四种：apidebugremoteformgov开发时，一般建议这四种api都先完整的实现一下。本文就使用apidebug包完成简单的文章抓取。效果如下：基于apidebug包，目前已经实现了：最新tip文章抓取结果-tips注：tips包是更新版本，抓取时需要更新包，具体更新方法网上很多，我这里就不赘述了。
　　

2.建立抓取文章的表格，即“//content”表，并给出主要的文章id、string、书籍id、手机号码，这个代码网上已经有不少人实现过了。3.本文中，这个表格只用到了apidebug包中的api函数，即getunspiderinstance()，具体对应的api函数如下：voidgetunspiderinstance(contextcontext){longstirrate=(long)getunspider.run(context);if(stirrate

文章采集调用

话题描述

相关话题

最佳回复者

1 人关注该话题