话题：文章采集链接 - 自动文章采集器-优采云官网

爬网址做采集规则的时候，直观标注很方便。

采集交流 • 优采云发表了文章 • 0 个评论 • 153 次浏览 • 2021-08-18 21:30 • 来自相关话题

　　爬网址做采集规则的时候，直观标注很方便。
　　制作采集规则的时候，可以很方便的在视觉上做标记。在网页上点击鼠标标记要抓取的内容。当爬虫运行时，它会自动去采集这些内容。但是，有些内容（如网页上的超链接）并没有直接显示在网页上，或者即使显示了某些内容，也无法准确地进行视觉标注。这时候就需要使用内容映射了。
　　内容映射必须在对应的DOM节点上进行操作。
　　1.内容映射采集超LINK
　　下面以京东列表页面上的商品链接为例，说明如何使用内容映射方式将商品链接映射到新的内容（字段）。
　　在定义规则状态下，点击产品名称。在下面的 DOM 列中，光标对应一个 DOM 节点。一般链接存放在A节点下的属性节点href中。
　　
　　右键href节点，内容映射-新建内容
　　
　　给新内容起个名字叫“商品链接”，因为采集是一个URL链接，href节点中的URL不完整，所以检查完整的URL。
　　
　　大功告成，我们测试一下，看看产品链接是否被抓到了。
　　
　　2.内容映射采集一般网页内容
　　比如我们想要采集this文章，但是在网页上只能选择一个section进行可视化标注，在DOM节点上做内容映射，可以发送整篇文章至文章采集。
　　
　　点击文章的第一段，光标对应下面的节点，向上查找节点，直到找到一个节点，点击它，整个文章在闪亮的框中，表示整个文章被选中。右击这个节点，内容映射-新建内容，然后给新建的内容起个名字。
　　
　　在这个例子中，新内容的名称是文章。整个内容映射到文章。
　　
　　因为我们的采集是文本内容，所以我们要选择纯文本。
　　
　　第 1 部分文章：“爬上 URL 以提高水平采集”第 2 部分文章：“定位和映射以改进网页采集accuracy” 查看全部

　　右键href节点，内容映射-新建内容
　　

　　给新内容起个名字叫“商品链接”，因为采集是一个URL链接，href节点中的URL不完整，所以检查完整的URL。
　　

　　大功告成，我们测试一下，看看产品链接是否被抓到了。
　　

　　2.内容映射采集一般网页内容
　　比如我们想要采集this文章，但是在网页上只能选择一个section进行可视化标注，在DOM节点上做内容映射，可以发送整篇文章至文章采集。
　　

　　点击文章的第一段，光标对应下面的节点，向上查找节点，直到找到一个节点，点击它，整个文章在闪亮的框中，表示整个文章被选中。右击这个节点，内容映射-新建内容，然后给新建的内容起个名字。
　　

　　在这个例子中，新内容的名称是文章。整个内容映射到文章。
　　

　　因为我们的采集是文本内容，所以我们要选择纯文本。
　　

　　第 1 部分文章：“爬上 URL 以提高水平采集”第 2 部分文章：“定位和映射以改进网页采集accuracy”

小说漫画微信公众号平台小程序该怎么形成开发？

采集交流 • 优采云发表了文章 • 0 个评论 • 86 次浏览 • 2021-08-17 20:34 • 来自相关话题

　　小说漫画微信公众号平台小程序该怎么形成开发？
　　可以使用清博索引进行爬取，除了采集到微信公众号文章，还可以采集到标题，文章序号，原文链接，阅读数，点赞数、发布时间等数据，具体步骤如下：
　　1.采集需要采集的公众号列表
　　2.将这些公众号加入清博指数自定义列表
　　
　　3.清博Index每天都会自动采集相关数据，可直接导出
　　注意：如果没有找到相关公众号，需要先进行存储操作。
　　如何建立一个稳定流畅的微信分发小说源码系统？
　　微信小说分发模式的微信版终于出现了！异常火爆模式来了。
　　如何搭建网络版小说分发源代码系统？
　　
　　微信小说分发阅读漫画源码小程序，可以实现各种资源的变现，以及通过互联网对值得阅读的素材进行盈利转换。新颖的平台系统在首页增加多套模板，自由选择，随意切换使用；添加外链统计和代理分享统计；给采集教程。编写win批处理文件可以有效节省从采集到包上传过程的操作成本。整个过程将有效节省近120倍的工作量（时间），相当于减少120倍的人工操作成本。
　　Novel网站开发平台新增了一套精美时尚的氛围模板。
　　优化用户进入平台代理渠道的识别问题（注意非正品会导致同一用户分别进入多个代理平台，造成用户代理识别混乱）。
　　如今，大多数企业家实际上是使用互联网来创业。这是目前的创业趋势。创业模式有很多种，比如漫画发行漫画源码代理平台app应用系统源码。很多中小企业和企业也想搭建自己的平台，但因为技术或人力有限，似乎做不到。那么，有没有捷径呢？当然有！当然，在这方面，我们开发的网站系统已经注意到了。独特而精密的算法，让用户买得更放心，玩得更舒心。
　　小说漫画微信公众号平台如何组建和开发小程序？ H5微信开发服务商应该如何选择？基于为客户带来实质性互联网经济价值的能力，我们切实为客户提供网站运营内容培训和交流服务，有效帮助客户在网络营销中取得实质性成果。目前看来，互联网创业已经成为这个时代的一个热点。不仅是一线城市，很多三四线城市也开始了互联网创业热潮。许多传统行业也知道，他们需要结合互联网的优势来发展。只要他们不断总结创新，就会有出路。如果您对此模式感兴趣，
　　有什么办法可以看到微信安卓版的源码吗？
　　如何阅读微信小程序的源码，可以按照以下步骤进行：
　　1、微信小程序是一款无需下载安装即可直接使用的应用。您可以通过微信【扫一扫】或【搜索】打开应用。
　　2、微信小程序现已具备离线扫码、公众号关注、消息通知等多项功能。
　　3、在微信小程序中，可以向懂的技术人员求助。他们会为客户查找微信小程序的源代码，以便我们看到微信小程序的源代码。
　　4、现在各大企业项目公司都会培养一些专业的员工。他们将使用现有技术查看源代码。
　　5、寻找小程序的源码很简单，源码会和销量成正比。
　　6、给我们的信息可以告诉我们，查看微信小程序的源代码是必要和重要的。
　　7、查看微信小程序源码及其价值，与客户需求有很大关系。
　　8、现在，网络市场发展非常迅速，微信小程序是最受欢迎的市场之一。查看源码是微信小程序最重要的部分。查看全部

　　小说漫画微信公众号平台小程序该怎么形成开发？
　　可以使用清博索引进行爬取，除了采集到微信公众号文章，还可以采集到标题，文章序号，原文链接，阅读数，点赞数、发布时间等数据，具体步骤如下：
　　1.采集需要采集的公众号列表
　　2.将这些公众号加入清博指数自定义列表
　　

　　3.清博Index每天都会自动采集相关数据，可直接导出
　　注意：如果没有找到相关公众号，需要先进行存储操作。
　　如何建立一个稳定流畅的微信分发小说源码系统？
　　微信小说分发模式的微信版终于出现了！异常火爆模式来了。
　　如何搭建网络版小说分发源代码系统？
　　

　　微信小说分发阅读漫画源码小程序，可以实现各种资源的变现，以及通过互联网对值得阅读的素材进行盈利转换。新颖的平台系统在首页增加多套模板，自由选择，随意切换使用；添加外链统计和代理分享统计；给采集教程。编写win批处理文件可以有效节省从采集到包上传过程的操作成本。整个过程将有效节省近120倍的工作量（时间），相当于减少120倍的人工操作成本。
　　Novel网站开发平台新增了一套精美时尚的氛围模板。
　　优化用户进入平台代理渠道的识别问题（注意非正品会导致同一用户分别进入多个代理平台，造成用户代理识别混乱）。
　　如今，大多数企业家实际上是使用互联网来创业。这是目前的创业趋势。创业模式有很多种，比如漫画发行漫画源码代理平台app应用系统源码。很多中小企业和企业也想搭建自己的平台，但因为技术或人力有限，似乎做不到。那么，有没有捷径呢？当然有！当然，在这方面，我们开发的网站系统已经注意到了。独特而精密的算法，让用户买得更放心，玩得更舒心。
　　小说漫画微信公众号平台如何组建和开发小程序？ H5微信开发服务商应该如何选择？基于为客户带来实质性互联网经济价值的能力，我们切实为客户提供网站运营内容培训和交流服务，有效帮助客户在网络营销中取得实质性成果。目前看来，互联网创业已经成为这个时代的一个热点。不仅是一线城市，很多三四线城市也开始了互联网创业热潮。许多传统行业也知道，他们需要结合互联网的优势来发展。只要他们不断总结创新，就会有出路。如果您对此模式感兴趣，
　　有什么办法可以看到微信安卓版的源码吗？
　　如何阅读微信小程序的源码，可以按照以下步骤进行：
　　1、微信小程序是一款无需下载安装即可直接使用的应用。您可以通过微信【扫一扫】或【搜索】打开应用。
　　2、微信小程序现已具备离线扫码、公众号关注、消息通知等多项功能。
　　3、在微信小程序中，可以向懂的技术人员求助。他们会为客户查找微信小程序的源代码，以便我们看到微信小程序的源代码。
　　4、现在各大企业项目公司都会培养一些专业的员工。他们将使用现有技术查看源代码。
　　5、寻找小程序的源码很简单，源码会和销量成正比。
　　6、给我们的信息可以告诉我们，查看微信小程序的源代码是必要和重要的。
　　7、查看微信小程序源码及其价值，与客户需求有很大关系。
　　8、现在，网络市场发展非常迅速，微信小程序是最受欢迎的市场之一。查看源码是微信小程序最重要的部分。

4大自媒体平台的爆文标题该怎么写？

采集交流 • 优采云发表了文章 • 0 个评论 • 109 次浏览 • 2021-08-16 21:05 • 来自相关话题

　　4大自媒体平台的爆文标题该怎么写？
　　文章采集链接：大鱼号、百家号、企鹅号、头条号这4大自媒体平台的爆文标题该怎么写？（获取爆文标题请关注小编）这是自媒体人的一个痛处，很多自媒体小伙伴以为文章的标题吸引人，就会有大把的阅读量。却不知道标题只是媒体的开始，热度才是关键。如何写好标题？下面我们来讲讲运营自媒体的朋友应该注意的几点：一、自媒体文章的定位，兴趣指数（兴趣度）高不高所谓的定位决定了您读者对你文章的喜欢程度与平台的推荐机制。
　　而兴趣高低是决定是否达到爆文的关键因素。1.哪些标题适合运营自媒体？中小型自媒体平台前期主要是以图文形式展现，推荐机制可能不是很完善，标题和内容是一致的也并不是适合很高的爆文要求，最好都是有个把观点与众不同，吸引人的标题。2.热门标题是谁做的？当自媒体平台刚兴起的时候，肯定会大量的投入内容创作者，尤其是原创作者和具有社会价值或时事政治价值的标题党都会火一把。
　　也正是这个原因，市场上大量的标题党开始火爆起来，但是随着市场的不断改变，网站的改版，内容创作者的权益提高，大量抄袭的或者没有写作实力的才开始在市场上失宠。每个平台都会去核查作者，判断其身份的真实性，很多平台都是支持第三方企业机构。这就导致很多作者或者一些水平一般的媒体人会失去曝光的机会。3.标题需要在标题中加入分号，不加分号的标题有可能影响到搜索引擎对标题的解析，从而导致标题并没有被推荐，影响到文章的阅读量。
　　从这个角度考虑，也可以试着不加分号。5.标题里要跟主体结合起来，和主体的结合点可以是人名，也可以是地名。小编建议不要使用地名和人名作为标题的关键词，因为网络或者媒体对这些敏感度较高。而是根据自己的地理位置来解析标题。这样的好处是当你到一个陌生的地方时，方便读者寻找关键词和主体结合起来。比如你是在四川成都工作，不用标题写成南充是四川重要城市，而是可以把南充说成四川的一个重要城市。二、自媒体爆文标题写作技巧（下篇）推荐源自：做自媒体一个月总结。查看全部

　　4大自媒体平台的爆文标题该怎么写？
　　文章采集链接：大鱼号、百家号、企鹅号、头条号这4大自媒体平台的爆文标题该怎么写？（获取爆文标题请关注小编）这是自媒体人的一个痛处，很多自媒体小伙伴以为文章的标题吸引人，就会有大把的阅读量。却不知道标题只是媒体的开始，热度才是关键。如何写好标题？下面我们来讲讲运营自媒体的朋友应该注意的几点：一、自媒体文章的定位，兴趣指数（兴趣度）高不高所谓的定位决定了您读者对你文章的喜欢程度与平台的推荐机制。
　　而兴趣高低是决定是否达到爆文的关键因素。1.哪些标题适合运营自媒体？中小型自媒体平台前期主要是以图文形式展现，推荐机制可能不是很完善，标题和内容是一致的也并不是适合很高的爆文要求，最好都是有个把观点与众不同，吸引人的标题。2.热门标题是谁做的？当自媒体平台刚兴起的时候，肯定会大量的投入内容创作者，尤其是原创作者和具有社会价值或时事政治价值的标题党都会火一把。
　　也正是这个原因，市场上大量的标题党开始火爆起来，但是随着市场的不断改变，网站的改版，内容创作者的权益提高，大量抄袭的或者没有写作实力的才开始在市场上失宠。每个平台都会去核查作者，判断其身份的真实性，很多平台都是支持第三方企业机构。这就导致很多作者或者一些水平一般的媒体人会失去曝光的机会。3.标题需要在标题中加入分号，不加分号的标题有可能影响到搜索引擎对标题的解析，从而导致标题并没有被推荐，影响到文章的阅读量。
　　从这个角度考虑，也可以试着不加分号。5.标题里要跟主体结合起来，和主体的结合点可以是人名，也可以是地名。小编建议不要使用地名和人名作为标题的关键词，因为网络或者媒体对这些敏感度较高。而是根据自己的地理位置来解析标题。这样的好处是当你到一个陌生的地方时，方便读者寻找关键词和主体结合起来。比如你是在四川成都工作，不用标题写成南充是四川重要城市，而是可以把南充说成四川的一个重要城市。二、自媒体爆文标题写作技巧（下篇）推荐源自：做自媒体一个月总结。

客户发过来一个微信公众号小说分析列表页的分析方法

采集交流 • 优采云发表了文章 • 0 个评论 • 85 次浏览 • 2021-08-13 23:06 • 来自相关话题

　　客户发过来一个微信公众号小说分析列表页的分析方法
　　今天有客户发了个微信公众号小说文章链接，让我看看能不能用优采云爬下来，打开手机后发现没有问题，可以很可能被爬行。搞定了，一般采集微信公众号小说网站，我在PC端从公众号爬取，抓包很方便，但是在PC端打开的时候是这样的：
　　
　　无法在PC端打开。这很麻烦。如果PC客户端无法打开，则无法捕获数据。我该怎么办？
　　因为之前在安卓模拟器里抓过app，微信上没抓到。然后我在模拟器里装了个微信，登录，然后就抓包成功了，抓包成功了就随便说什么了。国家队。
　　
　　点击图片看大图
　　题外话：Fiddler还是用来抓微信数据包的。需要设置fiddler和模拟器，因为细节较多，这里不再赘述。
　　抓包后开始分析，分析列表页，分析内容页，这种网站，一般的内容页章节需要付费，这种情况可以通过vipcookies解决，还有章节内容没有问题。
　　分析list页面的时候发现前15章都是get请求，其余都是post请求。其中一半是get，一半是post请求。除非使用插件，否则很难在优采云中设置。，陶小白仔细观察每一章的特点，发现可以直接跳过小说目录页的请求，直接列举章节。每章的最后一个数字在增加，有200章，最后一个。章节url的最后一个数字是200，所以就详尽列举每部小说。
　　最后填入vipcookies就可以顺利爬取了。以上为采集的单本，客户端针对采集，将好的、热门的小说爬下来上传到自己的平台。
　　需要采集微信公号小说站的朋友请联系站长查看全部

　　客户发过来一个微信公众号小说分析列表页的分析方法
　　今天有客户发了个微信公众号小说文章链接，让我看看能不能用优采云爬下来，打开手机后发现没有问题，可以很可能被爬行。搞定了，一般采集微信公众号小说网站，我在PC端从公众号爬取，抓包很方便，但是在PC端打开的时候是这样的：
　　

　　无法在PC端打开。这很麻烦。如果PC客户端无法打开，则无法捕获数据。我该怎么办？
　　因为之前在安卓模拟器里抓过app，微信上没抓到。然后我在模拟器里装了个微信，登录，然后就抓包成功了，抓包成功了就随便说什么了。国家队。
　　

　　点击图片看大图
　　题外话：Fiddler还是用来抓微信数据包的。需要设置fiddler和模拟器，因为细节较多，这里不再赘述。
　　抓包后开始分析，分析列表页，分析内容页，这种网站，一般的内容页章节需要付费，这种情况可以通过vipcookies解决，还有章节内容没有问题。
　　分析list页面的时候发现前15章都是get请求，其余都是post请求。其中一半是get，一半是post请求。除非使用插件，否则很难在优采云中设置。，陶小白仔细观察每一章的特点，发现可以直接跳过小说目录页的请求，直接列举章节。每章的最后一个数字在增加，有200章，最后一个。章节url的最后一个数字是200，所以就详尽列举每部小说。
　　最后填入vipcookies就可以顺利爬取了。以上为采集的单本，客户端针对采集，将好的、热门的小说爬下来上传到自己的平台。
　　需要采集微信公号小说站的朋友请联系站长

运营公众号怎样收集素材文章的相关资料？数据

采集交流 • 优采云发表了文章 • 0 个评论 • 130 次浏览 • 2021-08-11 07:26 • 来自相关话题

　　
运营公众号怎样收集素材文章的相关资料？数据
　　
　　对于公众号运营商来说，文章素材的采集非常重要，因为它可以有效提高你文章的质量。下面我们就跟着拓图数据来了解一下公众号的操作方法。采集素材文章的相关信息。
　　公众号运营资料如何采集文章方法一
　　获取文章链接，电脑用户可以直接在浏览器地址栏中选择并复制文章链接。手机用户可以点击右上角的菜单按钮，选择复制链接，将链接发送到电脑。
　　
　　公众号运营材料如何采集文章
　　点击拓图数据采集文章按钮，编辑器采集文章有两个功能入口：编辑菜单右上角的采集文章按钮；采集功能按钮底部右侧@文章按钮。粘贴文章链接并单击采集。采集完成后可以编辑修改文章。
　　公众号运营资料如何采集文章方法二
　　从网上可以搜到的公众号文章采集，这是最直接、最简单的解决方案。
　　大致流程是：
　　1、通过搜索引擎搜索微信搜索入口进入公众号搜索。
　　2、选择公众号进入公众号历史文章列表和文章内容进行分析和存储。
　　
　　公众号运营材料如何采集文章
　　如果采集过于频繁，搜狗搜索和公众账号历史文章列表访问会显示验证码。无法直接使用通用脚本采集获取验证码。在这里您可以使用无头浏览器通过对接打码平台访问和识别验证码。 Selenium 可以用作无头浏览器。
　　如何采集文章公众号运营的素材？其实，拓图数据认为文章对于微信公众号运营的素材采集是非常重要的，所以大家可以按照上面的方法做好文章素材的采集。！查看全部

　　
运营公众号怎样收集素材文章的相关资料？数据
　　

　　对于公众号运营商来说，文章素材的采集非常重要，因为它可以有效提高你文章的质量。下面我们就跟着拓图数据来了解一下公众号的操作方法。采集素材文章的相关信息。
　　公众号运营资料如何采集文章方法一
　　获取文章链接，电脑用户可以直接在浏览器地址栏中选择并复制文章链接。手机用户可以点击右上角的菜单按钮，选择复制链接，将链接发送到电脑。
　　

　　公众号运营材料如何采集文章
　　点击拓图数据采集文章按钮，编辑器采集文章有两个功能入口：编辑菜单右上角的采集文章按钮；采集功能按钮底部右侧@文章按钮。粘贴文章链接并单击采集。采集完成后可以编辑修改文章。
　　公众号运营资料如何采集文章方法二
　　从网上可以搜到的公众号文章采集，这是最直接、最简单的解决方案。
　　大致流程是：
　　1、通过搜索引擎搜索微信搜索入口进入公众号搜索。
　　2、选择公众号进入公众号历史文章列表和文章内容进行分析和存储。
　　

　　公众号运营材料如何采集文章
　　如果采集过于频繁，搜狗搜索和公众账号历史文章列表访问会显示验证码。无法直接使用通用脚本采集获取验证码。在这里您可以使用无头浏览器通过对接打码平台访问和识别验证码。 Selenium 可以用作无头浏览器。
　　如何采集文章公众号运营的素材？其实，拓图数据认为文章对于微信公众号运营的素材采集是非常重要的，所以大家可以按照上面的方法做好文章素材的采集。！

讲解一下如何把一个网站的文章采集到自己的网站

采集交流 • 优采云发表了文章 • 0 个评论 • 325 次浏览 • 2021-08-11 04:21 • 来自相关话题

　　讲解一下如何把一个网站的文章采集到自己的网站
　　以飘柔博客网站()为例，说明如何将一个网站文章采集转给自己的网站，同时下载链接网盘地址为也是你自己的（文件批量传输到你自己的网盘）。
　　其实采集和发布文章很简单。难点是如何批量转储或下载对方的文件到你的网站/SkyDrive，可以对应文章和网盘下载链接。
　　需要准备：
　　飘柔博客网站优采云采集rule VIP账号，发布模块批量传输工具，城市通网盘VIP账号（对方网站使用城市通网盘存储文件，如果你要转，只能转到城通网盘，其他网盘不能直接转）
　　目前本站所有中文电子书的文件都在800G左右。不买城市通行证VIP就下载这么多文件到本地是不现实的。我的城市通行证VIP大概一千元，我已经从下载中赚回来了（每次下载2到5美分，超过100M的文件1美分）。
　　看到这个，有些同学可以关掉网页离开了。
　　第一步：
　　把所有文件都dump到自己的网盘上，5万多个文件，当然不是手动的。所以我写了一个转储工具，可以批量转储，重命名城市通行证文件。
　　问题是，为什么要重命名？重命名是非常重要的一步，因为它可以：
　　避免因名称问题统一导致下载链接失败，发布文章时，可以关联网盘文件下载链接
　　传输文件时，将文件重命名为目标网站文章的ID。比如这个文章中的电子书转移到自己的网盘后，文件名应该是96233.epub。为什么？看第二步。
　　33%
　　第二步：
　　批量转储文件重命名后，使用优采云来采集城通网盘下载链接和文件名生成html文件，以文件名命名。比如上面提到的96233.epub，采集生成96233.html，文件收录从城通网盘下载文件的链接。
　　你可以直接在你的网站文章中链接这个html，用户在html页面点击网盘链接下载文件，或者在后面的第三步，你可以使用采集的这个页面@法里采集用户会直接打开网盘页面下载；链接html的好处是可以展示广告位获得收益，看下面的demo（顺便点击广告有惊喜）：
　　html 文件演示：
　　此方法适用于免费下载资源。如果是收费的，当然最好直接采集到网盘地址，避免别人根据html文件名获取其他文件下载地址。
　　66%
　　第 3 步：
　　既然你已经有了从网盘下载文件的所有链接，并且html文件名对应目标站的文件名，你只需要将生成的html上传到网站space，就可以了使用目标站的优采云@k0 采集文章，文件下载地址为采集上传的html中的网盘地址。
　　100%
　　明白了吗？不知道怎么下拉。
　　上述城市通行证文件及采集规则的转让请联系站长咨询购买，采集Other网站可查询。查看全部

采集某一个指定页面的文章包括(栏目id为57)

采集交流 • 优采云发表了文章 • 0 个评论 • 148 次浏览 • 2021-08-08 21:19 • 来自相关话题

　　采集某一个指定页面的文章包括(栏目id为57)
　　任务：
　　指定页面的采集文章包括（标题、图片、描述、内容）导入到自己的网站数据库对应列（列id为57)，数据库字段分别为（title、thumb , 描述, 内容).
　　页面第一张图片是文章缩略图，这里一个是获取缩略图名称并将对应的网站路径添加到数据库的thumb字段中，另一个是下载到本地上传到指定文件夹. ,（当然可以根据软件直接ftp，我还没做，以后补充）
　　1、New group--新任务
　　
　　2、添加网址+修改获取网址的规则
　　
　　选择ul中li中的链接，注意排除重复地址，可以点击下方测试网址采集获取。
　　
　　你可以看到采集的文章链接。
　　
　　3、采集content 规则
　　我需要采集显示下图中的数据（catid是列id，可以把采集的数据放到对应的列中，设置一个固定值即可）
　　
　　关注内容和图片的采集，标题和描述与内容采集一致
　　
　　Content采集：
　　打开一个采集文章页面查看源码（f11右键禁用或者view-source：可以在URL前面查看）：
　　选择文章开头的一个位置，截取一段，看是不是ctrl+f下的唯一一段。如果是，可以放在下图1所示的位置，结尾和开头一样。
　　我截取了内容，不想里面有链接图片进行数据处理，添加--html标签排除--选择OK--OK
　　
　　还有需要下载页面图片，勾选并填写以下选项
　　
　　图片采集：
　　(1)所选范围与内容一致(文章内图片)
　　(2)数据处理选提取第一张图片内容为：
　　(3)只要aa.jpg，常规过滤
　　
　　获取内容：aa.jpg
　　(4)database 是带前缀存放的，加进去，upload/xxxxx/
　　
　　找到一个页面并测试它。可以看到对应的物品都获得了。
　　
　　4、发布内容设置，这里以发布到数据库的方式为例，编辑完成后返回这里查看刚刚定义的模块：
　　
　　
　　5、我需要把图片保存到本地，还要设置保存文件的路径（ftp以后会尝试使用）。
　　
　　6、保存，查看新创建的任务，右键启动任务，可以看到这里下载了文字和图片，在数据库中可以看到。
　　查看全部

　　2、添加网址+修改获取网址的规则
　　

　　选择ul中li中的链接，注意排除重复地址，可以点击下方测试网址采集获取。
　　

　　你可以看到采集的文章链接。
　　

　　3、采集content 规则
　　我需要采集显示下图中的数据（catid是列id，可以把采集的数据放到对应的列中，设置一个固定值即可）
　　

　　关注内容和图片的采集，标题和描述与内容采集一致
　　

　　Content采集：
　　打开一个采集文章页面查看源码（f11右键禁用或者view-source：可以在URL前面查看）：
　　选择文章开头的一个位置，截取一段，看是不是ctrl+f下的唯一一段。如果是，可以放在下图1所示的位置，结尾和开头一样。
　　我截取了内容，不想里面有链接图片进行数据处理，添加--html标签排除--选择OK--OK
　　

　　还有需要下载页面图片，勾选并填写以下选项
　　

　　图片采集：
　　(1)所选范围与内容一致(文章内图片)
　　(2)数据处理选提取第一张图片内容为：
　　(3)只要aa.jpg，常规过滤
　　

　　获取内容：aa.jpg
　　(4)database 是带前缀存放的，加进去，upload/xxxxx/
　　

　　找到一个页面并测试它。可以看到对应的物品都获得了。
　　

　　4、发布内容设置，这里以发布到数据库的方式为例，编辑完成后返回这里查看刚刚定义的模块：
　　

　　5、我需要把图片保存到本地，还要设置保存文件的路径（ftp以后会尝试使用）。
　　

　　6、保存，查看新创建的任务，右键启动任务，可以看到这里下载了文字和图片，在数据库中可以看到。
　　

一个微信公众号历史消息页面的链接地址和采集方法

采集交流 • 优采云发表了文章 • 0 个评论 • 630 次浏览 • 2021-08-08 21:18 • 来自相关话题

　　一个微信公众号历史消息页面的链接地址和采集方法
　　2014年开始做微信公众号内容的批量采集，最初的目的是为了制作一个html5垃圾邮件网站。当时，垃圾站采集到达的微信公众号内容很容易在公众号传播。当时批量采集特别好做，采集入口就是公众号的历史新闻页面。这个条目现在是一样的，但越来越难采集。采集方法也在很多版本中进行了更新。后来到了2015年，html5垃圾站就不做了。而是将采集目标定位在本地新闻资讯公众号，前端展示被做成了一个app。于是一个可以自动采集公号内容的新闻APP就形成了。曾经担心微信技术升级一天后采集内容不可用，我的新闻应用程序失败。但是随着微信的不断技术升级，采集方式也得到了升级，这让我越来越有信心。只要公众号历史消息页面存在，就可以批量采集内容。所以今天整理了一下，决定把采集方法写下来。我的方法来自于很多同事的分享精神，所以我会延续这种精神，分享我的成果。
　　本文文章会持续更新，保证您看到的内容在您看到时可用。
　　首先我们来看一个微信公众号历史消息页面的链接地址：
　　http://mp.weixin.qq.com/mp/get ... irect
　　========2017 年 1 月 11 日更新==========
　　现在根据不同的微信个人账号，会有两个不同的历史消息页面地址。下面是另一个历史消息页面的地址。第一种地址的链接在anyproxy中会显示302跳转：
　　https://mp.weixin.qq.com/mp/pr ... irect
　　第一个链接地址的页面样式：
　　
　　第二个链接地址的页面样式：
　　
　　根据目前的信息，这两种页面格式在不同的微信账号中出现不规则。有的微信账号永远是第一页格式，有的永远是第二页格式。
　　上面的链接是微信公众号历史新闻页面的真实链接，但是当我们在浏览器中输入这个链接时，会显示：请从微信客户端访问。这是因为链接地址实际上需要几个参数才能正常显示内容。我们来看看一个可以正常显示内容的完整链接是什么样子的：
　　//第一种链接
http://mp.weixin.qq.com/mp/get ... r%3D1
//第二种
http://mp.weixin.qq.com/mp/pro ... r%3D1
　　该地址是通过微信客户端打开历史消息页面后，使用后面介绍的代理服务器软件获取的。这里有几个参数：
　　action=;__biz=;uin=;key=;devicetype=;version=;lang=;nettype=;scene=;pass_ticket=;wx_header=;
　　重要的参数是：__biz;uin=;key=;pass_ticket=;这4个参数。
　　__biz 是公众号的类似id的参数。每个公众号都有一个微信。目前公众号的biz变动的可能性很小；
　　剩下的3个参数与用户id和tokenticket的含义有关。这3个参数的值在微信客户端生成后会自动添加到地址栏。所以我们认为采集公众号必须通过微信客户端。在之前的微信版本中，这3个参数也可以一次性获取，在有效期内可以使用多个公众号。在当前版本中，每次访问公众号都会更改参数值。
　　我现在使用的方法只需要关注__biz参数即可。
　　我的采集系统由以下部分组成：
　　1、A 微信客户端：可以是安装了微信应用的手机，也可以是电脑中的安卓模拟器。批量采集测试的ios微信客户端崩溃率高于Android系统。为了降低成本，我使用了Android模拟器。
　　
　　2、A微信个人账号：采集内容不仅需要微信客户端，还需要采集专用的微信个人账号，因为这个微信账号不能做其他事情。
　　3、本地代理服务器系统：目前使用的方法是通过Anyproxy代理服务器将公众号历史消息页面中的文章列表发送到自己的服务器。具体安装方法后面会详细介绍。
　　4、文章List分析入库系统：本人使用PHP语言编写，下篇文章将详细介绍如何分析文章lists并创建采集queues实现批量采集内容.
　　步骤
　　一、安装模拟器或使用手机安装微信客户端APP，申请微信个人账号并登录APP。这个就不多介绍了，大家自己做。
　　二、代理服务器系统安装
　　目前我使用 Anyproxy、AnyProxy。这个软件的特点是可以获取https链接的内容。 2016年初，微信公众号和微信文章开始使用https链接。而Anyproxy可以通过修改规则配置，在公众号页面插入脚本代码。下面将介绍安装和配置过程。
　　1、Install NodeJS
　　2、在命令行或终端运行npm install -g anyproxy，mac系统需要添加sudo；
　　3、生成RootCA，https需要这个证书：运行命令sudo anyproxy --root（windows可能不需要sudo）；
　　4、启动 anyproxy 运行命令：sudo anyproxy -i;参数-i表示解析HTTPS；
　　5、安装证书，在手机或者安卓模拟器安装证书：
　　6、Set proxy：安卓模拟器的代理服务器地址是wifi链接的网关。通过dhcp设置为静态后就可以看到网关地址了。阅读后不要忘记将其设置为自动。手机中的代理服务器地址就是运行anyproxy的电脑的ip地址。代理服务器默认端口为8001；
　　
　　现在打开微信，点击任意公众号历史消息或者文章，可以看到在终端滚动的响应码。如果没有出现，请检查手机的代理设置是否正确。
　　
　　现在打开浏览器地址localhost:8002就可以看到anyproxy的web界面了。微信点击打开一个历史消息页面，然后在浏览器的web界面查看，历史消息页面的地址会滚动。
　　
　　/mp/getmasssendmsg开头的网址是微信历史消息页面。左边的小锁表示这个页面是 https 加密的。现在我们点击这一行；
　　========2017 年 1 月 11 日更新==========
　　一些以/mp/getmasssendmsg开头的微信网址会出现302跳转到以/mp/profile_ext?action=home开头的地址。所以点击这个地址可以看到内容。
　　
　　如果右侧出现html文件内容，则表示解密成功。如果没有内容，请检查anyproxy运行方式是否有参数i，是否生成CA证书，是否在手机上正确安装了证书。
　　现在我们手机中的所有内容都可以明文通过代理服务器了。接下来，我们需要修改代理服务器的配置，以便获取公众号的内容。
　　一、找到配置文件：
　　mac系统中配置文件的位置是/usr/local/lib/node_modules/anyproxy/lib/；对于windows系统，不知道还请见谅。应该可以根据类似mac的文件夹地址找到这个目录。
　　二、修改文件 rule_default.js
　　找到 replaceServerResDataAsync: function(req,res,serverResData,callback) 函数
　　修改函数内容（请注意详细阅读注释，这里只是介绍原理，了解后根据自己的情况修改内容）：
　　========2017 年 1 月 11 日更新==========
　　因为有两种页面格式，相同的页面格式总是在不同的微信账号中显示，但是为了兼容两种页面格式，下面的代码会保留两种页面格式的判断。您也可以按照从您自己的页面表单中删除 li
　　replaceServerResDataAsync: function(req,res,serverResData,callback){
if(/mp\/getmasssendmsg/i.test(req.url)){//当链接地址为公众号历史消息页面时(第一种页面形式)
if(serverResData.toString() !== ""){
try {//防止报错退出程序
var reg = /msgList = (.*?);/;//定义历史消息正则匹配规则
var ret = reg.exec(serverResData.toString());//转换变量为string
HttpPost(ret[1],req.url,"getMsgJson.php");//这个函数是后文定义的，将匹配到的历史消息json发送到自己的服务器
var http = require('http');
http.get('http://xxx.com/getWxHis.php', function(res) {//这个地址是自己服务器上的一个程序，目的是为了获取到下一个链接地址，将地址放在一个js脚本中，将页面自动跳转到下一页。后文将介绍getWxHis.php的原理。
res.on('data', function(chunk){
callback(chunk+serverResData);//将返回的代码插入到历史消息页面中，并返回显示出来
})
});
}catch(e){//如果上面的正则没有匹配到，那么这个页面内容可能是公众号历史消息页面向下翻动的第二页，因为历史消息第一页是html格式的，第二页就是json格式的。
try {
var json = JSON.parse(serverResData.toString());
if (json.general_msg_list != []) {
HttpPost(json.general_msg_list,req.url,"getMsgJson.php");//这个函数和上面的一样是后文定义的，将第二页历史消息的json发送到自己的服务器
}
}catch(e){
console.log(e);//错误捕捉
}
callback(serverResData);//直接返回第二页json内容
}
}
}else if(/mp\/profile_ext\?action=home/i.test(req.url)){//当链接地址为公众号历史消息页面时(第二种页面形式)
try {
var reg = /var msgList = \'(.*?)\';/;//定义历史消息正则匹配规则（和第一种页面形式的正则不同）
var ret = reg.exec(serverResData.toString());//转换变量为string
HttpPost(ret[1],req.url,"getMsgJson.php");//这个函数是后文定义的，将匹配到的历史消息json发送到自己的服务器
var http = require('http');
http.get('http://xxx.com/getWxHis', function(res) {//这个地址是自己服务器上的一个程序，目的是为了获取到下一个链接地址，将地址放在一个js脚本中，将页面自动跳转到下一页。后文将介绍getWxHis.php的原理。
res.on('data', function(chunk){
callback(chunk+serverResData);//将返回的代码插入到历史消息页面中，并返回显示出来
})
});
}catch(e){
callback(serverResData);
}
}else if(/mp\/profile_ext\?action=getmsg/i.test(req.url)){//第二种页面表现形式的向下翻页后的json
try {
var json = JSON.parse(serverResData.toString());
if (json.general_msg_list != []) {
HttpPost(json.general_msg_list,req.url,"getMsgJson.php");//这个函数和上面的一样是后文定义的，将第二页历史消息的json发送到自己的服务器
}
}catch(e){
console.log(e);
}
callback(serverResData);
}else if(/mp\/getappmsgext/i.test(req.url)){//当链接地址为公众号文章阅读量和点赞量时
try {
HttpPost(serverResData,req.url,"getMsgExt.php");//函数是后文定义的，功能是将文章阅读量点赞量的json发送到服务器
}catch(e){
}
callback(serverResData);
}else if(/s\?__biz/i.test(req.url) || /mp\/rumor/i.test(req.url)){//当链接地址为公众号文章时（rumor这个地址是公众号文章被辟谣了）
try {
var http = require('http');
http.get('http://xxx.com/getWxPost.php', function(res) {//这个地址是自己服务器上的另一个程序，目的是为了获取到下一个链接地址，将地址放在一个js脚本中，将页面自动跳转到下一页。后文将介绍getWxPost.php的原理。
res.on('data', function(chunk){
callback(chunk+serverResData);
})
});
}catch(e){
callback(serverResData);
}
}else{
callback(serverResData);
}
},
　　以上代码是使用anyproxy修改返回页面内容、向页面注入脚本、将页面内容发送到服务器的功能。利用这个原理批量处理采集公众号内容和阅读量。该脚本中自定义了一个函数，详细说明如下：
　　在 rule_default.js 文件末尾添加以下代码：
　　function HttpPost(str,url,path) {//将json发送到服务器，str为json内容，url为历史消息页面地址，path是接收程序的路径和文件名
var http = require('http');
var data = {
str: encodeURIComponent(str),
url: encodeURIComponent(url)
};
content = require('querystring').stringify(data);
var options = {
method: "POST",
host: "www.xxx.com",//注意没有http://，这是服务器的域名。
port: 80,
path: path,//接收程序的路径和文件名
headers: {
'Content-Type': 'application/x-www-form-urlencoded; charset=UTF-8',
"Content-Length": content.length
}
};
var req = http.request(options, function (res) {
res.setEncoding('utf8');
res.on('data', function (chunk) {
console.log('BODY: ' + chunk);
});
});
req.on('error', function (e) {
console.log('problem with request: ' + e.message);
});
req.write(content);
req.end();
}
　　以上是规则修改的主要部分。您需要将json内容发送到您自己的服务器，并从服务器获取到下一页的跳转地址。这涉及到四个php文件：getMsgJson.php、getMsgExt.php、getWxHis.php、getWxPost.php
　　在详细介绍这4个php文件之前，为了提高采集系统性能，降低崩溃率，我们还可以做一些修改：
　　Android模拟器经常访问一些地址，会导致anyproxy崩溃，找到函数replaceRequestOption：function(req,option)，修改函数内容：
　　replaceRequestOption : function(req,option){
var newOption = option;
if(/google/i.test(newOption.headers.host)){
newOption.hostname = "www.baidu.com";
newOption.port = "80";
}
return newOption;
},
　　以上是anyproxy的规则文件的修改配置。配置修改完成后，重启anyproxy。在mac系统下，按control+c中断程序，然后输入命令sudo anyproxy -i启动；如果报错，程序可能无法干净退出，端口被占用。这时候输入命令ps -a查看占用的pid，然后输入命令“kill -9 pid”将pid替换为查询到的pid号。杀掉进程后，就可以启动anyproxy了。再次请原谅我不熟悉windows命令。
　　接下来详细介绍服务器端接收程序的设计原理：
　　（以下代码不能直接使用，只介绍原理，部分需要根据自己的服务器数据库框架编写）
　　1、getMsgJson.php：该程序负责接收历史消息的json，解析并存入数据库
<p> 查看全部

　　第二个链接地址的页面样式：
　　

　　根据目前的信息，这两种页面格式在不同的微信账号中出现不规则。有的微信账号永远是第一页格式，有的永远是第二页格式。
　　上面的链接是微信公众号历史新闻页面的真实链接，但是当我们在浏览器中输入这个链接时，会显示：请从微信客户端访问。这是因为链接地址实际上需要几个参数才能正常显示内容。我们来看看一个可以正常显示内容的完整链接是什么样子的：
　　//第一种链接
http://mp.weixin.qq.com/mp/get ... r%3D1
//第二种
http://mp.weixin.qq.com/mp/pro ... r%3D1
　　该地址是通过微信客户端打开历史消息页面后，使用后面介绍的代理服务器软件获取的。这里有几个参数：
　　action=;__biz=;uin=;key=;devicetype=;version=;lang=;nettype=;scene=;pass_ticket=;wx_header=;
　　重要的参数是：__biz;uin=;key=;pass_ticket=;这4个参数。
　　__biz 是公众号的类似id的参数。每个公众号都有一个微信。目前公众号的biz变动的可能性很小；
　　剩下的3个参数与用户id和tokenticket的含义有关。这3个参数的值在微信客户端生成后会自动添加到地址栏。所以我们认为采集公众号必须通过微信客户端。在之前的微信版本中，这3个参数也可以一次性获取，在有效期内可以使用多个公众号。在当前版本中，每次访问公众号都会更改参数值。
　　我现在使用的方法只需要关注__biz参数即可。
　　我的采集系统由以下部分组成：
　　1、A 微信客户端：可以是安装了微信应用的手机，也可以是电脑中的安卓模拟器。批量采集测试的ios微信客户端崩溃率高于Android系统。为了降低成本，我使用了Android模拟器。
　　

　　2、A微信个人账号：采集内容不仅需要微信客户端，还需要采集专用的微信个人账号，因为这个微信账号不能做其他事情。
　　3、本地代理服务器系统：目前使用的方法是通过Anyproxy代理服务器将公众号历史消息页面中的文章列表发送到自己的服务器。具体安装方法后面会详细介绍。
　　4、文章List分析入库系统：本人使用PHP语言编写，下篇文章将详细介绍如何分析文章lists并创建采集queues实现批量采集内容.
　　步骤
　　一、安装模拟器或使用手机安装微信客户端APP，申请微信个人账号并登录APP。这个就不多介绍了，大家自己做。
　　二、代理服务器系统安装
　　目前我使用 Anyproxy、AnyProxy。这个软件的特点是可以获取https链接的内容。 2016年初，微信公众号和微信文章开始使用https链接。而Anyproxy可以通过修改规则配置，在公众号页面插入脚本代码。下面将介绍安装和配置过程。
　　1、Install NodeJS
　　2、在命令行或终端运行npm install -g anyproxy，mac系统需要添加sudo；
　　3、生成RootCA，https需要这个证书：运行命令sudo anyproxy --root（windows可能不需要sudo）；
　　4、启动 anyproxy 运行命令：sudo anyproxy -i;参数-i表示解析HTTPS；
　　5、安装证书，在手机或者安卓模拟器安装证书：
　　6、Set proxy：安卓模拟器的代理服务器地址是wifi链接的网关。通过dhcp设置为静态后就可以看到网关地址了。阅读后不要忘记将其设置为自动。手机中的代理服务器地址就是运行anyproxy的电脑的ip地址。代理服务器默认端口为8001；
　　

　　现在打开微信，点击任意公众号历史消息或者文章，可以看到在终端滚动的响应码。如果没有出现，请检查手机的代理设置是否正确。
　　

　　现在打开浏览器地址localhost:8002就可以看到anyproxy的web界面了。微信点击打开一个历史消息页面，然后在浏览器的web界面查看，历史消息页面的地址会滚动。
　　

　　/mp/getmasssendmsg开头的网址是微信历史消息页面。左边的小锁表示这个页面是 https 加密的。现在我们点击这一行；
　　========2017 年 1 月 11 日更新==========
　　一些以/mp/getmasssendmsg开头的微信网址会出现302跳转到以/mp/profile_ext?action=home开头的地址。所以点击这个地址可以看到内容。
　　

　　如果右侧出现html文件内容，则表示解密成功。如果没有内容，请检查anyproxy运行方式是否有参数i，是否生成CA证书，是否在手机上正确安装了证书。
　　现在我们手机中的所有内容都可以明文通过代理服务器了。接下来，我们需要修改代理服务器的配置，以便获取公众号的内容。
　　一、找到配置文件：
　　mac系统中配置文件的位置是/usr/local/lib/node_modules/anyproxy/lib/；对于windows系统，不知道还请见谅。应该可以根据类似mac的文件夹地址找到这个目录。
　　二、修改文件 rule_default.js
　　找到 replaceServerResDataAsync: function(req,res,serverResData,callback) 函数
　　修改函数内容（请注意详细阅读注释，这里只是介绍原理，了解后根据自己的情况修改内容）：
　　========2017 年 1 月 11 日更新==========
　　因为有两种页面格式，相同的页面格式总是在不同的微信账号中显示，但是为了兼容两种页面格式，下面的代码会保留两种页面格式的判断。您也可以按照从您自己的页面表单中删除 li
　　replaceServerResDataAsync: function(req,res,serverResData,callback){
if(/mp\/getmasssendmsg/i.test(req.url)){//当链接地址为公众号历史消息页面时(第一种页面形式)
if(serverResData.toString() !== ""){
try {//防止报错退出程序
var reg = /msgList = (.*?);/;//定义历史消息正则匹配规则
var ret = reg.exec(serverResData.toString());//转换变量为string
HttpPost(ret[1],req.url,"getMsgJson.php");//这个函数是后文定义的，将匹配到的历史消息json发送到自己的服务器
var http = require('http');
http.get('http://xxx.com/getWxHis.php', function(res) {//这个地址是自己服务器上的一个程序，目的是为了获取到下一个链接地址，将地址放在一个js脚本中，将页面自动跳转到下一页。后文将介绍getWxHis.php的原理。
res.on('data', function(chunk){
callback(chunk+serverResData);//将返回的代码插入到历史消息页面中，并返回显示出来
})
});
}catch(e){//如果上面的正则没有匹配到，那么这个页面内容可能是公众号历史消息页面向下翻动的第二页，因为历史消息第一页是html格式的，第二页就是json格式的。
try {
var json = JSON.parse(serverResData.toString());
if (json.general_msg_list != []) {
HttpPost(json.general_msg_list,req.url,"getMsgJson.php");//这个函数和上面的一样是后文定义的，将第二页历史消息的json发送到自己的服务器
}
}catch(e){
console.log(e);//错误捕捉
}
callback(serverResData);//直接返回第二页json内容
}
}
}else if(/mp\/profile_ext\?action=home/i.test(req.url)){//当链接地址为公众号历史消息页面时(第二种页面形式)
try {
var reg = /var msgList = \'(.*?)\';/;//定义历史消息正则匹配规则（和第一种页面形式的正则不同）
var ret = reg.exec(serverResData.toString());//转换变量为string
HttpPost(ret[1],req.url,"getMsgJson.php");//这个函数是后文定义的，将匹配到的历史消息json发送到自己的服务器
var http = require('http');
http.get('http://xxx.com/getWxHis', function(res) {//这个地址是自己服务器上的一个程序，目的是为了获取到下一个链接地址，将地址放在一个js脚本中，将页面自动跳转到下一页。后文将介绍getWxHis.php的原理。
res.on('data', function(chunk){
callback(chunk+serverResData);//将返回的代码插入到历史消息页面中，并返回显示出来
})
});
}catch(e){
callback(serverResData);
}
}else if(/mp\/profile_ext\?action=getmsg/i.test(req.url)){//第二种页面表现形式的向下翻页后的json
try {
var json = JSON.parse(serverResData.toString());
if (json.general_msg_list != []) {
HttpPost(json.general_msg_list,req.url,"getMsgJson.php");//这个函数和上面的一样是后文定义的，将第二页历史消息的json发送到自己的服务器
}
}catch(e){
console.log(e);
}
callback(serverResData);
}else if(/mp\/getappmsgext/i.test(req.url)){//当链接地址为公众号文章阅读量和点赞量时
try {
HttpPost(serverResData,req.url,"getMsgExt.php");//函数是后文定义的，功能是将文章阅读量点赞量的json发送到服务器
}catch(e){
}
callback(serverResData);
}else if(/s\?__biz/i.test(req.url) || /mp\/rumor/i.test(req.url)){//当链接地址为公众号文章时（rumor这个地址是公众号文章被辟谣了）
try {
var http = require('http');
http.get('http://xxx.com/getWxPost.php', function(res) {//这个地址是自己服务器上的另一个程序，目的是为了获取到下一个链接地址，将地址放在一个js脚本中，将页面自动跳转到下一页。后文将介绍getWxPost.php的原理。
res.on('data', function(chunk){
callback(chunk+serverResData);
})
});
}catch(e){
callback(serverResData);
}
}else{
callback(serverResData);
}
},
　　以上代码是使用anyproxy修改返回页面内容、向页面注入脚本、将页面内容发送到服务器的功能。利用这个原理批量处理采集公众号内容和阅读量。该脚本中自定义了一个函数，详细说明如下：
　　在 rule_default.js 文件末尾添加以下代码：
　　function HttpPost(str,url,path) {//将json发送到服务器，str为json内容，url为历史消息页面地址，path是接收程序的路径和文件名
var http = require('http');
var data = {
str: encodeURIComponent(str),
url: encodeURIComponent(url)
};
content = require('querystring').stringify(data);
var options = {
method: "POST",
host: "www.xxx.com",//注意没有http://，这是服务器的域名。
port: 80,
path: path,//接收程序的路径和文件名
headers: {
'Content-Type': 'application/x-www-form-urlencoded; charset=UTF-8',
"Content-Length": content.length
}
};
var req = http.request(options, function (res) {
res.setEncoding('utf8');
res.on('data', function (chunk) {
console.log('BODY: ' + chunk);
});
});
req.on('error', function (e) {
console.log('problem with request: ' + e.message);
});
req.write(content);
req.end();
}
　　以上是规则修改的主要部分。您需要将json内容发送到您自己的服务器，并从服务器获取到下一页的跳转地址。这涉及到四个php文件：getMsgJson.php、getMsgExt.php、getWxHis.php、getWxPost.php
　　在详细介绍这4个php文件之前，为了提高采集系统性能，降低崩溃率，我们还可以做一些修改：
　　Android模拟器经常访问一些地址，会导致anyproxy崩溃，找到函数replaceRequestOption：function(req,option)，修改函数内容：
　　replaceRequestOption : function(req,option){
var newOption = option;
if(/google/i.test(newOption.headers.host)){
newOption.hostname = "www.baidu.com";
newOption.port = "80";
}
return newOption;
},
　　以上是anyproxy的规则文件的修改配置。配置修改完成后，重启anyproxy。在mac系统下，按control+c中断程序，然后输入命令sudo anyproxy -i启动；如果报错，程序可能无法干净退出，端口被占用。这时候输入命令ps -a查看占用的pid，然后输入命令“kill -9 pid”将pid替换为查询到的pid号。杀掉进程后，就可以启动anyproxy了。再次请原谅我不熟悉windows命令。
　　接下来详细介绍服务器端接收程序的设计原理：
　　（以下代码不能直接使用，只介绍原理，部分需要根据自己的服务器数据库框架编写）
　　1、getMsgJson.php：该程序负责接收历史消息的json，解析并存入数据库
<p>

java实现性能优化常用的java代码片段分享(一)

采集交流 • 优采云发表了文章 • 0 个评论 • 78 次浏览 • 2021-08-05 19:01 • 来自相关话题

　　java实现性能优化常用的java代码片段分享(一)
　　文章采集链接：java实现性能优化常用的java代码片段分享一些企业里经常采用的性能优化代码片段，实际开发中是非常有必要去规范。前段时间看到一篇不错的关于设计模式的文章，其中一个核心就是注意常量。这些常量我们是无法真正接触到的，所以很多细节是不必要去注意的。但是，注意这些东西有利于我们学习企业级的开发。
　　企业级开发一般都是比较简单，模块化的，你没办法随时随地调整所有的模块和功能。所以，我在这里给大家整理了一些经常出现在开发中的性能优化细节。上一篇主要讲的是spring的回调池，这一篇将会探讨线程池问题。主要采取线程池的目的是提高代码的效率，尤其是在长期的离线开发中，提高代码的效率和可读性也是比较有必要的。
　　常量计数器常量是非常常见的一种类型，计数器被保存在内存中，但是每次从内存中提取某个值的时候，是有规律的，并且规律性的和提取的数量一定要是相同的。通常来说，会使用同步的方式去实现这一点。但是这并不是绝对的，我们可以尝试避免同步去实现，但是并不保证百分百的避免了同步问题。作为调度器，我们是可以控制提取数量的时候尽量的好，但是要是有大量的值是提取到同一个线程内。
　　对于一般的情况，其实不影响性能。不影响性能的情况下，我们就用不同的线程池去处理这一问题。不同线程池处理不同数量的值的效率是比较高的。当然，如果我们要实现高效的线程池，我们可以设置特定的隔离度。但是，这就可能提高了性能，同时还牺牲了其他功能。我的建议是，我们尽量不要使用同步，尽量用共享的对象和变量来替换回调池中的回调方法。
　　在java中，需要不同线程池处理的值是不一样的，共享变量也是相同的。不同线程池提取同一个值的方式一样，如果我们对这个值进行了重写，会降低很多性能。我建议使用java内置的threadlocal来进行存储，如果没有特定的线程池，我们可以使用使用randominitialrange的值。atomicinteger的atomiclynovation机制将会替换这一数值。
　　线程池问题线程池由于是内置的，我们将无法通过我们的方式去修改线程池的性能。于是我们会采用java标准库中的threadpoolexecutor或者java的runnable代替内置的threadpoolexecutor。每个线程池都会进行一些优化，在这里，我们主要谈谈内置的threadpoolexecutor和java内置的runnable。
　　内置的threadpoolexecutor在执行的时候，由于他是java提供的，会直接调用java的类去执行，但是java提供的类去执行的时候，会使用内置的线程池，这意味着我们必须也去加入优化。这个问题需要用同步实现的线程池，我。查看全部

　　java实现性能优化常用的java代码片段分享(一)
　　文章采集链接：java实现性能优化常用的java代码片段分享一些企业里经常采用的性能优化代码片段，实际开发中是非常有必要去规范。前段时间看到一篇不错的关于设计模式的文章，其中一个核心就是注意常量。这些常量我们是无法真正接触到的，所以很多细节是不必要去注意的。但是，注意这些东西有利于我们学习企业级的开发。
　　企业级开发一般都是比较简单，模块化的，你没办法随时随地调整所有的模块和功能。所以，我在这里给大家整理了一些经常出现在开发中的性能优化细节。上一篇主要讲的是spring的回调池，这一篇将会探讨线程池问题。主要采取线程池的目的是提高代码的效率，尤其是在长期的离线开发中，提高代码的效率和可读性也是比较有必要的。
　　常量计数器常量是非常常见的一种类型，计数器被保存在内存中，但是每次从内存中提取某个值的时候，是有规律的，并且规律性的和提取的数量一定要是相同的。通常来说，会使用同步的方式去实现这一点。但是这并不是绝对的，我们可以尝试避免同步去实现，但是并不保证百分百的避免了同步问题。作为调度器，我们是可以控制提取数量的时候尽量的好，但是要是有大量的值是提取到同一个线程内。
　　对于一般的情况，其实不影响性能。不影响性能的情况下，我们就用不同的线程池去处理这一问题。不同线程池处理不同数量的值的效率是比较高的。当然，如果我们要实现高效的线程池，我们可以设置特定的隔离度。但是，这就可能提高了性能，同时还牺牲了其他功能。我的建议是，我们尽量不要使用同步，尽量用共享的对象和变量来替换回调池中的回调方法。
　　在java中，需要不同线程池处理的值是不一样的，共享变量也是相同的。不同线程池提取同一个值的方式一样，如果我们对这个值进行了重写，会降低很多性能。我建议使用java内置的threadlocal来进行存储，如果没有特定的线程池，我们可以使用使用randominitialrange的值。atomicinteger的atomiclynovation机制将会替换这一数值。
　　线程池问题线程池由于是内置的，我们将无法通过我们的方式去修改线程池的性能。于是我们会采用java标准库中的threadpoolexecutor或者java的runnable代替内置的threadpoolexecutor。每个线程池都会进行一些优化，在这里，我们主要谈谈内置的threadpoolexecutor和java内置的runnable。
　　内置的threadpoolexecutor在执行的时候，由于他是java提供的，会直接调用java的类去执行，但是java提供的类去执行的时候，会使用内置的线程池，这意味着我们必须也去加入优化。这个问题需要用同步实现的线程池，我。

安卓模拟器＋Anyproxy代理抓包分析微信客户端解决方案

采集交流 • 优采云发表了文章 • 0 个评论 • 138 次浏览 • 2021-08-01 01:43 • 来自相关话题

　　
安卓模拟器＋Anyproxy代理抓包分析微信客户端解决方案
　　
　　一、先说整体方案
　　1、使用搜狗公众号文章的采集，这样得到的文章URL是一个带有时间戳的临时链接。
　　
　　2、通过Android模拟器+Anyproxy代理，在微信客户端打开临时链接时，捕获分析微信客户端及其服务器请求的协议内容，获取永久链接。
　　
　　3、通过按钮向导模拟或Python脚本发送微信账号上的临时链接内容。只有在安卓模拟器的微信账号上发送内容时，Anyproxy代理才能抓取到相关的包内容。
　　二、说说具体的解决方法，主要是第二点
　　1、使用搜狗公众号文章的采集，这样得到的文章URL是一个带有时间戳的临时链接。将此作为数据采集时，经常会出现“请输入验证码”。我尝试使用IP代理池，但我还没有找到可以避免或解决此问题的IP代理服务器。我的处理方式是使用动态IP VPS服务来解决。具体步骤我就不细说了，因为这不是文章的重点。
　　
　　2、使用Android模拟器+Anyproxy代理，在微信客户端打开临时链接时，对微信客户端及其服务端请求的协议内容进行抓取分析，获取永久链接。我用的是win10系统。
　　1）微信客户端：下载安卓模拟器，并在模拟器上安装微信应用。
　　2）A微信个人账号：采集内容不仅需要微信客户端，还需要一个专门发送临时链接的微信个人账号。
　　3）Local 代理服务器系统：采用的方法是通过Anyproxy代理服务器将临时链接和永久链接发送到我们自己的服务器进行替换。具体安装方法后面会详细介绍。
　　我使用 Anyproxy。这个软件的特点是可以获取https链接的内容。 2016年初，微信公众号和微信文章开始使用https链接。而 Anyproxy 可以通过修改规则向服务器发送请求。下面将介绍安装和配置过程。
　　1、Install NodeJS
　　2、在命令行或终端运行 npm install -g anyproxy
　　3、生成RootCA，https需要这个证书：运行命令anyproxy --root
　　4、启动anyproxy运行命令：打开win＋R，输入anyproxy -i；参数-i表示解析HTTPS；
　　5、安装证书，在安卓模拟器中安装证书：启动anyproxy，打开浏览器：8002/fetchCrtFile，即可得到rootCA.crt文件
　　6、Set proxy：安卓模拟器的代理服务器地址是wifi链接的网关。您可以通过将 dhcp 设置为静态来查看网关地址。阅读后不要忘记将其设置为自动。代理服务器的默认端口为 8001。
　　
　　如何查看是否成功：在模拟器上打开微信，点击任意文章，在终端可以看到滚动的响应码。如果没有出现，请检查手机的代理设置是否正确。下面我的截图是打开浏览器地址：8002查看anyproxy的web界面。
　　
　　我在微信端打开了文章的临时链接。通过协议分析，我们可以知道永久链接被重定向到了302的位置。
　　4）修改Anyproxy文件rule_default.js，获取抓包中的协议内容。
　　rule_default.js文件在*\node_modules\anyproxy\lib\rule_default.js，找到replaceServerResDataAsync:function(req,res,serverResData,callback)函数，修改函数内容，劫持需要的内容因为我只需要劫持返回的code内容为302，所以只在statusCode==302时回调。
　　
　　找到replaceResponseHeader:function(req,res,header)函数，修改函数内容。获取永久链接，调用我在服务器上写的http接口。我的界面只有两个参数：临时链接和永久链接。在临时链接的基础上添加永久链接。
　　
　　好了，到此，使用Anyproxy将临时链接转换为永久链接的功能介绍完毕。
　　PS：使用Anyproxy直接获取微信公众号的所有文章（永久链接），包括点赞数、阅读数等信息。在这种情况下，您不需要使用搜狗。但是这里会有一些问题。微信这样做会屏蔽你的微信个人账号，所以我用搜狗爬山文章（急），然后在临时链接的有效期内用Anyproxy更新为永久链接。
　　3、使用按钮精灵模拟点击微信APP上的临时链接，也可以通过python脚本模拟。我正在写这篇文章，完成后我会更新它。查看全部

　　
安卓模拟器＋Anyproxy代理抓包分析微信客户端解决方案
　　

　　一、先说整体方案
　　1、使用搜狗公众号文章的采集，这样得到的文章URL是一个带有时间戳的临时链接。
　　

　　2、通过Android模拟器+Anyproxy代理，在微信客户端打开临时链接时，捕获分析微信客户端及其服务器请求的协议内容，获取永久链接。
　　

　　3、通过按钮向导模拟或Python脚本发送微信账号上的临时链接内容。只有在安卓模拟器的微信账号上发送内容时，Anyproxy代理才能抓取到相关的包内容。
　　二、说说具体的解决方法，主要是第二点
　　1、使用搜狗公众号文章的采集，这样得到的文章URL是一个带有时间戳的临时链接。将此作为数据采集时，经常会出现“请输入验证码”。我尝试使用IP代理池，但我还没有找到可以避免或解决此问题的IP代理服务器。我的处理方式是使用动态IP VPS服务来解决。具体步骤我就不细说了，因为这不是文章的重点。
　　

　　2、使用Android模拟器+Anyproxy代理，在微信客户端打开临时链接时，对微信客户端及其服务端请求的协议内容进行抓取分析，获取永久链接。我用的是win10系统。
　　1）微信客户端：下载安卓模拟器，并在模拟器上安装微信应用。
　　2）A微信个人账号：采集内容不仅需要微信客户端，还需要一个专门发送临时链接的微信个人账号。
　　3）Local 代理服务器系统：采用的方法是通过Anyproxy代理服务器将临时链接和永久链接发送到我们自己的服务器进行替换。具体安装方法后面会详细介绍。
　　我使用 Anyproxy。这个软件的特点是可以获取https链接的内容。 2016年初，微信公众号和微信文章开始使用https链接。而 Anyproxy 可以通过修改规则向服务器发送请求。下面将介绍安装和配置过程。
　　1、Install NodeJS
　　2、在命令行或终端运行 npm install -g anyproxy
　　3、生成RootCA，https需要这个证书：运行命令anyproxy --root
　　4、启动anyproxy运行命令：打开win＋R，输入anyproxy -i；参数-i表示解析HTTPS；
　　5、安装证书，在安卓模拟器中安装证书：启动anyproxy，打开浏览器：8002/fetchCrtFile，即可得到rootCA.crt文件
　　6、Set proxy：安卓模拟器的代理服务器地址是wifi链接的网关。您可以通过将 dhcp 设置为静态来查看网关地址。阅读后不要忘记将其设置为自动。代理服务器的默认端口为 8001。
　　

　　如何查看是否成功：在模拟器上打开微信，点击任意文章，在终端可以看到滚动的响应码。如果没有出现，请检查手机的代理设置是否正确。下面我的截图是打开浏览器地址：8002查看anyproxy的web界面。
　　

　　我在微信端打开了文章的临时链接。通过协议分析，我们可以知道永久链接被重定向到了302的位置。
　　4）修改Anyproxy文件rule_default.js，获取抓包中的协议内容。
　　rule_default.js文件在*\node_modules\anyproxy\lib\rule_default.js，找到replaceServerResDataAsync:function(req,res,serverResData,callback)函数，修改函数内容，劫持需要的内容因为我只需要劫持返回的code内容为302，所以只在statusCode==302时回调。
　　

　　找到replaceResponseHeader:function(req,res,header)函数，修改函数内容。获取永久链接，调用我在服务器上写的http接口。我的界面只有两个参数：临时链接和永久链接。在临时链接的基础上添加永久链接。
　　

　　好了，到此，使用Anyproxy将临时链接转换为永久链接的功能介绍完毕。
　　PS：使用Anyproxy直接获取微信公众号的所有文章（永久链接），包括点赞数、阅读数等信息。在这种情况下，您不需要使用搜狗。但是这里会有一些问题。微信这样做会屏蔽你的微信个人账号，所以我用搜狗爬山文章（急），然后在临时链接的有效期内用Anyproxy更新为永久链接。
　　3、使用按钮精灵模拟点击微信APP上的临时链接，也可以通过python脚本模拟。我正在写这篇文章，完成后我会更新它。

爬取网址为一级采集-以京东商品爬虫为例

采集交流 • 优采云发表了文章 • 0 个评论 • 222 次浏览 • 2021-07-29 06:00 • 来自相关话题

　　爬取网址为一级采集-以京东商品爬虫为例
　　第二层采集content：每个产品的标题、优惠券信息
　　第一步：定义一级任务
　　定义任务的基本操作，例如内容标注。样例拷贝请参考教程“采集List Data”。翻页操作请参考“翻页采集List”。这里只讲解采集关卡的关键步骤。
　　加载之前教程中采集京东List的任务（京东商品列表采集new）。如果你的工作台没有退出这个任务，直接做就可以了，不需要额外加载。
　　第 2 步：设置下级线索
　　2.1，找到下层（URL）链接
　　网页上商品的链接通常存储在DOM中A节点下的@href属性节点中。
　　在网页上点击产品的产品名称，观察下面的DOM窗口。光标位于节点上。如果不是A节点，则按照DOM节点向上或向下查找A节点。
　　
　　点击A节点，观察DOM窗口左侧的view元素小窗口，找到@href，注意查看其值是否为对应的商品链接。
　　
　　右键单击@href 并选择“内容映射”->“新建”。这样@href（产品链接）的值就映射到了一个新的爬取内容。
　　
　　弹出一个新窗口，要求为所爬取的内容提供一个字段名称，在本例中为名称“产品详细信息链接”。
　　
　　2.2，给下级任务命名
　　在上面的窗口继续操作，因为我们观察到@href中的商品链接缺少前面的“http”部分，这是一个相对网址，可以勾选“Complete URL”，爬虫采集会在过程中自动完成。
　　最重要的一步是检查“从属网址”。勾选后，下方会出现一个提示框，要求输入目标任务的名称。分层抓图时，这里必须输入二级任务的名称。
　　输入二级任务名称：京东商品详情采集new
　　
　　2.3，现在可以看到左边的workbench中增加了一条爬取内容：商品详情链接，测试一下是否被抓到。如果没有问题，保存任务。
　　
　　第三步：定义二级任务
　　3.1，退出一级任务
　　如下图所示，点击右上角的“三点”操作按钮，出现下拉菜单。选择“退出”后，浏览器进入正常浏览模式。这时，您可以点击页面上的产品。进入商品详情页面。
　　
　　
　　3.2，定义二级任务
　　现在您在产品详情页面，点击左栏中的“+”号进入任务定义状态，开始定义二级任务。
　　任务名称输入框需要填写二级任务名称。本例中，一级任务中已经指定二级任务名称：京东商品详情采集new，那么这里必须填写必须一致，否则网络爬虫连两级任务。
　　
　　接下来，在产品详细信息页面上标记所需的信息。注解的操作类似，可以参考“采集网站数据”教程，这里不再赘述。
　　提醒：这一步最重要的是我们新创建的二级任务的名称必须和一级任务指定的目标任务名称一致，这样一级任务才能通过捕获的指向一级任务的 URL 链接。次要任务。
　　3.3，保存二级任务
　　定义二级任务后，点击“保存”按钮，会看到如下提示。早期版本会根据第一张图片弹出提示框，后期版本会根据第二张图片弹出提示框。它会提示用户。一级规则的任务名称已经存在，属于正常提示，因为在定义一级任务的时候已经指定了二级任务名称。
　　
　　
　　第 4 步：捕获数据
　　4.1，层级任务分别独立运行。先运行一级任务，它会自动将捕获的下级URL导入二级任务中。操作方法参考下图，在任务管理界面选择对应任务的“开始采集”菜单即可。
　　4.2，然后运行二级任务，可以先统计线索数，然后输入统计的URL个数进行批量采集。
　　二级任务也可以同时运行，实际上可以没有特定的顺序。如果两个关卡同时运行，如下图所示，在任务管理界面，点击每个任务的“Start采集”。
　　
　　4.3、采集完成后直接点击“导出Excel”按钮，即可进入数据管理下载Excel格式的数据。
　　
　　tips：在二级任务中，采集优惠券信息是用嵌套示例复制的。可以参考下面的教程。
　　第 1 部分文章：“加载、修改和保存爬虫任务”第 2 部分文章：“内容映射” 查看全部

　　点击A节点，观察DOM窗口左侧的view元素小窗口，找到@href，注意查看其值是否为对应的商品链接。
　　

　　右键单击@href 并选择“内容映射”->“新建”。这样@href（产品链接）的值就映射到了一个新的爬取内容。
　　

　　弹出一个新窗口，要求为所爬取的内容提供一个字段名称，在本例中为名称“产品详细信息链接”。
　　

　　2.2，给下级任务命名
　　在上面的窗口继续操作，因为我们观察到@href中的商品链接缺少前面的“http”部分，这是一个相对网址，可以勾选“Complete URL”，爬虫采集会在过程中自动完成。
　　最重要的一步是检查“从属网址”。勾选后，下方会出现一个提示框，要求输入目标任务的名称。分层抓图时，这里必须输入二级任务的名称。
　　输入二级任务名称：京东商品详情采集new
　　

　　2.3，现在可以看到左边的workbench中增加了一条爬取内容：商品详情链接，测试一下是否被抓到。如果没有问题，保存任务。
　　

　　第三步：定义二级任务
　　3.1，退出一级任务
　　如下图所示，点击右上角的“三点”操作按钮，出现下拉菜单。选择“退出”后，浏览器进入正常浏览模式。这时，您可以点击页面上的产品。进入商品详情页面。
　　

　　3.2，定义二级任务
　　现在您在产品详情页面，点击左栏中的“+”号进入任务定义状态，开始定义二级任务。
　　任务名称输入框需要填写二级任务名称。本例中，一级任务中已经指定二级任务名称：京东商品详情采集new，那么这里必须填写必须一致，否则网络爬虫连两级任务。
　　

　　接下来，在产品详细信息页面上标记所需的信息。注解的操作类似，可以参考“采集网站数据”教程，这里不再赘述。
　　提醒：这一步最重要的是我们新创建的二级任务的名称必须和一级任务指定的目标任务名称一致，这样一级任务才能通过捕获的指向一级任务的 URL 链接。次要任务。
　　3.3，保存二级任务
　　定义二级任务后，点击“保存”按钮，会看到如下提示。早期版本会根据第一张图片弹出提示框，后期版本会根据第二张图片弹出提示框。它会提示用户。一级规则的任务名称已经存在，属于正常提示，因为在定义一级任务的时候已经指定了二级任务名称。
　　

　　第 4 步：捕获数据
　　4.1，层级任务分别独立运行。先运行一级任务，它会自动将捕获的下级URL导入二级任务中。操作方法参考下图，在任务管理界面选择对应任务的“开始采集”菜单即可。
　　4.2，然后运行二级任务，可以先统计线索数，然后输入统计的URL个数进行批量采集。
　　二级任务也可以同时运行，实际上可以没有特定的顺序。如果两个关卡同时运行，如下图所示，在任务管理界面，点击每个任务的“Start采集”。
　　

　　4.3、采集完成后直接点击“导出Excel”按钮，即可进入数据管理下载Excel格式的数据。
　　

　　tips：在二级任务中，采集优惠券信息是用嵌套示例复制的。可以参考下面的教程。
　　第 1 部分文章：“加载、修改和保存爬虫任务”第 2 部分文章：“内容映射”

ai一点：人工智能的发展是一个大趋势

采集交流 • 优采云发表了文章 • 0 个评论 • 72 次浏览 • 2021-07-13 06:04 • 来自相关话题

　　ai一点：人工智能的发展是一个大趋势
　　文章采集链接：：3月28日，罗胖在罗辑思维新节目里谈到了ai一点，本次直播留下了问题，我们整理了一下老罗谈到的一些问题，和大家分享。
　　自ai让搜索更智能后，再加上lbs，叫车、游戏、人工智能音乐等产业。
　　去做一个可以做dota，dota2，实时太阳系，实时太阳系轨道，实时rx480，百度飞图，
　　机器人，智能服务机器人，互联网ai工业机器人，ai医疗工业机器人。
　　人工智能，极智能（指ai）。这个过程里会最大的发展是人工智能的产业发展，是一个大趋势。人工智能的发展对社会发展来说是全局性的，可以这么理解人工智能对人类社会来说，人工智能就是一个工具，它来帮助人类解决或者解放人类的脑力，比如开发芯片，提升处理速度，解放人类的脑力等。
　　ai与其它大方向发展可能会产生裂变式的效应，人工智能有可能成为下一个大方向，而大方向之下会继续分化小方向，比如智能家居，智能医疗，智能金融等等。不过整体的方向大体不变。
　　不造啊，
　　你可以总结一下提问者既想问效率，又想问价值，既想问预期，又想问变量。倒是有点经济学思维。其实一条路子走到黑可以，1.智能手机2.智能家居3.智能汽车。这个方向在市场上有，但效率不高，不符合人性。因为其实电子商务，大数据处理等等方向，在社会上都有效率提升。电子商务应该只是大家今后选择方向的前置处理手段。
　　而我国的我应该是一直有提高效率的。但想着等一步先发展，而不是符合人性或者市场规律的。你仔细想想，从人类历史上看，大部分ai创业最后的落地应用都不是等一步发展的。而且在历史上，互联网创业领域，其实都是淘汰掉大部分思维理念，最后才能飞向银行，医院等等。所以不要指望今天的创业方向，今后是要变成持续发展的。比如说，互联网带来智能手机。
　　自动驾驶带来智能汽车，在最早也不是创业，而是有了几个重要的行业标准才会真正创业。等于，如果今天有了物联网，那么物联网创业是有好几个方向的。而人工智能开发，创业就简单多了。但自己观察看，ai创业，最主要的起点其实是从人工智能人才培养，其实很多人是自己变来变去做其他方向，自己搞不懂“需求”。这是这个方向最主要的矛盾点，但今天人工智能人才培养更主要的矛盾点，又是我们过去传统商业的弊端。
　　但这种矛盾总有化解方法。作为从业者来说，只要遵循互联网的行业营销推广方法，总能把握住用户，不在乎是传统方向还是人工智能方向。看准用户是关键。而技术上优化，要看如何理解一些“稀缺”资源，最终提升创业。查看全部

　　ai一点：人工智能的发展是一个大趋势
　　文章采集链接：：3月28日，罗胖在罗辑思维新节目里谈到了ai一点，本次直播留下了问题，我们整理了一下老罗谈到的一些问题，和大家分享。
　　自ai让搜索更智能后，再加上lbs，叫车、游戏、人工智能音乐等产业。
　　去做一个可以做dota，dota2，实时太阳系，实时太阳系轨道，实时rx480，百度飞图，
　　机器人，智能服务机器人，互联网ai工业机器人，ai医疗工业机器人。
　　人工智能，极智能（指ai）。这个过程里会最大的发展是人工智能的产业发展，是一个大趋势。人工智能的发展对社会发展来说是全局性的，可以这么理解人工智能对人类社会来说，人工智能就是一个工具，它来帮助人类解决或者解放人类的脑力，比如开发芯片，提升处理速度，解放人类的脑力等。
　　ai与其它大方向发展可能会产生裂变式的效应，人工智能有可能成为下一个大方向，而大方向之下会继续分化小方向，比如智能家居，智能医疗，智能金融等等。不过整体的方向大体不变。
　　不造啊，
　　你可以总结一下提问者既想问效率，又想问价值，既想问预期，又想问变量。倒是有点经济学思维。其实一条路子走到黑可以，1.智能手机2.智能家居3.智能汽车。这个方向在市场上有，但效率不高，不符合人性。因为其实电子商务，大数据处理等等方向，在社会上都有效率提升。电子商务应该只是大家今后选择方向的前置处理手段。
　　而我国的我应该是一直有提高效率的。但想着等一步先发展，而不是符合人性或者市场规律的。你仔细想想，从人类历史上看，大部分ai创业最后的落地应用都不是等一步发展的。而且在历史上，互联网创业领域，其实都是淘汰掉大部分思维理念，最后才能飞向银行，医院等等。所以不要指望今天的创业方向，今后是要变成持续发展的。比如说，互联网带来智能手机。
　　自动驾驶带来智能汽车，在最早也不是创业，而是有了几个重要的行业标准才会真正创业。等于，如果今天有了物联网，那么物联网创业是有好几个方向的。而人工智能开发，创业就简单多了。但自己观察看，ai创业，最主要的起点其实是从人工智能人才培养，其实很多人是自己变来变去做其他方向，自己搞不懂“需求”。这是这个方向最主要的矛盾点，但今天人工智能人才培养更主要的矛盾点，又是我们过去传统商业的弊端。
　　但这种矛盾总有化解方法。作为从业者来说，只要遵循互联网的行业营销推广方法，总能把握住用户，不在乎是传统方向还是人工智能方向。看准用户是关键。而技术上优化，要看如何理解一些“稀缺”资源，最终提升创业。

利用Anyproxy爬取微信公众号文章及临时链接转永久链接

采集交流 • 优采云发表了文章 • 0 个评论 • 279 次浏览 • 2021-07-05 19:26 • 来自相关话题

　　利用Anyproxy爬取微信公众号文章及临时链接转永久链接
　　在上一篇文章我用Anyproxy爬取了微信公众号文章和临时链接到永久链接。该方法可以获得文章的点赞数、阅读数等信息。如果你只需要获取某个微信公众号的所有文章，并且文章的链接是永久链接，那么看看我在文章上介绍的方法。
　　一、先说说破解方法
　　破解关键是使用微信公众号后台素材管理-新建图文素材-超链接-找到文章（公众号）的界面。如下图：
　　
　　进入微信公众号后台-素材管理-新图文素材-新图文留言
　　
　　超链接-查找文章（公众号）
　　二、具体破解方法
　　2.1 通过selenium+webdriver获取公众号的cookie
　　因为在公众号后台请求“查找文章（公众号）”接口时需要一个微信公众号cookie，所以在爬取文章内容之前需要获取一个可用的cookie。这一段比较简单，直接贴上我写的代码。 PS：享受优化和完美。
　　
　　获取 Cookie
　　2.2 微信公众号获取公众号文章interface get文章
　　1）微信公众号登录地址：
　　2）登录后获取token。
　　
　　3）使用微信公众号后台新建图文，搜索公众号名称，需要上一步的token。
　　
　　搜索公众号
　　并通过接口返回的内容获取公众号的fakeid。
　　
　　获取公众号的fakeid
　　4）选择要爬取的公众号，获取文章接口地址，需要上一步的fakeid。
　　
　　5）文章列表翻页和内容获取。
　　
　　文章列表第一页
　　
　　翻页和内容
　　三、完整代码
　　
　　完成代码
　　四、这在技术上有难度，请给我点个赞查看全部

　　进入微信公众号后台-素材管理-新图文素材-新图文留言
　　

　　超链接-查找文章（公众号）
　　二、具体破解方法
　　2.1 通过selenium+webdriver获取公众号的cookie
　　因为在公众号后台请求“查找文章（公众号）”接口时需要一个微信公众号cookie，所以在爬取文章内容之前需要获取一个可用的cookie。这一段比较简单，直接贴上我写的代码。 PS：享受优化和完美。
　　

　　获取 Cookie
　　2.2 微信公众号获取公众号文章interface get文章
　　1）微信公众号登录地址：
　　2）登录后获取token。
　　

　　3）使用微信公众号后台新建图文，搜索公众号名称，需要上一步的token。
　　

　　搜索公众号
　　并通过接口返回的内容获取公众号的fakeid。
　　

　　获取公众号的fakeid
　　4）选择要爬取的公众号，获取文章接口地址，需要上一步的fakeid。
　　

　　5）文章列表翻页和内容获取。
　　

　　文章列表第一页
　　

　　翻页和内容
　　三、完整代码
　　

　　完成代码
　　四、这在技术上有难度，请给我点个赞

内容优化篇——保证自己创作不被采集的原创文章

采集交流 • 优采云发表了文章 • 0 个评论 • 204 次浏览 • 2021-07-05 03:44 • 来自相关话题

　　
内容优化篇——保证自己创作不被采集的原创文章
　　
　　站长，在做网站的时候，网站的内容有时候就是采集，尤其是在现在采集成本极低的环境下，只要懂一点代码就好了。制作采集模块。即使你不知道如何编码，你也可以以低廉的价格找人编写。
　　新站上线了，我正在努力做着原创的内容，但是采集工具采集突然占据了全站。没有人能忍受。
　　另外，新站一开始没有权重，即使你发布你的原创，加权网站采集和发布你的文章，蜘蛛爬取网页也会优先收录有一个高权重的网页，认为是他的原创文章。
　　这是别人的典型婚纱。
　　虽然文章也有版权保护，但面对采集网站有什么用。他既然敢采集，就不怕你维权，现在维权成本高。
　　之前，熊掌有原创保护功能，但因为百度的业务，下线了。现在的原创真的无法保护。
　　那么今天五车儿就给大家分享一下它的方法，尽量保证你的创作不是采集。
　　内容优化章节
　　1.写作时，在你的作品中插入相关的品牌词。如：“XXX网编辑”、“XXX提醒大家”……或者用替代词，百度知道替代百度知道，百度知道，百度知道等。标记文章以便反馈可以用作稍后提供证据。
　　当然采集软件也有过滤功能，所以你可以为每篇文章文章使用不同的词汇。虽然有点累，但有些采集人不那么悲伤，总会错过一些细节。
　　2、图片水印处理，采集工具无法识别图片并过滤。原创文章的图片可以使用水印。就算采集不见了，他要处理，也得重新编辑一下。
　　更新技能（技术层面）章节
　　采集器，会让工具通过网站的URL识别最新的文章。只要我不发布最新的文章，采集工具将无法获取相关代码。只要我的文章先行收录，他在做采集，就会被搜索引擎判断为复制转发而不是原创。
　　1、隐藏更新（延迟），你站点的蜘蛛会爬取站点内所有的URL连接，采集工具不能。所以只要我们隐藏了一个页面，没有把它归入某个类别，就等着收录移入该类别。你可以避免第一次成为采集。
　　2.程序限制页面访问（一次只能访问多少页），机器速度比人快。一个人不可能在3分钟内访问每个类别的每篇文章文章，并且每个文章都是开放的。（注：一些采集工具可以延迟采集，因为他们也可以设置几分钟访问一篇文章。但成本很高。）
　　3.限制面向用户的页面显示。比如我只给你看1页，第二页是用来验证的。
　　4.验证机制。其实有些网站可以在用户访问异常时弹出验证码框进行人机验证，也可以避免采集tools采集。
　　5、尽量不要对链接进行排序。采集tools 最初使用源代码来识别 URL。一些有序的URL链接非常喜欢采集人，因为不麻烦，可以采集整站数据。星控站长网是/1.html，工具甚至可以直接采集文章1-99999.html 不用进分类。所以这是一个糟糕的 URL 设计习惯。
　　百度站长工具篇
　　百度站长工具可以手动提交链接。
　　结合上面【技术层面】章节的第一点，我们先延迟更新隐藏页面。
　　然后用百度的站长工具收录submit，提交我们的原创文章网址，等待百度收录。查看全部

　　
内容优化篇——保证自己创作不被采集的原创文章
　　

　　站长，在做网站的时候，网站的内容有时候就是采集，尤其是在现在采集成本极低的环境下，只要懂一点代码就好了。制作采集模块。即使你不知道如何编码，你也可以以低廉的价格找人编写。
　　新站上线了，我正在努力做着原创的内容，但是采集工具采集突然占据了全站。没有人能忍受。
　　另外，新站一开始没有权重，即使你发布你的原创，加权网站采集和发布你的文章，蜘蛛爬取网页也会优先收录有一个高权重的网页，认为是他的原创文章。
　　这是别人的典型婚纱。
　　虽然文章也有版权保护，但面对采集网站有什么用。他既然敢采集，就不怕你维权，现在维权成本高。
　　之前，熊掌有原创保护功能，但因为百度的业务，下线了。现在的原创真的无法保护。
　　那么今天五车儿就给大家分享一下它的方法，尽量保证你的创作不是采集。
　　内容优化章节
　　1.写作时，在你的作品中插入相关的品牌词。如：“XXX网编辑”、“XXX提醒大家”……或者用替代词，百度知道替代百度知道，百度知道，百度知道等。标记文章以便反馈可以用作稍后提供证据。
　　当然采集软件也有过滤功能，所以你可以为每篇文章文章使用不同的词汇。虽然有点累，但有些采集人不那么悲伤，总会错过一些细节。
　　2、图片水印处理，采集工具无法识别图片并过滤。原创文章的图片可以使用水印。就算采集不见了，他要处理，也得重新编辑一下。
　　更新技能（技术层面）章节
　　采集器，会让工具通过网站的URL识别最新的文章。只要我不发布最新的文章，采集工具将无法获取相关代码。只要我的文章先行收录，他在做采集，就会被搜索引擎判断为复制转发而不是原创。
　　1、隐藏更新（延迟），你站点的蜘蛛会爬取站点内所有的URL连接，采集工具不能。所以只要我们隐藏了一个页面，没有把它归入某个类别，就等着收录移入该类别。你可以避免第一次成为采集。
　　2.程序限制页面访问（一次只能访问多少页），机器速度比人快。一个人不可能在3分钟内访问每个类别的每篇文章文章，并且每个文章都是开放的。（注：一些采集工具可以延迟采集，因为他们也可以设置几分钟访问一篇文章。但成本很高。）
　　3.限制面向用户的页面显示。比如我只给你看1页，第二页是用来验证的。
　　4.验证机制。其实有些网站可以在用户访问异常时弹出验证码框进行人机验证，也可以避免采集tools采集。
　　5、尽量不要对链接进行排序。采集tools 最初使用源代码来识别 URL。一些有序的URL链接非常喜欢采集人，因为不麻烦，可以采集整站数据。星控站长网是/1.html，工具甚至可以直接采集文章1-99999.html 不用进分类。所以这是一个糟糕的 URL 设计习惯。
　　百度站长工具篇
　　百度站长工具可以手动提交链接。
　　结合上面【技术层面】章节的第一点，我们先延迟更新隐藏页面。
　　然后用百度的站长工具收录submit，提交我们的原创文章网址，等待百度收录。

【每日一题】如何将获取的表格直接分词成语料

采集交流 • 优采云发表了文章 • 0 个评论 • 90 次浏览 • 2021-07-03 22:01 • 来自相关话题

　　【每日一题】如何将获取的表格直接分词成语料
　　文章采集链接：-text/article-extraction-urlonly?__abstract__='如何将获取的表格直接分词成语料'导读这篇文章介绍了如何使用gensim模型构建python文本摘要模型。使用gensim的模型，可以快速实现摘要与文本生成任务。在获取的文本的列表中存放着表格，列表中存放着每个列表中的文本，每一行中存放一个单词，一行或者多行，如上图。
　　目标是评估词向量应用到摘要任务中的效果。demo下载-gensim-artificial-recurrent_demo读取demo:read_gensim.py按照下图的形式，在list中搜索每个文本所属的表格，形成raw_txt。importre,gensim#lib文件fromsklearn.model_selectionimporttrain_test_split#文件为train_test_split.reshape(3,。
　　3)x=gensim。load_document('train_test_split。txt')doc_dict=x。documentdoc_txt=doc_dict。transform(x)text=gensim。cut("。/recaparsize/{x}/{y}",skip_width=0,skip_height=0,batch_size=。
　　1)x=doc_dict[text]y=doc_dict[text]predictions=gensim。filter(doc_dict,x)predictions_txt=gensim。filter(doc_dict,y)#显示摘要demo=predictions_txt+text#打印print(tf。tf。global_variables_info(dummy_name,tf。float3。
　　2))以上就是对文本进行摘要的操作了。生成词向量词向量表示文本的信息。语料摘要的最终目的是构建一个可以从第一行和最后一行构建不同输出向量的模型。通常使用的方法是将一组词构建成一个矩阵。其中每一列表示一个单词。这有助于进行聚类。提取数据使用一组数据构建一个词表，作为embeddingvector输入到gensim.feature_selection进行数据清洗。
　　使用meanerror进行第一行的词的均值和标准差计算embedding。此外，词向量还需要构建成一个样本数据。embedding使用tf.variable进行定义。图片对应词的类型、大小、是否双向都可以定义。图片（例如grayscale.jpg）中，像素不对应任何文本的词向量。显示文本细节将得到的embedding矩阵存储在list中，方便后续使用。
　　使用矩阵tf.tf.global_variables_info(dummy_name,tf.float3
　　2)来查看是否有缺失值。保存摘要文本定义一个有损损失函数（损失函数将损失函数定义为高斯分布），即逻辑回归。损失函数可以设置为：（注意不要混淆这些概念，损失函数是一个计算高斯分布的代价函数。查看全部

　　【每日一题】如何将获取的表格直接分词成语料
　　文章采集链接：-text/article-extraction-urlonly?__abstract__='如何将获取的表格直接分词成语料'导读这篇文章介绍了如何使用gensim模型构建python文本摘要模型。使用gensim的模型，可以快速实现摘要与文本生成任务。在获取的文本的列表中存放着表格，列表中存放着每个列表中的文本，每一行中存放一个单词，一行或者多行，如上图。
　　目标是评估词向量应用到摘要任务中的效果。demo下载-gensim-artificial-recurrent_demo读取demo:read_gensim.py按照下图的形式，在list中搜索每个文本所属的表格，形成raw_txt。importre,gensim#lib文件fromsklearn.model_selectionimporttrain_test_split#文件为train_test_split.reshape(3,。
　　3)x=gensim。load_document('train_test_split。txt')doc_dict=x。documentdoc_txt=doc_dict。transform(x)text=gensim。cut("。/recaparsize/{x}/{y}",skip_width=0,skip_height=0,batch_size=。
　　1)x=doc_dict[text]y=doc_dict[text]predictions=gensim。filter(doc_dict,x)predictions_txt=gensim。filter(doc_dict,y)#显示摘要demo=predictions_txt+text#打印print(tf。tf。global_variables_info(dummy_name,tf。float3。
　　2))以上就是对文本进行摘要的操作了。生成词向量词向量表示文本的信息。语料摘要的最终目的是构建一个可以从第一行和最后一行构建不同输出向量的模型。通常使用的方法是将一组词构建成一个矩阵。其中每一列表示一个单词。这有助于进行聚类。提取数据使用一组数据构建一个词表，作为embeddingvector输入到gensim.feature_selection进行数据清洗。
　　使用meanerror进行第一行的词的均值和标准差计算embedding。此外，词向量还需要构建成一个样本数据。embedding使用tf.variable进行定义。图片对应词的类型、大小、是否双向都可以定义。图片（例如grayscale.jpg）中，像素不对应任何文本的词向量。显示文本细节将得到的embedding矩阵存储在list中，方便后续使用。
　　使用矩阵tf.tf.global_variables_info(dummy_name,tf.float3
　　2)来查看是否有缺失值。保存摘要文本定义一个有损损失函数（损失函数将损失函数定义为高斯分布），即逻辑回归。损失函数可以设置为：（注意不要混淆这些概念，损失函数是一个计算高斯分布的代价函数。

运营公众号怎样收集素材文章文章的相关资料方法介绍

采集交流 • 优采云发表了文章 • 0 个评论 • 84 次浏览 • 2021-07-02 04:08 • 来自相关话题

　　
运营公众号怎样收集素材文章文章的相关资料方法介绍
　　如何操作公众号采集素材文章两种获取热门素材的方法详解
　　对于公众号运营商来说，文章素材的采集非常重要，因为它可以有效提升你文章的质量，下面就跟着135小编一起来了解公众号的运营方式吧，采集相关资料素材文章。
　　公众号运营资料如何采集文章方法一
　　获取文章链接，电脑用户可以直接在浏览器地址栏中选择并复制文章链接。手机用户可以点击右上角的菜单按钮，选择复制链接，将链接发送到电脑。
　　
　　公众号运营材料如何采集文章
　　点击拓图数据采集文章按钮，编辑器采集文章有两个功能入口：编辑菜单右上角的采集文章按钮； @k15 在功能按钮的底部右侧@文章按钮。粘贴文章链接并单击采集。采集完成后可以编辑修改文章。
　　公众号运营材料如何采集文章方法二
　　从网上能搜到的公众号文章采集，这是最直接、最简单的解决方法。
　　大致流程是：
　　1、通过搜索引擎搜索微信搜索入口进入公众号搜索。
　　2、选择公众号进入公众号历史文章列表和文章内容进行分析和存储。
　　
　　公众号运营材料如何采集文章
　　如果采集太频繁，搜狗搜索和公众账号历史文章list访问都会显示验证码。无法直接使用通用脚本采集获取验证码。在这里您可以使用无头浏览器通过对接打码平台访问和识别验证码。 Selenium 可以用作无头浏览器。
　　公众号运营如何采集文章资料？其实，拓图数据认为文章对于微信公众号运营的素材采集是非常重要的，所以大家可以按照上面的方法做好文章的素材采集。！查看全部

　　公众号运营材料如何采集文章
　　点击拓图数据采集文章按钮，编辑器采集文章有两个功能入口：编辑菜单右上角的采集文章按钮； @k15 在功能按钮的底部右侧@文章按钮。粘贴文章链接并单击采集。采集完成后可以编辑修改文章。
　　公众号运营材料如何采集文章方法二
　　从网上能搜到的公众号文章采集，这是最直接、最简单的解决方法。
　　大致流程是：
　　1、通过搜索引擎搜索微信搜索入口进入公众号搜索。
　　2、选择公众号进入公众号历史文章列表和文章内容进行分析和存储。
　　

　　公众号运营材料如何采集文章
　　如果采集太频繁，搜狗搜索和公众账号历史文章list访问都会显示验证码。无法直接使用通用脚本采集获取验证码。在这里您可以使用无头浏览器通过对接打码平台访问和识别验证码。 Selenium 可以用作无头浏览器。
　　公众号运营如何采集文章资料？其实，拓图数据认为文章对于微信公众号运营的素材采集是非常重要的，所以大家可以按照上面的方法做好文章的素材采集。！

【机械学堂】单片机控制下的cnc编程速度控制算法

采集交流 • 优采云发表了文章 • 0 个评论 • 101 次浏览 • 2021-07-01 05:02 • 来自相关话题

　　【机械学堂】单片机控制下的cnc编程速度控制算法
　　文章采集链接更多优质原创内容公众号“机械学堂”转载请注明出处cnc控制系统简单来说就是通过编程实现单片机对模拟量和数字量的控制，其基本原理包括旋转控制、位置控制和速度控制，下面以单片机控制下的cnc编程速度控制为例。单片机控制速度流程：环境采样——快速采样——在固定点阵中建立坐标系——遍历坐标网格进行压缩——选择值——放大——编程速度控制该流程如下图所示：下面采用循环压缩法进行编程，首先对模拟量进行采样，比如采集了400次6位有效数据，接着通过fsp算法fastsaw，对400次数据依次进行编程获取模拟量值，并设置控制器产生与模拟量相同的值。
　　接着迭代建立坐标网格，进行压缩、编程速度控制，步骤如下：控制器按下图方式采集数据，下面采用循环采集法循环进行下面的数据压缩，数据压缩中有采样次数的设置，循环压缩方式如下：循环压缩法下的压缩参数设置完成后，程序就可以开始编程了。编程速度控制算法：循环压缩法：给定控制器采集数据，循环压缩法：速度控制算法：点击阅读原文即可获取，
　　写这样一段程序可以参考开发板。每个adc上连接单片机，判断动作后，返回一个hal文件，可以是c语言代码，也可以是rst文件，也可以是ftp文件，或者采用rtp，需要设置精确接收等。编写程序，需要学习c语言和单片机原理。test01.cs6045/test01.hlimits1000000rawscan=mark3whilelevel(mark3-mark。
　　1)inrawscan2putslevel(mark1-mark
　　1)inlevel(mark1-mark
　　1)inputshalscans1aavgaddressmarkaddress2putsaresulttoadc。adcidentifiers0bs,piandfseachothervalues=mark3scores=br,0。4-allmarkbraggers(a)andmarkactresses(b)aaaaakandabba1aadbscadc。
　　make_element11(aaaaak,abba1a,allchannels)adc。make_element11(abba1a,aaaaak,allchannels)last_transmissionelseifelementmarkis0elseputselement(element/(elementmark+halidentifiers))prewhenlevelbytes=0,isgpureadandmarkisinitialandsize=1(edge)endlast_transmissionelselevel(mark2-mark3-edge)putsadc_tuple_tdletotargetadc。
　　fn(initializetransmission)tablet[normal){if(element==。
　　0){mark=element;adc.fn(initializetransmission)}else{adc.to_direct=flag;//direct=tfmodecasepose=flag;speed 查看全部

　　【机械学堂】单片机控制下的cnc编程速度控制算法
　　文章采集链接更多优质原创内容公众号“机械学堂”转载请注明出处cnc控制系统简单来说就是通过编程实现单片机对模拟量和数字量的控制，其基本原理包括旋转控制、位置控制和速度控制，下面以单片机控制下的cnc编程速度控制为例。单片机控制速度流程：环境采样——快速采样——在固定点阵中建立坐标系——遍历坐标网格进行压缩——选择值——放大——编程速度控制该流程如下图所示：下面采用循环压缩法进行编程，首先对模拟量进行采样，比如采集了400次6位有效数据，接着通过fsp算法fastsaw，对400次数据依次进行编程获取模拟量值，并设置控制器产生与模拟量相同的值。
　　接着迭代建立坐标网格，进行压缩、编程速度控制，步骤如下：控制器按下图方式采集数据，下面采用循环采集法循环进行下面的数据压缩，数据压缩中有采样次数的设置，循环压缩方式如下：循环压缩法下的压缩参数设置完成后，程序就可以开始编程了。编程速度控制算法：循环压缩法：给定控制器采集数据，循环压缩法：速度控制算法：点击阅读原文即可获取，
　　写这样一段程序可以参考开发板。每个adc上连接单片机，判断动作后，返回一个hal文件，可以是c语言代码，也可以是rst文件，也可以是ftp文件，或者采用rtp，需要设置精确接收等。编写程序，需要学习c语言和单片机原理。test01.cs6045/test01.hlimits1000000rawscan=mark3whilelevel(mark3-mark。
　　1)inrawscan2putslevel(mark1-mark
　　1)inlevel(mark1-mark
　　1)inputshalscans1aavgaddressmarkaddress2putsaresulttoadc。adcidentifiers0bs,piandfseachothervalues=mark3scores=br,0。4-allmarkbraggers(a)andmarkactresses(b)aaaaakandabba1aadbscadc。
　　make_element11(aaaaak,abba1a,allchannels)adc。make_element11(abba1a,aaaaak,allchannels)last_transmissionelseifelementmarkis0elseputselement(element/(elementmark+halidentifiers))prewhenlevelbytes=0,isgpureadandmarkisinitialandsize=1(edge)endlast_transmissionelselevel(mark2-mark3-edge)putsadc_tuple_tdletotargetadc。
　　fn(initializetransmission)tablet[normal){if(element==。
　　0){mark=element;adc.fn(initializetransmission)}else{adc.to_direct=flag;//direct=tfmodecasepose=flag;speed

文章采集链接办公生活节奏紧张，看看鲜花花会怎么开放(组图)

采集交流 • 优采云发表了文章 • 0 个评论 • 179 次浏览 • 2021-06-26 07:02 • 来自相关话题

　　文章采集链接办公生活节奏紧张，看看鲜花花会怎么开放(组图)
　　文章采集链接：【文字采集】泰坦style-微博微信新闻热搜热点采集导语：办公生活节奏紧张，各位可以周末过一下感恩节生活的态度，看看鲜花花会怎么开放。每年泰坦维度的生日数据都是报告的重要素材，并且让我们了解到，任何的福利活动，在办公环境中都是必备的了，结合大数据：电话访问分析，高效分析全新的生日数据全国人民对泰坦的喜爱程度，结合投票结果：有服务电话的是高阶粉丝群体，无服务电话的则是对投票结果不太了解的群体，其中产品设计师、项目经理对美国色更为偏爱。
　　并且还能够挑选出具备粉丝代表性的粉丝群体，就比如购买泰坦品牌书籍的粉丝。上千万人认为：泰坦代表大爱、正义、严谨、温情，解决工作中人际交往，同时也能让家人省心，配合最新的时事发展，更能够调动员工工作积极性，开发新的人力资源。而对于企业老板、管理层、销售人员、品牌运营总监、客服人员、数据分析师、电话访问人员等都是一个不错的喜爱，我也是投票者，结果如下：。
　　有的，不过泰坦网站的数据，对于我们普通用户来说有些问题，我用下泰坦，基本上问题出现在想买商品时，需要收费购买数据。
　　刚上线，做的非常完善了，用户在我这里的反应都很好，客服专业有耐心，体验很好，对于办公效率，付费考虑是非常明智的，毕竟每个公司的实际情况和管理是不一样的。欢迎关注我们的网站/。查看全部

　　文章采集链接办公生活节奏紧张，看看鲜花花会怎么开放(组图)
　　文章采集链接：【文字采集】泰坦style-微博微信新闻热搜热点采集导语：办公生活节奏紧张，各位可以周末过一下感恩节生活的态度，看看鲜花花会怎么开放。每年泰坦维度的生日数据都是报告的重要素材，并且让我们了解到，任何的福利活动，在办公环境中都是必备的了，结合大数据：电话访问分析，高效分析全新的生日数据全国人民对泰坦的喜爱程度，结合投票结果：有服务电话的是高阶粉丝群体，无服务电话的则是对投票结果不太了解的群体，其中产品设计师、项目经理对美国色更为偏爱。
　　并且还能够挑选出具备粉丝代表性的粉丝群体，就比如购买泰坦品牌书籍的粉丝。上千万人认为：泰坦代表大爱、正义、严谨、温情，解决工作中人际交往，同时也能让家人省心，配合最新的时事发展，更能够调动员工工作积极性，开发新的人力资源。而对于企业老板、管理层、销售人员、品牌运营总监、客服人员、数据分析师、电话访问人员等都是一个不错的喜爱，我也是投票者，结果如下：。
　　有的，不过泰坦网站的数据，对于我们普通用户来说有些问题，我用下泰坦，基本上问题出现在想买商品时，需要收费购买数据。
　　刚上线，做的非常完善了，用户在我这里的反应都很好，客服专业有耐心，体验很好，对于办公效率，付费考虑是非常明智的，毕竟每个公司的实际情况和管理是不一样的。欢迎关注我们的网站/。

超速摄像的原理和方法，不用做事后诸葛亮！

采集交流 • 优采云发表了文章 • 0 个评论 • 143 次浏览 • 2021-06-23 21:02 • 来自相关话题

　　超速摄像的原理和方法，不用做事后诸葛亮！
　　文章采集链接：：本文为“旅游安全指南”系列其中一篇（第三篇目前还未完成。）想让大家理解超速摄像的原理和方法，不用做事后诸葛亮！转个你熟悉的故事：“我去xxx了，把你家的棺材搬过来”还有哪些安全摄像的有趣事例，并给出相应的视频？每期文章我会选择大家都能理解的安全问题，用一两个故事，首先试着把大家熟悉的安全问题“讲给大家听”。
　　告诉大家一些“超速摄像”的基本原理，以及每个问题背后其实是“怎么回事”。或许随着大家越来越熟悉，会一直持续下去，或许直到大家看了一篇科普文章后自己也能再读一遍，或许会有自己独到的见解。在一件事物发生的过程中，我们看到的只是这个东西的局部，那么我们都能找到这个“局部”的同类案例。这是我们可以用来参考的线索，也可以是个人经验，或者证据。
　　视频源自高清落地摄像机和用于悬疑侦探推理的《xxxxx》，侵删。每一帧观看已经超过十分钟，所以只挑小亮点。小亮点就是“超速摄像”拍摄的那个片段，在后期剪辑的时候我也会把大概的故事讲给大家听，方便大家理解这个事件背后的“因果”关系。如果要更细的了解我故事的详细内容，请保持关注后期推出的“安全指南”系列。
　　这套安全指南里面有很多新闻、影视剧的推理点，各位的热情肯定也很高。同时大家也可以参加一些有趣的安全体验活动，体验即我们说的兴趣班，目前我们有三个体验名额，开始是免费的，就是报了我们才有这个名额。每期也只安排一天时间，但是有机会体验完后才能报名参加。扫码识别图中二维码报名体验活动。查看全部

　　超速摄像的原理和方法，不用做事后诸葛亮！
　　文章采集链接：：本文为“旅游安全指南”系列其中一篇（第三篇目前还未完成。）想让大家理解超速摄像的原理和方法，不用做事后诸葛亮！转个你熟悉的故事：“我去xxx了，把你家的棺材搬过来”还有哪些安全摄像的有趣事例，并给出相应的视频？每期文章我会选择大家都能理解的安全问题，用一两个故事，首先试着把大家熟悉的安全问题“讲给大家听”。
　　告诉大家一些“超速摄像”的基本原理，以及每个问题背后其实是“怎么回事”。或许随着大家越来越熟悉，会一直持续下去，或许直到大家看了一篇科普文章后自己也能再读一遍，或许会有自己独到的见解。在一件事物发生的过程中，我们看到的只是这个东西的局部，那么我们都能找到这个“局部”的同类案例。这是我们可以用来参考的线索，也可以是个人经验，或者证据。
　　视频源自高清落地摄像机和用于悬疑侦探推理的《xxxxx》，侵删。每一帧观看已经超过十分钟，所以只挑小亮点。小亮点就是“超速摄像”拍摄的那个片段，在后期剪辑的时候我也会把大概的故事讲给大家听，方便大家理解这个事件背后的“因果”关系。如果要更细的了解我故事的详细内容，请保持关注后期推出的“安全指南”系列。
　　这套安全指南里面有很多新闻、影视剧的推理点，各位的热情肯定也很高。同时大家也可以参加一些有趣的安全体验活动，体验即我们说的兴趣班，目前我们有三个体验名额，开始是免费的，就是报了我们才有这个名额。每期也只安排一天时间，但是有机会体验完后才能报名参加。扫码识别图中二维码报名体验活动。

原创文章被别人即时复制怎么办？如何处理？？

采集交流 • 优采云发表了文章 • 0 个评论 • 199 次浏览 • 2021-06-21 21:27 • 来自相关话题

　　原创文章被别人即时复制怎么办？如何处理？？
　　许多人讨厌他们的原创文章被其他人立即复制。有些人甚至用它来发送一些垃圾邮件链接。尤其相信很多老人都遇到过这样的情况。有时他们的努力还不如采集。我们如何处理这种情况？
　　首先，在参赛者采集这个文章之前，尽量让搜索引擎收录它。
　　1、及时抓取文章，让搜索引擎知道这个文章。
　　2、Ping在百度网站管理自己的文章链接上，这也是百度官方告诉我们的一种方式。
　　二、文章标记作者或版本。
　　万向认为，有时候阻止别人抄袭你的文章是不可能的，但这也是一种书面的交流和提醒，总比没有强。
　　
　　三、在文章中添加一些功能。
　　1、例如文章中的标签代码如n1、n2、color，搜索引擎会对这些内容更加敏感，从而加深对原创的判断。
　　2、在文章添加你自己的品牌词汇
　　3、加一些内链，因为喜欢抄文章的人一般比较懒。不排除有些人可以直接复制粘贴。
　　4、当文章文章被及时添加时，搜索引擎会判断文章的原创性并参考时间因素。
　　四、过滤网页的关键功能
　　大多数人在使用鼠标右键复制文章时，如果技术不受此功能影响，无疑会增加采集的麻烦。
　　五、night 更新
　　你害怕的是你的对手知道你的习惯，尤其是在白天。很多人喜欢在白天更新自己的文章，却被别人盯上了。瞬间文章被抄袭。
　　在我们的网站上可以看到这些方法之后，相信这样可以减少文章的集合数量。查看全部

　　三、在文章中添加一些功能。
　　1、例如文章中的标签代码如n1、n2、color，搜索引擎会对这些内容更加敏感，从而加深对原创的判断。
　　2、在文章添加你自己的品牌词汇
　　3、加一些内链，因为喜欢抄文章的人一般比较懒。不排除有些人可以直接复制粘贴。
　　4、当文章文章被及时添加时，搜索引擎会判断文章的原创性并参考时间因素。
　　四、过滤网页的关键功能
　　大多数人在使用鼠标右键复制文章时，如果技术不受此功能影响，无疑会增加采集的麻烦。
　　五、night 更新
　　你害怕的是你的对手知道你的习惯，尤其是在白天。很多人喜欢在白天更新自己的文章，却被别人盯上了。瞬间文章被抄袭。
　　在我们的网站上可以看到这些方法之后，相信这样可以减少文章的集合数量。

爬网址做采集规则的时候，直观标注很方便。

采集交流 • 优采云发表了文章 • 0 个评论 • 153 次浏览 • 2021-08-18 21:30 • 来自相关话题

　　右键href节点，内容映射-新建内容
　　

　　给新内容起个名字叫“商品链接”，因为采集是一个URL链接，href节点中的URL不完整，所以检查完整的URL。
　　

　　大功告成，我们测试一下，看看产品链接是否被抓到了。
　　

　　在这个例子中，新内容的名称是文章。整个内容映射到文章。
　　

　　因为我们的采集是文本内容，所以我们要选择纯文本。
　　

　　第 1 部分文章：“爬上 URL 以提高水平采集”第 2 部分文章：“定位和映射以改进网页采集accuracy”

　　选择ul中li中的链接，注意排除重复地址，可以点击下方测试网址采集获取。
　　

　　你可以看到采集的文章链接。
　　

　　3、采集content 规则
　　我需要采集显示下图中的数据（catid是列id，可以把采集的数据放到对应的列中，设置一个固定值即可）
　　

　　关注内容和图片的采集，标题和描述与内容采集一致
　　

　　还有需要下载页面图片，勾选并填写以下选项
　　

　　图片采集：
　　(1)所选范围与内容一致(文章内图片)
　　(2)数据处理选提取第一张图片内容为：
　　(3)只要aa.jpg，常规过滤
　　

　　获取内容：aa.jpg
　　(4)database 是带前缀存放的，加进去，upload/xxxxx/
　　

　　找到一个页面并测试它。可以看到对应的物品都获得了。
　　

　　4、发布内容设置，这里以发布到数据库的方式为例，编辑完成后返回这里查看刚刚定义的模块：
　　

　　5、我需要把图片保存到本地，还要设置保存文件的路径（ftp以后会尝试使用）。
　　

　　6、保存，查看新创建的任务，右键启动任务，可以看到这里下载了文字和图片，在数据库中可以看到。
　　

一个微信公众号历史消息页面的链接地址和采集方法

采集交流 • 优采云发表了文章 • 0 个评论 • 630 次浏览 • 2021-08-08 21:18 • 来自相关话题

　　第二个链接地址的页面样式：
　　

　　现在打开微信，点击任意公众号历史消息或者文章，可以看到在终端滚动的响应码。如果没有出现，请检查手机的代理设置是否正确。
　　

java实现性能优化常用的java代码片段分享(一)

采集交流 • 优采云发表了文章 • 0 个评论 • 78 次浏览 • 2021-08-05 19:01 • 来自相关话题

安卓模拟器＋Anyproxy代理抓包分析微信客户端解决方案

采集交流 • 优采云发表了文章 • 0 个评论 • 138 次浏览 • 2021-08-01 01:43 • 来自相关话题

　　
安卓模拟器＋Anyproxy代理抓包分析微信客户端解决方案
　　

　　一、先说整体方案
　　1、使用搜狗公众号文章的采集，这样得到的文章URL是一个带有时间戳的临时链接。
　　

　　2、通过Android模拟器+Anyproxy代理，在微信客户端打开临时链接时，捕获分析微信客户端及其服务器请求的协议内容，获取永久链接。
　　

爬取网址为一级采集-以京东商品爬虫为例

采集交流 • 优采云发表了文章 • 0 个评论 • 222 次浏览 • 2021-07-29 06:00 • 来自相关话题

　　点击A节点，观察DOM窗口左侧的view元素小窗口，找到@href，注意查看其值是否为对应的商品链接。
　　

　　右键单击@href 并选择“内容映射”->“新建”。这样@href（产品链接）的值就映射到了一个新的爬取内容。
　　

　　弹出一个新窗口，要求为所爬取的内容提供一个字段名称，在本例中为名称“产品详细信息链接”。
　　

　　2.3，现在可以看到左边的workbench中增加了一条爬取内容：商品详情链接，测试一下是否被抓到。如果没有问题，保存任务。
　　

　　4.3、采集完成后直接点击“导出Excel”按钮，即可进入数据管理下载Excel格式的数据。
　　

ai一点：人工智能的发展是一个大趋势

采集交流 • 优采云发表了文章 • 0 个评论 • 72 次浏览 • 2021-07-13 06:04 • 来自相关话题

利用Anyproxy爬取微信公众号文章及临时链接转永久链接

采集交流 • 优采云发表了文章 • 0 个评论 • 279 次浏览 • 2021-07-05 19:26 • 来自相关话题

　　进入微信公众号后台-素材管理-新图文素材-新图文留言
　　

　　获取 Cookie
　　2.2 微信公众号获取公众号文章interface get文章
　　1）微信公众号登录地址：
　　2）登录后获取token。
　　

　　3）使用微信公众号后台新建图文，搜索公众号名称，需要上一步的token。
　　

　　搜索公众号
　　并通过接口返回的内容获取公众号的fakeid。
　　

　　获取公众号的fakeid
　　4）选择要爬取的公众号，获取文章接口地址，需要上一步的fakeid。
　　

　　5）文章列表翻页和内容获取。
　　

　　文章列表第一页
　　

　　翻页和内容
　　三、完整代码
　　

　　完成代码
　　四、这在技术上有难度，请给我点个赞

文章采集链接

话题描述

相关话题

最佳回复者

1 人关注该话题