chrome抓取网页插件

chrome抓取网页插件

chrome抓取网页插件(webdeveloperchrome浏览器插件功能介绍Web开发人员扩展插件强大的功能)

网站优化优采云 发表了文章 • 0 个评论 • 70 次浏览 • 2021-10-19 01:22 • 来自相关话题

  chrome抓取网页插件(webdeveloperchrome浏览器插件功能介绍Web开发人员扩展插件强大的功能)
  web开发者chrome浏览器插件概述 Web Developer 这个扩展集成了多种web开发工具,几乎是web开发者必备的Chrome Developer Tools扩展插件。安装后,浏览器工具栏会增加一个齿轮形状,点击小图标,可以看到大量的Web开发工具。不过这个扩展目前还没有提供禁用Javascript的功能,因为目前的Chrome扩展API不支持这个功能。
  
  web开发者chrome浏览器插件功能介绍相信很多web开发者在Chrome问世之前就已经在FireFox上使用过Web Developer插件了。功能非常强大。现在,Web Developer 的 Chrome 版也正式上线了,FireFox 的开发者和 Web Developer 是同一个人——Chris Pederick。添加工具栏按钮和各种 Web 开发工具。Web 开发人员扩展的官方端口。
  Web 开发者扩展插件在浏览器中添加了工具栏按钮,以使用不同的 Web 开发工具。这是用于 Web 开发扩展的浏览器的官方端口。
  Web Developer 插件的强大功能超乎您的想​​象。CSS 网页布局的开发和调试只是其强大功能的一部分。它还为网络程序的开发提供了非常强大的辅助设计功能,例如:调试CSS、清除cookies、对表单图片等对象进行操作等。
  web developer chrome 浏览器插件安装和使用1. 在Google Chrome 中安装Web Developer 插件,并在Chrome 扩展中启动截图功能。Web Developer插件的下载地址可以在本文底部找到,离线Web Developer插件的安装方法请参考:如何在Google中安装扩展名为.crx的离线Chrome插件铬合金?CRX格式插件无法离线安装怎么办?
  2.Web Developer 插件有很多工具栏。Web Developer 主要由以下部分组成:禁用、Cookies、CSS、表单、图像、信息、杂项、大纲、调整大小、工具、查看源和选项。如下所示:
  
  Web Developer插件工具中禁用功能的使用方法如下:
  Disable 禁用工具可以临时阻止当前页面中的某些东西,例如 JavaScript 脚本、缓存、mete 自动重定向、将网页显示为黑色(图片除外)、禁用弹出窗口等。如下所示:
  Cookies 工具可以使用该工具查看当前页面的 Cookies 信息。可以通过不同的域名或路径查看,也可以手动添加一个cookie。这是一款非常方便和强大的后台网络编程开发调试工具。
  CSS 样式表工具 这是一个非常强大的工具。有了这个基于CSS网页布局的强大助手,工作学习都会变得非常简单。您可以控制是否应用 CSS,查看页面的 CSS 文件,并进行实时编辑。并立即在浏览器窗口中反映编辑后的效果。
  
  web开发者大小工具的使用方法如下: Resize size工具可以用来改变浏览器窗口的大小。如果我们使用1600*1200的分辨率,我们可以用这个工具来模拟一个1027*768的窗口效果。这个工具的详细介绍:Web Developer插件Outline、Resize工具教程
  对于我们的 CSS 网页布局设计来说,Tools 最大的功能就是整合 CSS 和 XHTML 验证工具。您可以点击此工具中的验证选项来验证当前页面,它会自动链接到相关的验证页面。并返回验证结果。
  
  Web开发者chrome浏览器插件注意事项
  有些人可能会问为什么 Web 开发者扩展需要访问我所有的浏览历史记录和私人数据?
  这是 chrome 标准消息,表示 chrome (#!category-topic/chrome/give-feature-feedback-and-suggestions/f5sdbSD92C8),表示促销对所有 网站 上的所有它的所有功能,所有用户数据工作,这些数据都是按照扩展功能的需要访问的,除了第三方的验证和其他功能之外,没有任何个人数据从扩展功能发送给第三方。 查看全部

  chrome抓取网页插件(webdeveloperchrome浏览器插件功能介绍Web开发人员扩展插件强大的功能)
  web开发者chrome浏览器插件概述 Web Developer 这个扩展集成了多种web开发工具,几乎是web开发者必备的Chrome Developer Tools扩展插件。安装后,浏览器工具栏会增加一个齿轮形状,点击小图标,可以看到大量的Web开发工具。不过这个扩展目前还没有提供禁用Javascript的功能,因为目前的Chrome扩展API不支持这个功能。
  
  web开发者chrome浏览器插件功能介绍相信很多web开发者在Chrome问世之前就已经在FireFox上使用过Web Developer插件了。功能非常强大。现在,Web Developer 的 Chrome 版也正式上线了,FireFox 的开发者和 Web Developer 是同一个人——Chris Pederick。添加工具栏按钮和各种 Web 开发工具。Web 开发人员扩展的官方端口。
  Web 开发者扩展插件在浏览器中添加了工具栏按钮,以使用不同的 Web 开发工具。这是用于 Web 开发扩展的浏览器的官方端口。
  Web Developer 插件的强大功能超乎您的想​​象。CSS 网页布局的开发和调试只是其强大功能的一部分。它还为网络程序的开发提供了非常强大的辅助设计功能,例如:调试CSS、清除cookies、对表单图片等对象进行操作等。
  web developer chrome 浏览器插件安装和使用1. 在Google Chrome 中安装Web Developer 插件,并在Chrome 扩展中启动截图功能。Web Developer插件的下载地址可以在本文底部找到,离线Web Developer插件的安装方法请参考:如何在Google中安装扩展名为.crx的离线Chrome插件铬合金?CRX格式插件无法离线安装怎么办?
  2.Web Developer 插件有很多工具栏。Web Developer 主要由以下部分组成:禁用、Cookies、CSS、表单、图像、信息、杂项、大纲、调整大小、工具、查看源和选项。如下所示:
  
  Web Developer插件工具中禁用功能的使用方法如下:
  Disable 禁用工具可以临时阻止当前页面中的某些东西,例如 JavaScript 脚本、缓存、mete 自动重定向、将网页显示为黑色(图片除外)、禁用弹出窗口等。如下所示:
  Cookies 工具可以使用该工具查看当前页面的 Cookies 信息。可以通过不同的域名或路径查看,也可以手动添加一个cookie。这是一款非常方便和强大的后台网络编程开发调试工具。
  CSS 样式表工具 这是一个非常强大的工具。有了这个基于CSS网页布局的强大助手,工作学习都会变得非常简单。您可以控制是否应用 CSS,查看页面的 CSS 文件,并进行实时编辑。并立即在浏览器窗口中反映编辑后的效果。
  
  web开发者大小工具的使用方法如下: Resize size工具可以用来改变浏览器窗口的大小。如果我们使用1600*1200的分辨率,我们可以用这个工具来模拟一个1027*768的窗口效果。这个工具的详细介绍:Web Developer插件Outline、Resize工具教程
  对于我们的 CSS 网页布局设计来说,Tools 最大的功能就是整合 CSS 和 XHTML 验证工具。您可以点击此工具中的验证选项来验证当前页面,它会自动链接到相关的验证页面。并返回验证结果。
  
  Web开发者chrome浏览器插件注意事项
  有些人可能会问为什么 Web 开发者扩展需要访问我所有的浏览历史记录和私人数据?
  这是 chrome 标准消息,表示 chrome (#!category-topic/chrome/give-feature-feedback-and-suggestions/f5sdbSD92C8),表示促销对所有 网站 上的所有它的所有功能,所有用户数据工作,这些数据都是按照扩展功能的需要访问的,除了第三方的验证和其他功能之外,没有任何个人数据从扩展功能发送给第三方。

chrome抓取网页插件(pingdom在线网页速度测试和Ping的使用方法(图) )

网站优化优采云 发表了文章 • 0 个评论 • 83 次浏览 • 2021-10-19 01:18 • 来自相关话题

  chrome抓取网页插件(pingdom在线网页速度测试和Ping的使用方法(图)
)
  虽然Pingdom有这样一个谷歌浏览器开发者插件,但是由于插件占用空间,我还是推荐大家使用pingdom在线网页速度测试。
  pingdom 概述 与其他网站 监控服务一样,pingdom 提供免费版和付费版。免费版和付费版的功能是一样的,只是站点数量和短信数量不同。虽然是国外的网站监控服务。
  
  我们都知道速度是一个重要的问题。它不仅是其 200 个搜索排名因素之一,而且您的潜在客户和访问者就像在您的 网站 上快速加载网站。Pingdom可以在线查看网站各个元素的加载速度,并生成非常详细的测试报告,助您轻松优化网站。
  如何使用pingdom
  1.点击一次网站的页面速度测试。只需按下按钮,进行速度测试,当然您需要注册:
  
  2.pingdom提供的测速工具和Ping功能。点击:这里是网页加载速度测试和Ping命令。Pingdom 为用户提供了多种选择。例如,您可以选择是每分钟ping 一次服务器还是每小时ping 一次服务器。Pingdom 还允许您灵活选择 ping 服务器上的特定端口,并检查 SMPT、POP3 或 IMAP 邮件服务器——但免费帐户只能选择检查其中之一。
  使用Pingdom Tools 网页测速工具可以帮助您将网页加载时间转换成图表,并清楚地了解每个网页组件是否是导致网页打开速度变慢的原因。Pingdom Tools 还会为您提供每个项目的分数和改进建议。帮助网站管理者分析优化。如下所示
   查看全部

  chrome抓取网页插件(pingdom在线网页速度测试和Ping的使用方法(图)
)
  虽然Pingdom有这样一个谷歌浏览器开发者插件,但是由于插件占用空间,我还是推荐大家使用pingdom在线网页速度测试。
  pingdom 概述 与其他网站 监控服务一样,pingdom 提供免费版和付费版。免费版和付费版的功能是一样的,只是站点数量和短信数量不同。虽然是国外的网站监控服务。
  
  我们都知道速度是一个重要的问题。它不仅是其 200 个搜索排名因素之一,而且您的潜在客户和访问者就像在您的 网站 上快速加载网站。Pingdom可以在线查看网站各个元素的加载速度,并生成非常详细的测试报告,助您轻松优化网站。
  如何使用pingdom
  1.点击一次网站的页面速度测试。只需按下按钮,进行速度测试,当然您需要注册:
  
  2.pingdom提供的测速工具和Ping功能。点击:这里是网页加载速度测试和Ping命令。Pingdom 为用户提供了多种选择。例如,您可以选择是每分钟ping 一次服务器还是每小时ping 一次服务器。Pingdom 还允许您灵活选择 ping 服务器上的特定端口,并检查 SMPT、POP3 或 IMAP 邮件服务器——但免费帐户只能选择检查其中之一。
  使用Pingdom Tools 网页测速工具可以帮助您将网页加载时间转换成图表,并清楚地了解每个网页组件是否是导致网页打开速度变慢的原因。Pingdom Tools 还会为您提供每个项目的分数和改进建议。帮助网站管理者分析优化。如下所示
  

chrome抓取网页插件(3.EvernoteWebClipper(Evernote的网页)(无格式复制))

网站优化优采云 发表了文章 • 0 个评论 • 92 次浏览 • 2021-10-12 12:04 • 来自相关话题

  chrome抓取网页插件(3.EvernoteWebClipper(Evernote的网页)(无格式复制))
  Chrome 是内讧浏览器家族的最新成员。虽然谷歌浏览器相对较新,但由于其出色的性能、简洁的界面和出色的易用性,在互联网上引起了不小的波澜。
  Chrome 的另一个有用的方面是它的扩展程序为用户的日常互联网访问提供了一些新功能。许多扩展可以帮助您提高工作效率,让您更快更轻松地完成工作。
  注意:由于 Mac 操作系统上的 Google Chrome 浏览器仍处于 Beta 测试阶段,因此某些扩展程序可能无法正常工作。但是,我们对以下扩展做了简单的测试,可以保证这些扩展可以正常使用。
  1. Pixlr 抓取器
  
  截图然后分享是一个非常复杂的过程。您需要将截图内容复制到剪贴板,然后打开图形编辑器,然后将其保存为网上常见的图片格式。然后你把图片上传到网络服务,最后你就可以公开分享了。看看Pixlr Grabber,这个浏览器扩展可以让你在谷歌浏览器中截图,然后自动将截图上传到图片共享服务imm.io。您可以只抓取可见窗口的一部分,或者抓取整个网页。
  2. 无格式复制
  
  当您只想将浏览器中没有任何格式的纯文本内容的一部分复制到办公软件或电子邮件中时,您会怎么做?复制文本,粘贴到记事本等文本编辑器中,然后将内容复制粘贴到要添加的地方?别担心,您不是唯一遇到此问题的人。就连 Lifehacker 上的效率专家也遇到过这个问题。使用 Copy without Formatting(无格式复制)这个 Chrome 扩展,您可以直接从 Chrome 复制无格式文本内容并将其粘贴到其他地方。它消除了中间环节,简化了工作。
  3. Evernote Web Clipper(Evernote Web Clipper)
  
  你是否经常在网上看到一些很酷的内容,却忘记保存在浏览器中?当您需要这些页面时,您是否经常花费大量时间再次寻找它们?反正我们经常遇到。Evernote Web Clipper 是一款可以将内容保存到剪贴板的 Chrome 扩展程序,它还有一个指向原创页面的链接,既方便又简单。您可以将文本、图片和链接保存到您的免费​​ Evernote 帐户,以便您可以在需要时随时随地获取它们(只要您可以访问互联网)。
  4. Symtica
  
  如果您发现自己经常使用谷歌的大量网络应用程序(说实话,现在,谁没有?),并且您需要快速访问和使用这些服务,您可以使用 Symtica 的 Google Chrome 扩展程序。此 Chrome 扩展程序可以监控新电子邮件和新创建的 Google 文档、访问地址簿、管理 Gmail 中的任务列表、阅读 RSS 内容等。
  5. 图片搜索
  
  在网络上搜索图片可能很费力。如果你需要一种网络工作可以帮你找到一张逗猫图片来做你的PPT杀手,你可以试试Image Search(图片搜索),这个超级图片搜索Chrome扩展会搜索Flickr、Picasa、Zoomr和Photobucket这些图片服务网站。它提供了大量选项供您设置大小、类型等搜索选项,可以为您节省大量时间。
  6. AdBlock
  
  此 Google Chrome 扩展程序可以过滤任何类型的弹出窗口和广告。让您专注于想要获取的信息。使用 AdBlock 可以提高你的英雄,因为它可以减少页面的响应时间,防止你被广告和弹出窗口分心。但是对于你喜欢的网站,还是允许展示广告吧,因为过滤广告显然会损害这些网站。
  7. goo.gl URL Shortener(goo.gl URL 缩短服务)
  
  如果您经常分享网页,goo.gl 的网址缩短服务是必备的一键式网址缩短服务,它可以让您轻松快速地在 Twitter 和 Facebook 等社交媒体网站上分享链接和有用资源。缩短的 URL 将自动复制到您的剪贴板。与传统的URL缩短方法相比,大大缩短了这个过程。此扩展程序利用了 Google 自己的 URL 缩短服务。
  8. Web2PDFConverter(网页到PDF转换器)
  
  将网页转换为可共享的 PDF 文件是一个漫长而令人筋疲力尽的过程。但是,如果您使用 Web2PDFConverter(网页到 PDF 转换器),我们就不能这么说。此 Google Chrome 扩展程序允许您在网络浏览器中创建 PDF 文件。此扩展允许您通过 Google Docs 预览 PDF 的内容,从而节省您打开 Adob​​e Acrobat(或其他相应程序)所需的时间。
  9. Shareaholic Chrome 插件
  
  你是社交媒体上瘾者吗?如果是这样,您就知道这种瘾将成为您时间的黑洞,并成为您高效工作的巨大障碍。让社交媒体共享更快、更容易、更方便总是有益的。Shareaholic 的 chrome 插件可以将当前网页转换为短网址,让您可以通过许多社交媒体网站与您的朋友分享。
  10. 分屏
  
  作为这个 Chrome 扩展程序的名称,分屏扩展程序允许您的浏览器窗口分屏。这不仅减少了您打开的选项卡数量,还允许您同时比较多个网页。对于需要研究和交叉参考信息的人来说,这是一个很好的扩展。 查看全部

  chrome抓取网页插件(3.EvernoteWebClipper(Evernote的网页)(无格式复制))
  Chrome 是内讧浏览器家族的最新成员。虽然谷歌浏览器相对较新,但由于其出色的性能、简洁的界面和出色的易用性,在互联网上引起了不小的波澜。
  Chrome 的另一个有用的方面是它的扩展程序为用户的日常互联网访问提供了一些新功能。许多扩展可以帮助您提高工作效率,让您更快更轻松地完成工作。
  注意:由于 Mac 操作系统上的 Google Chrome 浏览器仍处于 Beta 测试阶段,因此某些扩展程序可能无法正常工作。但是,我们对以下扩展做了简单的测试,可以保证这些扩展可以正常使用。
  1. Pixlr 抓取器
  
  截图然后分享是一个非常复杂的过程。您需要将截图内容复制到剪贴板,然后打开图形编辑器,然后将其保存为网上常见的图片格式。然后你把图片上传到网络服务,最后你就可以公开分享了。看看Pixlr Grabber,这个浏览器扩展可以让你在谷歌浏览器中截图,然后自动将截图上传到图片共享服务imm.io。您可以只抓取可见窗口的一部分,或者抓取整个网页。
  2. 无格式复制
  
  当您只想将浏览器中没有任何格式的纯文本内容的一部分复制到办公软件或电子邮件中时,您会怎么做?复制文本,粘贴到记事本等文本编辑器中,然后将内容复制粘贴到要添加的地方?别担心,您不是唯一遇到此问题的人。就连 Lifehacker 上的效率专家也遇到过这个问题。使用 Copy without Formatting(无格式复制)这个 Chrome 扩展,您可以直接从 Chrome 复制无格式文本内容并将其粘贴到其他地方。它消除了中间环节,简化了工作。
  3. Evernote Web Clipper(Evernote Web Clipper)
  
  你是否经常在网上看到一些很酷的内容,却忘记保存在浏览器中?当您需要这些页面时,您是否经常花费大量时间再次寻找它们?反正我们经常遇到。Evernote Web Clipper 是一款可以将内容保存到剪贴板的 Chrome 扩展程序,它还有一个指向原创页面的链接,既方便又简单。您可以将文本、图片和链接保存到您的免费​​ Evernote 帐户,以便您可以在需要时随时随地获取它们(只要您可以访问互联网)。
  4. Symtica
  
  如果您发现自己经常使用谷歌的大量网络应用程序(说实话,现在,谁没有?),并且您需要快速访问和使用这些服务,您可以使用 Symtica 的 Google Chrome 扩展程序。此 Chrome 扩展程序可以监控新电子邮件和新创建的 Google 文档、访问地址簿、管理 Gmail 中的任务列表、阅读 RSS 内容等。
  5. 图片搜索
  
  在网络上搜索图片可能很费力。如果你需要一种网络工作可以帮你找到一张逗猫图片来做你的PPT杀手,你可以试试Image Search(图片搜索),这个超级图片搜索Chrome扩展会搜索Flickr、Picasa、Zoomr和Photobucket这些图片服务网站。它提供了大量选项供您设置大小、类型等搜索选项,可以为您节省大量时间。
  6. AdBlock
  
  此 Google Chrome 扩展程序可以过滤任何类型的弹出窗口和广告。让您专注于想要获取的信息。使用 AdBlock 可以提高你的英雄,因为它可以减少页面的响应时间,防止你被广告和弹出窗口分心。但是对于你喜欢的网站,还是允许展示广告吧,因为过滤广告显然会损害这些网站。
  7. goo.gl URL Shortener(goo.gl URL 缩短服务)
  
  如果您经常分享网页,goo.gl 的网址缩短服务是必备的一键式网址缩短服务,它可以让您轻松快速地在 Twitter 和 Facebook 等社交媒体网站上分享链接和有用资源。缩短的 URL 将自动复制到您的剪贴板。与传统的URL缩短方法相比,大大缩短了这个过程。此扩展程序利用了 Google 自己的 URL 缩短服务。
  8. Web2PDFConverter(网页到PDF转换器)
  
  将网页转换为可共享的 PDF 文件是一个漫长而令人筋疲力尽的过程。但是,如果您使用 Web2PDFConverter(网页到 PDF 转换器),我们就不能这么说。此 Google Chrome 扩展程序允许您在网络浏览器中创建 PDF 文件。此扩展允许您通过 Google Docs 预览 PDF 的内容,从而节省您打开 Adob​​e Acrobat(或其他相应程序)所需的时间。
  9. Shareaholic Chrome 插件
  
  你是社交媒体上瘾者吗?如果是这样,您就知道这种瘾将成为您时间的黑洞,并成为您高效工作的巨大障碍。让社交媒体共享更快、更容易、更方便总是有益的。Shareaholic 的 chrome 插件可以将当前网页转换为短网址,让您可以通过许多社交媒体网站与您的朋友分享。
  10. 分屏
  
  作为这个 Chrome 扩展程序的名称,分屏扩展程序允许您的浏览器窗口分屏。这不仅减少了您打开的选项卡数量,还允许您同时比较多个网页。对于需要研究和交叉参考信息的人来说,这是一个很好的扩展。

chrome抓取网页插件(-spa-plugin插件预渲染的区别及解决方法)

网站优化优采云 发表了文章 • 0 个评论 • 74 次浏览 • 2021-10-12 09:30 • 来自相关话题

  chrome抓取网页插件(-spa-plugin插件预渲染的区别及解决方法)
  本文主要介绍使用prerender-spa-plugin对前端代码进行预渲染。
  预渲染(SSG)和服务端(SSR)渲染有一定的区别。如果你想了解,你可以阅读:。
  背景
  因为之前的网站是使用Vue开发的,这种前端JavaScript渲染开发模式对搜索引擎非常不友好,也没有办法抓取有效信息。因此,为了执行 SEO,我们需要预渲染页面。
  预渲染更适合静态或变化不大的页面,可以在部署前通过静态渲染来渲染页面上的大部分内容。这样,当搜索引擎在爬取时,就可以爬到相关的内容信息。
  现状
  商启通官网现状如下:
  目标
  希望通过预渲染,在第一次访问没有执行JavaScript时,页面可以携带足够的信息,即可以将JavaScript渲染的内容提前渲染成HTML。
  该版本预计不会进行太多更改。
  计划
  我们这次的计划主要是使用prerender-spa-plugin这个webpack插件来实现。
  它的主要原理是启动浏览器,渲染后抓取HTML,然后替换原来的HTML。
  我们需要实现预渲染,那么我们需要完成以下几件事:
  插件介绍和配置。
  本地验证。
  改变包装和施工过程。
  在线验证。
  下面,让我们一一谈谈我们如何做到这一点。
  插件介绍及配置
  首先,我们需要引入一个预渲染插件并执行命令:
  mnpm i prerender-spa-plugin -D
  这个命令除了安装插件本身,还要依赖puppeteer,然后puppeteer又依赖登陆的chromium,所以最后我们其实需要在依赖中安装一个chromium。
  如果安装puppeteer很慢或者经常失败,可以参考本文档中的方法:国内下载安装-Puppeteer-method/,指定puppeteer下载镜像。
  安装完成后,我们可以在webpack配置文件中添加相应的配置。
  如果你也在使用vue-cli,那么我们需要添加的配置在vue.config.js中。如果直接修改webpack的配置,方法类似。
  我们以修改 vue.config.js 为例:
  const PrerenderSPAPlugin = require('prerender-spa-plugin');
module.exports = {
...,
configureWebpack: {
...,
chainWebpack: config => {
config.plugin('prerender').use(PrerenderSPAPlugin, [
{
staticDir: path.join(__dirname, 'build'),
routes: [
'/',
'/product',
'/case',
'/about',
'/register',
],
renderer: new Renderer({
headless: true,
executablePath: '/Applications/Google Chrome.app/Contents/MacOS/Google Chrome',
// 在 main.js 中 document.dispatchEvent(new Event('render-event')),两者的事件名称要对应上。
renderAfterDocumentEvent: 'render-event',
}),
},
]);
}
}
}
  因为我们在项目中使用了 webpack-chain,所以我们的语法类似于上面的链调用方法。如果直接修改,就是使用Vue原有的修改配置方式。
  给大家简单介绍一下上面一些配置的含义:
  有关更多信息,请参阅插件的官方文档。
  开发完成后,我们可以在本地构建,看看能不能生成符合我们预期的代码。
  Vue.config.js 指定 publicPath 导致预渲染失败
  如果你和我的项目一样,在vue.config.js中传入publicPath指定第三方CDN域名,然后CSS、JavaScript、Image等资源会转移到不同的域名。类似的配置如下:
  module.exports = {
...,
publicPath: `//awp-assets.cdn.net/${projectPath}`,
...,
};
  如果没有预渲染,这个方案打包完成后会上传到不同的CDN域名,在线访问是没有问题的。
  但是本地,此时CSS和JS资源还没有上传到CDN,浏览器无法加载相应的资源进行页面渲染。这将导致本地预渲染失败。
  为了解决这个问题,有两种解决方案。
  【推荐】调整打包策略,将非HTML资源上传到同一个CDN域名。在这种情况下,我们可以使用相对路径来访问这些资源,而无需将新域名传递给 publicPath,这样我们在本地构建时就可以访问这些值。这是一种更可靠、更合理的方法,更值得推荐。
  (如果上面的方法真的无法实现,那么可以考虑这个方案)在预渲染之前,资源是通过相对路径在本地访问的。这时候用替换方法替换html中的资源文件地址,然后进行预渲染。渲染后替换它。这种方法比较hacky,但经过实际验证确实有效。具体做法是自己写一个简单的webpack插件。
  首先我们需要安装一个新的npm包来替换文件中的内容(也可以自己写正则规则,不过用这个会更方便),具体命令如下:
  mnpm i replace-in-file
  安装完成后,我们需要添加两个webpack插件分别作用于afterEmit和done这两个hook节点上。如果你想了解这两个hook节点为什么是这样,那么你可以阅读webpack插件的开发章节。
  const replace = require('replace-in-file');
let publicPath = `//awp-assets.cdn.net/${projectPath}`;
// 第1个替换插件,主要是将原先打包过程中带有CDN域名的路径替换成相对路径
function ReplacePathInHTMLPlugin1(cb) {
this.apply = compiler => {
if (compiler.hooks && compiler.hooks.afterEmit) {
compiler.hooks.afterEmit.tap('replace-url', cb);
}
};
}
function replacePluginCallback1() {
replace({
files: path.join(__dirname, '/build/**/*.html'),
from: new RegExp(
publicPath.replace(/([./])/g, (match, p1) => {
return `\\${p1}`;
}),
'g'
),
to: '',
})
.then(results => {
console.log('replace HTML static resources success', results);
})
.catch(e => {
console.log('replace HTML static resources fail', e);
});
}
// 第2个替换插件,主要是将预渲染后的HTML文件中的相对路径替换成带有CDN域名的路径
function ReplacePathInHTMLPlugin2(cb) {
this.apply = compiler => {
if (compiler.hooks && compiler.hooks.done) {
compiler.hooks.done.tap('replace-url', cb);
}
};
}
function replacePluginCallback2() {
replace({
files: path.join(__dirname, '/build/**/*.html'),
from: [/href="\/css/g, /href="\/js/g, /src="\/js/g, /href="\/favicon.ico"/g],
to: [
`href="${publicPath}/css`,
`href="${publicPath}/js`,
`src="${publicPath}/js`,
`href="${publicPath}/favicon.ico"`,
],
})
.then(results => {
console.log('replace HTML static resources success', results);
})
.catch(e => {
console.log('replace HTML static resources fail', e);
});
}
  以上代码就是我们需要添加的两个webpack替换插件和对应的回调函数。接下来我们看看如何在webpack中进行配置。
  module.exports = {
publicPath,
outputDir,
crossorigin: 'anonymous',
chainWebpack: config => {
config.plugin('replaceInHTML').use(new ReplacePathInHTMLPlugin1(replacePluginCallback));
config.plugin('prerender').use(PrerenderSPAPlugin, [
{
staticDir: path.join(__dirname, 'build'),
// 我们应该只会使用根路径,因为是hash路由,所以其他页面预渲染没有意义,因此不进行预渲染
routes: ['/'],
renderer: new Renderer({
headless: true,
executablePath: '/Applications/Google Chrome.app/Contents/MacOS/Google Chrome',
// 在 main.js 中 document.dispatchEvent(new Event('render-event')),两者的事件名称要对应上。
renderAfterDocumentEvent: 'render-event',
}),
},
]);
config.plugin('replaceInHTML2').use(new ReplacePathInHTMLPlugin2(replacePluginCallback2));
}
  我们的第一个替换插件需要在预渲染插件之前执行。在执行预渲染插件之前,将HTML中资源的地址替换为本地的相对路径;第二个需要替换后执行,它会将预渲染后端资源中的相对路径替换为CDN地址。
  通过这两个插件,我们可以通过在预渲染之前替换路径,然后在预渲染之后完成替换来完成预渲染,以保证在线可用性。
  本地验证
  通过上面的方法,我们应该已经得到了一个预渲染的HTML,接下来就要验证HTML是否符合预期。
  更简单的验证方式是直接访问HTML文件,或者启动一个HTTP静态资源服务来验证。
  为了验证,您可以使用 curl 发出请求。在这种情况下,将不会执行 JavaScript,您可以看到 HTML 源文件是什么。
  FAQ chrome版本比较低的时候(比如v73),会提示渲染失败?
  这是因为chrome的版本太低,导致预渲染失败。解决办法是将chrome/chromium版本升级到最新(目前v93没问题)版本。
  总结
  如果我们需要实现SSG(静态站点生成),那么我们可以使用prerender-spa-plugin插件,这个插件可以在本地启动chrome来抓取HTML内容,然后写回HTML文件,如果我们需要对静态资源文件进行处理,我们可以使用替换插件来替换处理前后的内容来满足我们的需求。
  虽然直接替换压缩代码看起来很有效,但这在很大程度上依赖于压缩算法和内容序列。强烈不建议直接用脚本修改和替换压缩文件。最好在 webpack 的 done hook 回调中处理。 查看全部

  chrome抓取网页插件(-spa-plugin插件预渲染的区别及解决方法)
  本文主要介绍使用prerender-spa-plugin对前端代码进行预渲染。
  预渲染(SSG)和服务端(SSR)渲染有一定的区别。如果你想了解,你可以阅读:。
  背景
  因为之前的网站是使用Vue开发的,这种前端JavaScript渲染开发模式对搜索引擎非常不友好,也没有办法抓取有效信息。因此,为了执行 SEO,我们需要预渲染页面。
  预渲染更适合静态或变化不大的页面,可以在部署前通过静态渲染来渲染页面上的大部分内容。这样,当搜索引擎在爬取时,就可以爬到相关的内容信息。
  现状
  商启通官网现状如下:
  目标
  希望通过预渲染,在第一次访问没有执行JavaScript时,页面可以携带足够的信息,即可以将JavaScript渲染的内容提前渲染成HTML。
  该版本预计不会进行太多更改。
  计划
  我们这次的计划主要是使用prerender-spa-plugin这个webpack插件来实现。
  它的主要原理是启动浏览器,渲染后抓取HTML,然后替换原来的HTML。
  我们需要实现预渲染,那么我们需要完成以下几件事:
  插件介绍和配置。
  本地验证。
  改变包装和施工过程。
  在线验证。
  下面,让我们一一谈谈我们如何做到这一点。
  插件介绍及配置
  首先,我们需要引入一个预渲染插件并执行命令:
  mnpm i prerender-spa-plugin -D
  这个命令除了安装插件本身,还要依赖puppeteer,然后puppeteer又依赖登陆的chromium,所以最后我们其实需要在依赖中安装一个chromium。
  如果安装puppeteer很慢或者经常失败,可以参考本文档中的方法:国内下载安装-Puppeteer-method/,指定puppeteer下载镜像。
  安装完成后,我们可以在webpack配置文件中添加相应的配置。
  如果你也在使用vue-cli,那么我们需要添加的配置在vue.config.js中。如果直接修改webpack的配置,方法类似。
  我们以修改 vue.config.js 为例:
  const PrerenderSPAPlugin = require('prerender-spa-plugin');
module.exports = {
...,
configureWebpack: {
...,
chainWebpack: config => {
config.plugin('prerender').use(PrerenderSPAPlugin, [
{
staticDir: path.join(__dirname, 'build'),
routes: [
'/',
'/product',
'/case',
'/about',
'/register',
],
renderer: new Renderer({
headless: true,
executablePath: '/Applications/Google Chrome.app/Contents/MacOS/Google Chrome',
// 在 main.js 中 document.dispatchEvent(new Event('render-event')),两者的事件名称要对应上。
renderAfterDocumentEvent: 'render-event',
}),
},
]);
}
}
}
  因为我们在项目中使用了 webpack-chain,所以我们的语法类似于上面的链调用方法。如果直接修改,就是使用Vue原有的修改配置方式。
  给大家简单介绍一下上面一些配置的含义:
  有关更多信息,请参阅插件的官方文档。
  开发完成后,我们可以在本地构建,看看能不能生成符合我们预期的代码。
  Vue.config.js 指定 publicPath 导致预渲染失败
  如果你和我的项目一样,在vue.config.js中传入publicPath指定第三方CDN域名,然后CSS、JavaScript、Image等资源会转移到不同的域名。类似的配置如下:
  module.exports = {
...,
publicPath: `//awp-assets.cdn.net/${projectPath}`,
...,
};
  如果没有预渲染,这个方案打包完成后会上传到不同的CDN域名,在线访问是没有问题的。
  但是本地,此时CSS和JS资源还没有上传到CDN,浏览器无法加载相应的资源进行页面渲染。这将导致本地预渲染失败。
  为了解决这个问题,有两种解决方案。
  【推荐】调整打包策略,将非HTML资源上传到同一个CDN域名。在这种情况下,我们可以使用相对路径来访问这些资源,而无需将新域名传递给 publicPath,这样我们在本地构建时就可以访问这些值。这是一种更可靠、更合理的方法,更值得推荐。
  (如果上面的方法真的无法实现,那么可以考虑这个方案)在预渲染之前,资源是通过相对路径在本地访问的。这时候用替换方法替换html中的资源文件地址,然后进行预渲染。渲染后替换它。这种方法比较hacky,但经过实际验证确实有效。具体做法是自己写一个简单的webpack插件。
  首先我们需要安装一个新的npm包来替换文件中的内容(也可以自己写正则规则,不过用这个会更方便),具体命令如下:
  mnpm i replace-in-file
  安装完成后,我们需要添加两个webpack插件分别作用于afterEmit和done这两个hook节点上。如果你想了解这两个hook节点为什么是这样,那么你可以阅读webpack插件的开发章节。
  const replace = require('replace-in-file');
let publicPath = `//awp-assets.cdn.net/${projectPath}`;
// 第1个替换插件,主要是将原先打包过程中带有CDN域名的路径替换成相对路径
function ReplacePathInHTMLPlugin1(cb) {
this.apply = compiler => {
if (compiler.hooks && compiler.hooks.afterEmit) {
compiler.hooks.afterEmit.tap('replace-url', cb);
}
};
}
function replacePluginCallback1() {
replace({
files: path.join(__dirname, '/build/**/*.html'),
from: new RegExp(
publicPath.replace(/([./])/g, (match, p1) => {
return `\\${p1}`;
}),
'g'
),
to: '',
})
.then(results => {
console.log('replace HTML static resources success', results);
})
.catch(e => {
console.log('replace HTML static resources fail', e);
});
}
// 第2个替换插件,主要是将预渲染后的HTML文件中的相对路径替换成带有CDN域名的路径
function ReplacePathInHTMLPlugin2(cb) {
this.apply = compiler => {
if (compiler.hooks && compiler.hooks.done) {
compiler.hooks.done.tap('replace-url', cb);
}
};
}
function replacePluginCallback2() {
replace({
files: path.join(__dirname, '/build/**/*.html'),
from: [/href="\/css/g, /href="\/js/g, /src="\/js/g, /href="\/favicon.ico"/g],
to: [
`href="${publicPath}/css`,
`href="${publicPath}/js`,
`src="${publicPath}/js`,
`href="${publicPath}/favicon.ico"`,
],
})
.then(results => {
console.log('replace HTML static resources success', results);
})
.catch(e => {
console.log('replace HTML static resources fail', e);
});
}
  以上代码就是我们需要添加的两个webpack替换插件和对应的回调函数。接下来我们看看如何在webpack中进行配置。
  module.exports = {
publicPath,
outputDir,
crossorigin: 'anonymous',
chainWebpack: config => {
config.plugin('replaceInHTML').use(new ReplacePathInHTMLPlugin1(replacePluginCallback));
config.plugin('prerender').use(PrerenderSPAPlugin, [
{
staticDir: path.join(__dirname, 'build'),
// 我们应该只会使用根路径,因为是hash路由,所以其他页面预渲染没有意义,因此不进行预渲染
routes: ['/'],
renderer: new Renderer({
headless: true,
executablePath: '/Applications/Google Chrome.app/Contents/MacOS/Google Chrome',
// 在 main.js 中 document.dispatchEvent(new Event('render-event')),两者的事件名称要对应上。
renderAfterDocumentEvent: 'render-event',
}),
},
]);
config.plugin('replaceInHTML2').use(new ReplacePathInHTMLPlugin2(replacePluginCallback2));
}
  我们的第一个替换插件需要在预渲染插件之前执行。在执行预渲染插件之前,将HTML中资源的地址替换为本地的相对路径;第二个需要替换后执行,它会将预渲染后端资源中的相对路径替换为CDN地址。
  通过这两个插件,我们可以通过在预渲染之前替换路径,然后在预渲染之后完成替换来完成预渲染,以保证在线可用性。
  本地验证
  通过上面的方法,我们应该已经得到了一个预渲染的HTML,接下来就要验证HTML是否符合预期。
  更简单的验证方式是直接访问HTML文件,或者启动一个HTTP静态资源服务来验证。
  为了验证,您可以使用 curl 发出请求。在这种情况下,将不会执行 JavaScript,您可以看到 HTML 源文件是什么。
  FAQ chrome版本比较低的时候(比如v73),会提示渲染失败?
  这是因为chrome的版本太低,导致预渲染失败。解决办法是将chrome/chromium版本升级到最新(目前v93没问题)版本。
  总结
  如果我们需要实现SSG(静态站点生成),那么我们可以使用prerender-spa-plugin插件,这个插件可以在本地启动chrome来抓取HTML内容,然后写回HTML文件,如果我们需要对静态资源文件进行处理,我们可以使用替换插件来替换处理前后的内容来满足我们的需求。
  虽然直接替换压缩代码看起来很有效,但这在很大程度上依赖于压缩算法和内容序列。强烈不建议直接用脚本修改和替换压缩文件。最好在 webpack 的 done hook 回调中处理。

chrome抓取网页插件(DocsumoFreeOCRSoftwareChrome插件可以提升用户复制网页内容的效率)

网站优化优采云 发表了文章 • 0 个评论 • 356 次浏览 • 2021-10-10 20:34 • 来自相关话题

  chrome抓取网页插件(DocsumoFreeOCRSoftwareChrome插件可以提升用户复制网页内容的效率)
  Docsumo Free OCR Software Chrome 插件是一款免费的浏览器 OCR 识别插件。该插件可以帮助用户识别网页内容并从网页中获取文字供用户使用;许多网页中的内容无法复制。如果用户想要获取这类网页的内容,只能手动提取,但是现在有了这个插件,就可以告别手动提取的麻烦了;本工具采用OCR光学识别技术,帮助用户快速识别网页中无法复制的内容,识别准确率高,识别速度快。使用它可以提高获取网页内容的速度。欢迎有需要的朋友下载体验。
  
  软件功能
  网页上的屏幕截图图像/文​​本块并转换为可编辑文本
  组织通常以文档图像的形式接收重要信息和数据。
  将无法在浏览器中复制的文本识别为可编辑文本。
  支持对选中区域的文字进行识别,需要识别的内容可以通过截图的方式进行截取。
  支持可见区域文字识别,可以识别整个页面的文字。
  通过快捷键快速开启网页的OCR识别功能非常方便。
  软件特点
  1、在浏览器中安装使用非常方便,可以通过组合键激活。
  2、识别率高,识别速度快,可以识别多种语言的文字。
  3、两种识别方式,每一种都很简单。
  4、这个工具可以帮助用户获取电脑上无法复制的文字。
  5、使用该插件可以提高用户复制网页内容的效率,节省用户时间。
  指示
  1、 插件解压后,双击插件在浏览器中安装。
  
  2、在浏览器的扩展栏中打开插件,选择识别方式。
  
  3、 第一个选项是捕获选定区域识别。
  
  4、 第二个选项是在可见区域捕获文本。
  
  5、 识别完成后会弹出如下窗口,窗口中的文字可以进行编辑和复制。
  
  常见问题
  为什么我们需要从网页中提取数据?
  通常,我们会遇到我们想要复制、保存为笔记或与他人分享的信息图表、图像、时事通讯或网页的某些部分。为此,我们需要一个强大的 OCR 工具,它可以从 网站 的图像/文本块中提取文本,并允许您对其进行编辑、复制和共享。
  这个工具需要任何培训吗?
  不需要,Docsumo 的 OCR chrome 扩展程序已经过预训练,不需要任何训练。
  它捕获哪些字段?
  使用扩展程序,您可以捕获任何基于文本的字段。它允许您在复制输出之前查看提取的数据
  它可以使用多少种语言?
  没有语言限制。您可以使用 Docsumo 的 OCR Chrome 扩展程序从任何语言中提取数据。
  Docsumo 如何处理更正?
  Docsumo 提供审阅工具作为解决方案的一部分。您可以将机器输出的验证外包给我们的团队,或者您的内部团队可以使用审核工具。我们将 OCR 输出嵌入到文档中并提供键值对的预测。这意味着检查过程不需要手动输入数据,并且是点击式界面。 查看全部

  chrome抓取网页插件(DocsumoFreeOCRSoftwareChrome插件可以提升用户复制网页内容的效率)
  Docsumo Free OCR Software Chrome 插件是一款免费的浏览器 OCR 识别插件。该插件可以帮助用户识别网页内容并从网页中获取文字供用户使用;许多网页中的内容无法复制。如果用户想要获取这类网页的内容,只能手动提取,但是现在有了这个插件,就可以告别手动提取的麻烦了;本工具采用OCR光学识别技术,帮助用户快速识别网页中无法复制的内容,识别准确率高,识别速度快。使用它可以提高获取网页内容的速度。欢迎有需要的朋友下载体验。
  
  软件功能
  网页上的屏幕截图图像/文​​本块并转换为可编辑文本
  组织通常以文档图像的形式接收重要信息和数据。
  将无法在浏览器中复制的文本识别为可编辑文本。
  支持对选中区域的文字进行识别,需要识别的内容可以通过截图的方式进行截取。
  支持可见区域文字识别,可以识别整个页面的文字。
  通过快捷键快速开启网页的OCR识别功能非常方便。
  软件特点
  1、在浏览器中安装使用非常方便,可以通过组合键激活。
  2、识别率高,识别速度快,可以识别多种语言的文字。
  3、两种识别方式,每一种都很简单。
  4、这个工具可以帮助用户获取电脑上无法复制的文字。
  5、使用该插件可以提高用户复制网页内容的效率,节省用户时间。
  指示
  1、 插件解压后,双击插件在浏览器中安装。
  
  2、在浏览器的扩展栏中打开插件,选择识别方式。
  
  3、 第一个选项是捕获选定区域识别。
  
  4、 第二个选项是在可见区域捕获文本。
  
  5、 识别完成后会弹出如下窗口,窗口中的文字可以进行编辑和复制。
  
  常见问题
  为什么我们需要从网页中提取数据?
  通常,我们会遇到我们想要复制、保存为笔记或与他人分享的信息图表、图像、时事通讯或网页的某些部分。为此,我们需要一个强大的 OCR 工具,它可以从 网站 的图像/文本块中提取文本,并允许您对其进行编辑、复制和共享。
  这个工具需要任何培训吗?
  不需要,Docsumo 的 OCR chrome 扩展程序已经过预训练,不需要任何训练。
  它捕获哪些字段?
  使用扩展程序,您可以捕获任何基于文本的字段。它允许您在复制输出之前查看提取的数据
  它可以使用多少种语言?
  没有语言限制。您可以使用 Docsumo 的 OCR Chrome 扩展程序从任何语言中提取数据。
  Docsumo 如何处理更正?
  Docsumo 提供审阅工具作为解决方案的一部分。您可以将机器输出的验证外包给我们的团队,或者您的内部团队可以使用审核工具。我们将 OCR 输出嵌入到文档中并提供键值对的预测。这意味着检查过程不需要手动输入数据,并且是点击式界面。

chrome抓取网页插件(WebScraper插件安装使用方法及安装流程:安装方法)

网站优化优采云 发表了文章 • 0 个评论 • 90 次浏览 • 2021-10-08 02:07 • 来自相关话题

  chrome抓取网页插件(WebScraper插件安装使用方法及安装流程:安装方法)
  Web Scraper是一款chrome网页数据提取插件,用于从网页中提取数据。只需四步,用户就可以使用该插件建立页面数据提取规则,从而快速提取网页中需要的内容。Web Scraper插件的整个爬取逻辑都是从设置一级Selector和选择爬取范围开始,然后在一级Selector下设置好二级Selector后,再次选择爬取字段,然后你可以抓取网页数据。插件抓取数据后,可将数据导出为CSV文件,欢迎免费下载。
  
  插件安装和使用
  一、安装
  1、编辑器使用chrome浏览器,首先在标签页输入【chrome://extensions/】进入chrome扩展,将你在本页下载的Web Scraper插件解压,拖入扩展页面就是这样。
  
  2、安装完成后,赶紧试试插件的具体功能吧。
  
  3、当然可以先在设置页面设​​置插件的存储设置和存储类型功能。
  
  二、使用fetch函数
  安装完成后,只需四步即可完成爬取操作。具体流程如下:
  1、打开网页爬虫
  首先,您需要使用该插件来提取网页数据。您需要在开发者工具模式下使用它。使用快捷键Ctrl+Shift+I/F12,在出现的开发工具窗口中找到与插件同名的列。
  
  2、创建一个新的站点地图
  单击创建新站点地图,其中有两个选项。导入站点地图是导入现成站点地图的指南。我们没有现成的,所以我们一般不选择这个,只选择创建站点地图。
  
  然后执行这两个操作:
  (1)Sitemap Name:代表你的sitemap适用于哪个网页,所以你可以根据自己的名字给网页命名,但是需要用英文字母。比如我从今天的头条中抓取数据,那我就用今日头条来命名
  (2)Sitemap URL:将网页链接复制到Star URL栏。例如,在图片中,我将“吴晓波频道”的首页链接复制到该栏,然后点击下面的创建站点地图创建一个新的站点地图。
  
  3、设置此站点地图
  整个Web Scraper的爬取逻辑如下: 设置一级Selector,选择爬取范围;在一级Selector下设置二级Selector,选择爬取字段,然后爬取。
  对于文章,一级Selector意味着你要圈出这块文章的元素。这个元素可能包括标题、作者、发布时间、评论数等,然后我们会从关卡Selector中选择我们想要的元素,比如标题、作者、阅读次数。
  
  下面我们来拆解一下设置primary和secondary Selector的工作流程:
  (1)单击添加新选择器以创建一级选择器。
  然后按照以下步骤操作:
  -输入id:id代表你爬取的整个范围,比如这里是文章,我们可以命名为wuxiaobo-articles;
  -Select Type:type代表你抓取的这部分的类型,比如element/text/link,因为这是整个文章元素范围的选择,所以我们需要先用Element来选择整个(如果此页面需要滑动加载(更多选择Element Scroll Down);
  -Check Multiple:勾选 Multiple 前面的小方框,因为要选择多个元素而不是单个元素。我们检查的时候,爬虫插件会帮我们识别多篇相同类型的文章文章;
  -保留设置:其余未提及的部分保留默认设置。
  
  (2)点击select选择范围,按照以下步骤操作:
  -选择范围:用鼠标选择要爬取的数据范围,绿色为要选择的区域,鼠标点击后区域变为红色,此区域被选中;
  - 多选:不要只选一个,选择以下,否则只会爬出一行数据;
  - 完成选择:记得点击完成选择;
  - 保存:单击保存选择器。
  
  (3)设置好这个一级Selector后,点击进入设置二级Selector,步骤如下:
  - 新建选择器:点击添加新选择器;
  -输入id:id代表你抓的是哪个字段,这样你就可以取字段的英文了。比如我要选择“作者”,我就写“作者”;
  -Select Type:选择Text,因为你要抓取的是文本;
  -Do not check Multiple:不要勾选 Multiple 前面的小方框,因为我们这里要抓取的是单个元素;
  -保留设置:其余未提及的部分保留默认设置。
  
  (4)点击选择,然后点击要爬取的字段,按照以下步骤操作:
  -选择字段:这里要爬取的字段为单个字段,可以通过鼠标点击该字段进行选择。比如要爬取标题,用鼠标点击某篇文章的标题,该字段所在的区域会变成红色被选中
  - 完成选择:记得点击完成选择;
  - 保存:单击保存选择器。
  (5)重复以上操作,直到选好要攀登的场地。
  4、 爬取数据
  (1) 之后只需要设置好所有的Selector就可以开始爬取数据了:
  点击Scrape,然后点击Start Scraping,弹出一个小窗口,爬虫就开始工作了。您将获得收录您想要的所有数据的列表。
  
  (2)如果想对数据进行排序,比如按阅读、喜欢、作者等排序,让数据更清晰,那么可以点击Export Data as CSV,导入到Excel表格中。
  (3)导入Excel表格后,可以过滤数据。
  
  插件功能
  1、抓取多个页面
  2、读取的数据存储在本地存储或CouchDB
  3、多种数据选择类型
  4、 从动态页面中提取数据(JavaScript + AJAX)
  5、浏览抓取的数据
  6、将数据导出为 CSV
  7、导入、导出站点地图
  8、仅依赖于Chrome浏览器 查看全部

  chrome抓取网页插件(WebScraper插件安装使用方法及安装流程:安装方法)
  Web Scraper是一款chrome网页数据提取插件,用于从网页中提取数据。只需四步,用户就可以使用该插件建立页面数据提取规则,从而快速提取网页中需要的内容。Web Scraper插件的整个爬取逻辑都是从设置一级Selector和选择爬取范围开始,然后在一级Selector下设置好二级Selector后,再次选择爬取字段,然后你可以抓取网页数据。插件抓取数据后,可将数据导出为CSV文件,欢迎免费下载。
  
  插件安装和使用
  一、安装
  1、编辑器使用chrome浏览器,首先在标签页输入【chrome://extensions/】进入chrome扩展,将你在本页下载的Web Scraper插件解压,拖入扩展页面就是这样。
  
  2、安装完成后,赶紧试试插件的具体功能吧。
  
  3、当然可以先在设置页面设​​置插件的存储设置和存储类型功能。
  
  二、使用fetch函数
  安装完成后,只需四步即可完成爬取操作。具体流程如下:
  1、打开网页爬虫
  首先,您需要使用该插件来提取网页数据。您需要在开发者工具模式下使用它。使用快捷键Ctrl+Shift+I/F12,在出现的开发工具窗口中找到与插件同名的列。
  
  2、创建一个新的站点地图
  单击创建新站点地图,其中有两个选项。导入站点地图是导入现成站点地图的指南。我们没有现成的,所以我们一般不选择这个,只选择创建站点地图。
  
  然后执行这两个操作:
  (1)Sitemap Name:代表你的sitemap适用于哪个网页,所以你可以根据自己的名字给网页命名,但是需要用英文字母。比如我从今天的头条中抓取数据,那我就用今日头条来命名
  (2)Sitemap URL:将网页链接复制到Star URL栏。例如,在图片中,我将“吴晓波频道”的首页链接复制到该栏,然后点击下面的创建站点地图创建一个新的站点地图。
  
  3、设置此站点地图
  整个Web Scraper的爬取逻辑如下: 设置一级Selector,选择爬取范围;在一级Selector下设置二级Selector,选择爬取字段,然后爬取。
  对于文章,一级Selector意味着你要圈出这块文章的元素。这个元素可能包括标题、作者、发布时间、评论数等,然后我们会从关卡Selector中选择我们想要的元素,比如标题、作者、阅读次数。
  
  下面我们来拆解一下设置primary和secondary Selector的工作流程:
  (1)单击添加新选择器以创建一级选择器。
  然后按照以下步骤操作:
  -输入id:id代表你爬取的整个范围,比如这里是文章,我们可以命名为wuxiaobo-articles;
  -Select Type:type代表你抓取的这部分的类型,比如element/text/link,因为这是整个文章元素范围的选择,所以我们需要先用Element来选择整个(如果此页面需要滑动加载(更多选择Element Scroll Down);
  -Check Multiple:勾选 Multiple 前面的小方框,因为要选择多个元素而不是单个元素。我们检查的时候,爬虫插件会帮我们识别多篇相同类型的文章文章;
  -保留设置:其余未提及的部分保留默认设置。
  
  (2)点击select选择范围,按照以下步骤操作:
  -选择范围:用鼠标选择要爬取的数据范围,绿色为要选择的区域,鼠标点击后区域变为红色,此区域被选中;
  - 多选:不要只选一个,选择以下,否则只会爬出一行数据;
  - 完成选择:记得点击完成选择;
  - 保存:单击保存选择器。
  
  (3)设置好这个一级Selector后,点击进入设置二级Selector,步骤如下:
  - 新建选择器:点击添加新选择器;
  -输入id:id代表你抓的是哪个字段,这样你就可以取字段的英文了。比如我要选择“作者”,我就写“作者”;
  -Select Type:选择Text,因为你要抓取的是文本;
  -Do not check Multiple:不要勾选 Multiple 前面的小方框,因为我们这里要抓取的是单个元素;
  -保留设置:其余未提及的部分保留默认设置。
  
  (4)点击选择,然后点击要爬取的字段,按照以下步骤操作:
  -选择字段:这里要爬取的字段为单个字段,可以通过鼠标点击该字段进行选择。比如要爬取标题,用鼠标点击某篇文章的标题,该字段所在的区域会变成红色被选中
  - 完成选择:记得点击完成选择;
  - 保存:单击保存选择器。
  (5)重复以上操作,直到选好要攀登的场地。
  4、 爬取数据
  (1) 之后只需要设置好所有的Selector就可以开始爬取数据了:
  点击Scrape,然后点击Start Scraping,弹出一个小窗口,爬虫就开始工作了。您将获得收录您想要的所有数据的列表。
  
  (2)如果想对数据进行排序,比如按阅读、喜欢、作者等排序,让数据更清晰,那么可以点击Export Data as CSV,导入到Excel表格中。
  (3)导入Excel表格后,可以过滤数据。
  
  插件功能
  1、抓取多个页面
  2、读取的数据存储在本地存储或CouchDB
  3、多种数据选择类型
  4、 从动态页面中提取数据(JavaScript + AJAX)
  5、浏览抓取的数据
  6、将数据导出为 CSV
  7、导入、导出站点地图
  8、仅依赖于Chrome浏览器

chrome抓取网页插件( 6款Chrome插件可以大大提升我们的爬虫效率(组图))

网站优化优采云 发表了文章 • 0 个评论 • 592 次浏览 • 2021-10-07 01:10 • 来自相关话题

  chrome抓取网页插件(
6款Chrome插件可以大大提升我们的爬虫效率(组图))
  
  在PC端的日常抓取过程中,Chrome浏览器是我们常用的工具。
  鉴于Chrome浏览器的强大,Chrome网上应用店中的众多强大插件可以帮助我们快速高效地抓取数据。
  今天推荐的6个Chrome插件可以大大提高我们的爬虫效率。
  1、EditThisCookie
  
  EditThisCookie 是一个 cookie 管理器,可以轻松添加、删除、编辑、搜索、锁定和阻止 cookie。
  可以先将登录cookies保存到本地,使用cookielib库直接爬取登录数据。
  它避免了抓包和模拟登录,帮助我们快速爬行。
  2、网络爬虫
  
  Web Scraper 是一款免费的,适合任何人的,包括没有任何编程基础的爬虫工具。
  操作简单,只需点击鼠标,简单配置即可快速抓取Web端数据。
  支持复杂的网站结构,数据支持文本、连接、数据块、下拉加载数据块等多种数据类型。
  另外,爬取的数据可以导出为CSV文件。
  3、Xpath 助手
  
  Xpath Helper 是一个结构化的网页元素选择器,支持列表和单节点数据获取,
  它可以快速定位网页元素。
  与 Beautiful Soup 相比,Xpath 在网页元素的搜索性能上更具优势;Xpath 比正则表达式更方便编写。
  写完Xpath后,会实时显示匹配数和对应位置,方便我们判断句子是否写对。
  4、切换 JavaScript
  
  Toggle JavaScript 插件可用于检测当前网页的哪些元素是通过 AJAX 动态加载的。
  使用它可以在允许加载 JS 和禁止加载 JS 两种模式之间快速切换。
  5、Chrome 用户代理切换器
  
  Chrome插件的User-Agent Switcher可以方便的修改浏览器的User-Agent。
  它可以模拟不同的浏览器和客户端,包括Android和IOS来模拟请求。
  对于一些特殊的网站,切换User-Agent可以让数据爬取更方便。
  6、JSON 句柄
  
  JSON-handle 是一款强大的 JSON 数据解析 Chrome 插件。
  它以简单明了的树状图样式显示 JSON 文档,并且可以实时编辑。
  对于数据量大的场景,可以做部分选择分析。 查看全部

  chrome抓取网页插件(
6款Chrome插件可以大大提升我们的爬虫效率(组图))
  
  在PC端的日常抓取过程中,Chrome浏览器是我们常用的工具。
  鉴于Chrome浏览器的强大,Chrome网上应用店中的众多强大插件可以帮助我们快速高效地抓取数据。
  今天推荐的6个Chrome插件可以大大提高我们的爬虫效率。
  1、EditThisCookie
  
  EditThisCookie 是一个 cookie 管理器,可以轻松添加、删除、编辑、搜索、锁定和阻止 cookie。
  可以先将登录cookies保存到本地,使用cookielib库直接爬取登录数据。
  它避免了抓包和模拟登录,帮助我们快速爬行。
  2、网络爬虫
  
  Web Scraper 是一款免费的,适合任何人的,包括没有任何编程基础的爬虫工具。
  操作简单,只需点击鼠标,简单配置即可快速抓取Web端数据。
  支持复杂的网站结构,数据支持文本、连接、数据块、下拉加载数据块等多种数据类型。
  另外,爬取的数据可以导出为CSV文件。
  3、Xpath 助手
  
  Xpath Helper 是一个结构化的网页元素选择器,支持列表和单节点数据获取,
  它可以快速定位网页元素。
  与 Beautiful Soup 相比,Xpath 在网页元素的搜索性能上更具优势;Xpath 比正则表达式更方便编写。
  写完Xpath后,会实时显示匹配数和对应位置,方便我们判断句子是否写对。
  4、切换 JavaScript
  
  Toggle JavaScript 插件可用于检测当前网页的哪些元素是通过 AJAX 动态加载的。
  使用它可以在允许加载 JS 和禁止加载 JS 两种模式之间快速切换。
  5、Chrome 用户代理切换器
  
  Chrome插件的User-Agent Switcher可以方便的修改浏览器的User-Agent。
  它可以模拟不同的浏览器和客户端,包括Android和IOS来模拟请求。
  对于一些特殊的网站,切换User-Agent可以让数据爬取更方便。
  6、JSON 句柄
  
  JSON-handle 是一款强大的 JSON 数据解析 Chrome 插件。
  它以简单明了的树状图样式显示 JSON 文档,并且可以实时编辑。
  对于数据量大的场景,可以做部分选择分析。

chrome抓取网页插件(10种Chrome中运用比较广泛的功能插件(组图))

网站优化优采云 发表了文章 • 0 个评论 • 100 次浏览 • 2021-10-05 13:18 • 来自相关话题

  chrome抓取网页插件(10种Chrome中运用比较广泛的功能插件(组图))
  [文本]
  据外媒报道,谷歌Chrome浏览器一向以速度轻快着称,在各项测试软件中均领先其他产品。随着Chrome的不断发展,用于扩展功能的插件也越来越丰富。
  谷歌提倡的云概念将浏览器视为重要的应用平台,Chrome用户数量也在逐渐增加。下面为您介绍Chrome中10个广泛使用的功能插件:
  1、 Chrome 备份备份工具
  
  图(1)
  Google Chrome Backup 是一种可用于备份、创建、恢复和删除个人数据的工具。配置文件收录所有个人信息,例如书签、浏览历史记录、浏览器设置等。
  使用此工具,用户可以轻松地将您的 Google Chrome 书签和设置备份到本地磁盘。
  2、 Xmarks 书签同步
  
  图(2)
  这个插件被广泛使用。Xmarks 的原名是 Foxmarks,它是一个改进的书签同步工具。Xmarks可以准确保存您经常访问的网站的用户名和密码,大大节省您宝贵的工作时间。
  此外,Xmark 支持跨系统和跨平台同步。适用于拥有多台电脑或计划重装系统的用户。
  [分页]
  [1]·谷歌浏览器:Chrome-1广泛使用的十个功能插件介绍
  [2]·谷歌浏览器:Chrome-2广泛使用的十个功能插件介绍
  [3]·谷歌浏览器:Chrome浏览器广泛使用的十种插件介绍-3
  [4]·谷歌浏览器:Chrome-4广泛使用的十个功能插件介绍
  [5]·谷歌浏览器:Chrome浏览器广泛使用的十种插件介绍-5 查看全部

  chrome抓取网页插件(10种Chrome中运用比较广泛的功能插件(组图))
  [文本]
  据外媒报道,谷歌Chrome浏览器一向以速度轻快着称,在各项测试软件中均领先其他产品。随着Chrome的不断发展,用于扩展功能的插件也越来越丰富。
  谷歌提倡的云概念将浏览器视为重要的应用平台,Chrome用户数量也在逐渐增加。下面为您介绍Chrome中10个广泛使用的功能插件:
  1、 Chrome 备份备份工具
  
  图(1)
  Google Chrome Backup 是一种可用于备份、创建、恢复和删除个人数据的工具。配置文件收录所有个人信息,例如书签、浏览历史记录、浏览器设置等。
  使用此工具,用户可以轻松地将您的 Google Chrome 书签和设置备份到本地磁盘。
  2、 Xmarks 书签同步
  
  图(2)
  这个插件被广泛使用。Xmarks 的原名是 Foxmarks,它是一个改进的书签同步工具。Xmarks可以准确保存您经常访问的网站的用户名和密码,大大节省您宝贵的工作时间。
  此外,Xmark 支持跨系统和跨平台同步。适用于拥有多台电脑或计划重装系统的用户。
  [分页]
  [1]·谷歌浏览器:Chrome-1广泛使用的十个功能插件介绍
  [2]·谷歌浏览器:Chrome-2广泛使用的十个功能插件介绍
  [3]·谷歌浏览器:Chrome浏览器广泛使用的十种插件介绍-3
  [4]·谷歌浏览器:Chrome-4广泛使用的十个功能插件介绍
  [5]·谷歌浏览器:Chrome浏览器广泛使用的十种插件介绍-5

chrome抓取网页插件(7款顶级谷歌Chrome浏览器插件可增强用户的Chrome体验)

网站优化优采云 发表了文章 • 0 个评论 • 345 次浏览 • 2021-10-05 13:17 • 来自相关话题

  chrome抓取网页插件(7款顶级谷歌Chrome浏览器插件可增强用户的Chrome体验)
  据外媒报道,纵观当前浏览器市场,主流浏览器包括微软IE、Mozilla Firefox、谷歌Chrome、苹果Safari和Opera。其中,谷歌的Chrome浏览器以简洁着称,Mozilla基金会的Firefox以丰富的插件着称。
  不过目前谷歌已经开始允许用户下载和使用Chrome插件,极大地丰富了用户体验。
  到目前为止,Chrome 拥有 800 多个浏览器插件,这些插件可以提升用户的 Chrome 体验。
  一般来说,这些插件以图标的形式显示在Chrome的地址栏旁边,方便删除或禁用(如果用户想保留Chrome的经典观感)。
  另外,如果用户想使用Chrome插件,必须在/chrome下载最新的Linux或Windows beta版Chrome浏览器,然后到/extensions下载数百个插件。
  以下是笔者总结的7个顶级谷歌Chrome浏览器插件,如下:
  1、Google Apps 快捷方式
  该插件允许用户快速访问 Google 应用程序,例如 Gmail、Google 日历和 Google Docs。这个插件可以在新标签页中打开这些应用,也可以让用户快速创建邮件、文件等。如果你只是想访问Gmail,可以试试Google Mail Checker。
  2、标签菜单
  使用标签菜单,用户可以获得所有标签的垂直列表和一个搜索框,以便于标签导航。选项卡菜单使用户可以使用关闭按钮关闭选项卡,并拖放选项卡以重新排列它们。
  3、StumbleUpon
  StumbleUpon 插件可以根据用户的个人喜好向您推荐最推荐的网站。这样,您就可以轻松访问那些内容优质的网页,而不必总是浪费时间访问许多内容平庸的网页。
  4、Chrome 的 Picnik 扩展
  适用于 Chrome 的 Picnik 扩展程序可以帮助用户嵌入 网站 的图像并轻松发送。加载网站页面后,点击Picnik按钮,用户将能够得到网站图片的缩略图列表。单击这些缩略图,图像将在 Picnik 中打开,用户可以进行编辑、注释和共享。
  5、Feedly
  Chrome 的 Feedly 插件可让您以快速时尚的方式阅读和分享您喜爱的 网站 和服务内容。它可以为您提供谷歌阅读器、推特、Tasty、YouTube、亚马逊等,让您随时浏览您喜欢的内容。
  6、WOT(信任网络)
  当用户使用 Chrome 浏览器打开收录垃圾邮件、恶意软件或其他危险/未知信息的站点时,Chrome 浏览器的 Web of Trust 插件会警告用户。
  当用户点击WOT插件图标时,红色圆圈网站是危险的网站,绿色圆圈网站是安全的网站。WOT 也适用于 Google 和 Bing 搜索结果、Gmail 和 Yahoo! 等邮件服务。邮件等
  7、Brizzly
  Brizzly 是一个小型 Twitter 插件,允许用户撰写和编译推文,访问 Twitter 个人资料、详细信息、列表、保存的搜索等。
  使用Brizzly,用户几乎可以在一个页面上完成所有操作,包括关注、取消关注、添加到群组、了解热门话题等。 查看全部

  chrome抓取网页插件(7款顶级谷歌Chrome浏览器插件可增强用户的Chrome体验)
  据外媒报道,纵观当前浏览器市场,主流浏览器包括微软IE、Mozilla Firefox、谷歌Chrome、苹果Safari和Opera。其中,谷歌的Chrome浏览器以简洁着称,Mozilla基金会的Firefox以丰富的插件着称。
  不过目前谷歌已经开始允许用户下载和使用Chrome插件,极大地丰富了用户体验。
  到目前为止,Chrome 拥有 800 多个浏览器插件,这些插件可以提升用户的 Chrome 体验。
  一般来说,这些插件以图标的形式显示在Chrome的地址栏旁边,方便删除或禁用(如果用户想保留Chrome的经典观感)。
  另外,如果用户想使用Chrome插件,必须在/chrome下载最新的Linux或Windows beta版Chrome浏览器,然后到/extensions下载数百个插件。
  以下是笔者总结的7个顶级谷歌Chrome浏览器插件,如下:
  1、Google Apps 快捷方式
  该插件允许用户快速访问 Google 应用程序,例如 Gmail、Google 日历和 Google Docs。这个插件可以在新标签页中打开这些应用,也可以让用户快速创建邮件、文件等。如果你只是想访问Gmail,可以试试Google Mail Checker。
  2、标签菜单
  使用标签菜单,用户可以获得所有标签的垂直列表和一个搜索框,以便于标签导航。选项卡菜单使用户可以使用关闭按钮关闭选项卡,并拖放选项卡以重新排列它们。
  3、StumbleUpon
  StumbleUpon 插件可以根据用户的个人喜好向您推荐最推荐的网站。这样,您就可以轻松访问那些内容优质的网页,而不必总是浪费时间访问许多内容平庸的网页。
  4、Chrome 的 Picnik 扩展
  适用于 Chrome 的 Picnik 扩展程序可以帮助用户嵌入 网站 的图像并轻松发送。加载网站页面后,点击Picnik按钮,用户将能够得到网站图片的缩略图列表。单击这些缩略图,图像将在 Picnik 中打开,用户可以进行编辑、注释和共享。
  5、Feedly
  Chrome 的 Feedly 插件可让您以快速时尚的方式阅读和分享您喜爱的 网站 和服务内容。它可以为您提供谷歌阅读器、推特、Tasty、YouTube、亚马逊等,让您随时浏览您喜欢的内容。
  6、WOT(信任网络)
  当用户使用 Chrome 浏览器打开收录垃圾邮件、恶意软件或其他危险/未知信息的站点时,Chrome 浏览器的 Web of Trust 插件会警告用户。
  当用户点击WOT插件图标时,红色圆圈网站是危险的网站,绿色圆圈网站是安全的网站。WOT 也适用于 Google 和 Bing 搜索结果、Gmail 和 Yahoo! 等邮件服务。邮件等
  7、Brizzly
  Brizzly 是一个小型 Twitter 插件,允许用户撰写和编译推文,访问 Twitter 个人资料、详细信息、列表、保存的搜索等。
  使用Brizzly,用户几乎可以在一个页面上完成所有操作,包括关注、取消关注、添加到群组、了解热门话题等。

chrome抓取网页插件(几款Chrome必备的扩展程序,让你的Chrome变得更加好用)

网站优化优采云 发表了文章 • 0 个评论 • 98 次浏览 • 2021-10-04 02:28 • 来自相关话题

  chrome抓取网页插件(几款Chrome必备的扩展程序,让你的Chrome变得更加好用)
  Chrome浏览器长期以来一直主导着浏览器应用软件。很多人选择Chrome浏览器,不仅是因为它的流畅和稳定,还因为它丰富的可扩展性。通过扩展可以实现各种功能。. 今天就让小编为大家推荐几个Chrome必备的扩展,让你的Chrome更实用!
  
  1.AdBlock——免费的广告拦截器
  不知道大家有没有被各种网络广告所困扰。小曲浏览一些网页时,突然弹出各种“如果你是兄弟,请砍我”和“一美元999”。洗脑很烦人,所以要小心。还是有中毒的危险。AdBlock 可以解决弹窗广告的烦恼。顾名思义,Ad(advertisement)Block(阻止)是一个广告拦截插件。它也是 Chrome 上最受欢迎的扩展程序之一,超过 4000 万用户正在使用它。
  
  使用 AdBlock,您可以告别所有广告,无论是网络广告、弹出式广告还是视频前广告!安装AdBlock扩展后,Chrome浏览器右上角的插件栏中会出现一个小的adblock图标。通常,最常用的网站 广告无需设置即可屏蔽。当然,如果你觉得默认设置不够强大,你也可以自定义屏蔽规则!
  2、Video Speed Controller--视频播放加速插件
  我们都知道,在长时间看电视节目或在线观看在线课程时,冗长的内容很容易让人感到疲倦。因此,很多人在观看视频时,习惯于将播放速度提高到 1-2 倍,以弥补视觉接收上的差异。虽然有些网站自带加速功能,但有些是收费的,需要开通会员。Video Speed Controller的优势是免费的视频播放加速插件,也是Chrome商店中最受欢迎的免费加速播放器之一。视频速度控制器适用于任何HTML5视频播放器,支持从0.07倍超慢速播放到16倍超高速播放。经测试,国内视频调速器包括优酷、腾讯视频、
  
  
  3、搜索播放歌曲
  它集成了很多播放器,让你不用下载大部分听音乐软件的烦恼。部分听歌软件需要会员才能播放,搜索播放听歌软件可以直接搜索任意歌曲播放,避免版权纠纷被下架。
  搜索后直接播放即可。
  
  4、Video Downloader Professional--网络视频下载工具
  一般来说,使用第三方工具下载视频,需要打开软件,复制链接。这个过程需要我们花时间。通过Video Downloader专业插件,您可以直接下载YouTube、Instagram等主流网络视频和国内众多视频网页。还支持下载很多国内的视频网页,非常方便。
  5、WebTimer--记录浏览的点点滴滴
  在手机上统计APP使用时间并不少见。这个插件可以帮你自动记录在主网站上花费的时间。可以看到结果是以饼图的形式展示的,饼图下方列出了这些浏览记录的详细信息。给你一份参考数据的工作计划。这些统计结果不仅可以通过WebTimer插件直观的查看,其他社交网络也可以快速查看。
  
  当然,上述扩展也可以在国内的Chrome插件商店中找到。微软发布了一款基于 Chromium 内核的新 Edge 浏览器。Microsoft Edge插件在中国可以顺利访问!
  
  你在等什么?为您的 Chrome/Edge 添加新功能!有没有其他好用的插件推荐?欢迎在评论区留言和分享! 查看全部

  chrome抓取网页插件(几款Chrome必备的扩展程序,让你的Chrome变得更加好用)
  Chrome浏览器长期以来一直主导着浏览器应用软件。很多人选择Chrome浏览器,不仅是因为它的流畅和稳定,还因为它丰富的可扩展性。通过扩展可以实现各种功能。. 今天就让小编为大家推荐几个Chrome必备的扩展,让你的Chrome更实用!
  
  1.AdBlock——免费的广告拦截器
  不知道大家有没有被各种网络广告所困扰。小曲浏览一些网页时,突然弹出各种“如果你是兄弟,请砍我”和“一美元999”。洗脑很烦人,所以要小心。还是有中毒的危险。AdBlock 可以解决弹窗广告的烦恼。顾名思义,Ad(advertisement)Block(阻止)是一个广告拦截插件。它也是 Chrome 上最受欢迎的扩展程序之一,超过 4000 万用户正在使用它。
  
  使用 AdBlock,您可以告别所有广告,无论是网络广告、弹出式广告还是视频前广告!安装AdBlock扩展后,Chrome浏览器右上角的插件栏中会出现一个小的adblock图标。通常,最常用的网站 广告无需设置即可屏蔽。当然,如果你觉得默认设置不够强大,你也可以自定义屏蔽规则!
  2、Video Speed Controller--视频播放加速插件
  我们都知道,在长时间看电视节目或在线观看在线课程时,冗长的内容很容易让人感到疲倦。因此,很多人在观看视频时,习惯于将播放速度提高到 1-2 倍,以弥补视觉接收上的差异。虽然有些网站自带加速功能,但有些是收费的,需要开通会员。Video Speed Controller的优势是免费的视频播放加速插件,也是Chrome商店中最受欢迎的免费加速播放器之一。视频速度控制器适用于任何HTML5视频播放器,支持从0.07倍超慢速播放到16倍超高速播放。经测试,国内视频调速器包括优酷、腾讯视频、
  
  
  3、搜索播放歌曲
  它集成了很多播放器,让你不用下载大部分听音乐软件的烦恼。部分听歌软件需要会员才能播放,搜索播放听歌软件可以直接搜索任意歌曲播放,避免版权纠纷被下架。
  搜索后直接播放即可。
  
  4、Video Downloader Professional--网络视频下载工具
  一般来说,使用第三方工具下载视频,需要打开软件,复制链接。这个过程需要我们花时间。通过Video Downloader专业插件,您可以直接下载YouTube、Instagram等主流网络视频和国内众多视频网页。还支持下载很多国内的视频网页,非常方便。
  5、WebTimer--记录浏览的点点滴滴
  在手机上统计APP使用时间并不少见。这个插件可以帮你自动记录在主网站上花费的时间。可以看到结果是以饼图的形式展示的,饼图下方列出了这些浏览记录的详细信息。给你一份参考数据的工作计划。这些统计结果不仅可以通过WebTimer插件直观的查看,其他社交网络也可以快速查看。
  
  当然,上述扩展也可以在国内的Chrome插件商店中找到。微软发布了一款基于 Chromium 内核的新 Edge 浏览器。Microsoft Edge插件在中国可以顺利访问!
  
  你在等什么?为您的 Chrome/Edge 添加新功能!有没有其他好用的插件推荐?欢迎在评论区留言和分享!

chrome抓取网页插件(在Chrome安装了LiveHTTPHeaders插件的作用(组图))

网站优化优采云 发表了文章 • 0 个评论 • 128 次浏览 • 2021-10-03 06:00 • 来自相关话题

  chrome抓取网页插件(在Chrome安装了LiveHTTPHeaders插件的作用(组图))
  在开发过程中,往往需要抓取动态http,但是切换到软件上会拖慢开发进程,降低效率。很多程序员会选择这个Live Http Headers Chrome插件来捕捉动态http页面。
  
  软件截图1
  插件概述
  LiveHTTPHeaders是一个开发者插件,可以实时监控发起的http请求和响应,也可以修改请求参数后重新发起请求。目前,LiveHTTPHeader 插件有 firefox 插件和 chrome 插件,这取决于用户的选择。无论是web开发还是测试,当我们测试一个web应用的安全性时,往往需要对HTTP流量进行分析和动态修改。此外,控制Web应用程序的出入流数据不仅有助于发现Web应用程序安全漏洞和利用安全测试任务,而且有利于常规Web应用程序测试。这就是我们今天要讲的LiveHTTPHeaders插件的作用。
  特征
  Chrome中安装Live HTTP Headers插件后,用户在Chrome中打开某个网站后,可以立即使用Live HTTP Headers插件查看当前网页中的HTTP Header信息。此信息将收录当前网页信息。加载状态,如资源访问状态:200、301、404等。通过对这些信息的分析,可以很好的调试当前网页,给开发者带来网站 来方便。
  指示
  1. 在谷歌浏览器中安装Live HTTP Headers插件后,可以在Chrome扩展设置中开启监控所有浏览器头信息的功能。
  2.用户使用Chrome打开需要调试的网页,然后可以访问该网页,等待谷歌浏览器加载相应的网页资源。加载完成后,您可以使用 Live HTTP Headers 插件查看当前网页 HTTP 头信息和加载状态。
  3.同理,用户可以点击Live HTTP Headers插件的RAW标签,查看HTTP Header的原创信息。
  4. 我们需要打开的浏览器网页,所有交互的HTTP请求和重放信息内容都可以被用户捕获和分析。
  5.用户可以在Live HTTP Headers的设置界面自定义当前的HTTP Header监控,点击Live HTTP Headers的设置按钮,可以设置抓取http报文的字段信息,在页面上选择监控资源,默认显示视图、列表排序等功能。
  预防措施
  一旦 Live HTTP Headers 插件打开,它就会监控和捕获当前 Chrome 会话中的所有 HTTP 头信息。用户可以尝试模拟一些操作来检查http头。 查看全部

  chrome抓取网页插件(在Chrome安装了LiveHTTPHeaders插件的作用(组图))
  在开发过程中,往往需要抓取动态http,但是切换到软件上会拖慢开发进程,降低效率。很多程序员会选择这个Live Http Headers Chrome插件来捕捉动态http页面。
  
  软件截图1
  插件概述
  LiveHTTPHeaders是一个开发者插件,可以实时监控发起的http请求和响应,也可以修改请求参数后重新发起请求。目前,LiveHTTPHeader 插件有 firefox 插件和 chrome 插件,这取决于用户的选择。无论是web开发还是测试,当我们测试一个web应用的安全性时,往往需要对HTTP流量进行分析和动态修改。此外,控制Web应用程序的出入流数据不仅有助于发现Web应用程序安全漏洞和利用安全测试任务,而且有利于常规Web应用程序测试。这就是我们今天要讲的LiveHTTPHeaders插件的作用。
  特征
  Chrome中安装Live HTTP Headers插件后,用户在Chrome中打开某个网站后,可以立即使用Live HTTP Headers插件查看当前网页中的HTTP Header信息。此信息将收录当前网页信息。加载状态,如资源访问状态:200、301、404等。通过对这些信息的分析,可以很好的调试当前网页,给开发者带来网站 来方便。
  指示
  1. 在谷歌浏览器中安装Live HTTP Headers插件后,可以在Chrome扩展设置中开启监控所有浏览器头信息的功能。
  2.用户使用Chrome打开需要调试的网页,然后可以访问该网页,等待谷歌浏览器加载相应的网页资源。加载完成后,您可以使用 Live HTTP Headers 插件查看当前网页 HTTP 头信息和加载状态。
  3.同理,用户可以点击Live HTTP Headers插件的RAW标签,查看HTTP Header的原创信息。
  4. 我们需要打开的浏览器网页,所有交互的HTTP请求和重放信息内容都可以被用户捕获和分析。
  5.用户可以在Live HTTP Headers的设置界面自定义当前的HTTP Header监控,点击Live HTTP Headers的设置按钮,可以设置抓取http报文的字段信息,在页面上选择监控资源,默认显示视图、列表排序等功能。
  预防措施
  一旦 Live HTTP Headers 插件打开,它就会监控和捕获当前 Chrome 会话中的所有 HTTP 头信息。用户可以尝试模拟一些操作来检查http头。

chrome抓取网页插件( -spa-plugin插件的预渲染方法)

网站优化优采云 发表了文章 • 0 个评论 • 58 次浏览 • 2021-09-30 20:18 • 来自相关话题

  chrome抓取网页插件(
-spa-plugin插件的预渲染方法)
  
  本文主要介绍使用prerender-spa-plugin对前端代码进行预渲染。
  预渲染(SSG)和服务端(SSR)渲染有一定的区别。想了解的可以看:传送门。
  背景
  因为之前的网站是使用Vue开发的,这种前端JavaScript渲染开发模式对搜索引擎非常不友好,也没有办法抓取有效信息。因此,为了执行 SEO,我们需要预渲染页面。
  预渲染更适合静态页面或变化不大的页面。页面上的大部分内容都可以在部署前通过静态渲染进行渲染。这样,当搜索引擎在爬取时,就可以爬到相关的内容信息。
  现状
  商启通官网现状如下:
  目标
  希望通过预渲染,在第一次访问没有执行JavaScript时,页面可以携带足够的信息,即可以将JavaScript渲染的内容提前渲染成HTML。
  该版本预计不会进行太多更改。
  计划
  我们这次的计划主要是使用prerender-spa-plugin这个webpack插件来实现。
  它的主要原理是启动浏览器,渲染后抓取HTML,然后替换原来的HTML。
  我们需要实现预渲染,那么我们需要完成以下几件事:
  插件介绍和配置。本地验证。改变包装和施工过程。在线验证。
  下面,让我们一一谈谈我们如何做到这一点。
  插件介绍及配置
  首先,我们需要引入一个预渲染插件并执行命令:
  cnpm i prerender-spa-plugin -D
  这个命令除了安装插件本身,还要依赖puppeteer,然后puppeteer又依赖登陆的chromium,所以最后我们其实需要在依赖中安装一个chromium。
  如果安装puppeteer很慢或者经常失败,可以参考文章中的方法:国内下载安装-Puppeteer-,指定puppeteer下载镜像。
  安装完成后,我们可以在webpack配置文件中添加相应的配置。
  如果你也在使用vue-cli,那么我们需要添加的配置在vue.config.js中。如果直接修改webpack的配置,方法类似。
  我们以修改 vue.config.js 为例:
  const PrerenderSPAPlugin = require('prerender-spa-plugin');
module.exports = {
...,
configureWebpack: {
...,
chainWebpack: config => {
config.plugin('prerender').use(PrerenderSPAPlugin, [
{
staticDir: path.join(__dirname, 'build'),
routes: [
'/',
'/product',
'/case',
'/about',
'/register',
],
renderer: new Renderer({
headless: true,
executablePath: '/Applications/Google Chrome.app/Contents/MacOS/Google Chrome',
// 在 main.js 中 document.dispatchEvent(new Event('render-event')),两者的事件名称要对应上。
renderAfterDocumentEvent: 'render-event',
}),
},
]);
}
}
}
  因为我们在项目中使用了 webpack-chain,所以我们的语法类似于上面的链调用方法。如果直接修改,就是使用Vue原有的修改配置方式。
  给大家简单介绍一下上面一些配置的含义:
  – Headless:是否使用headless模式进行渲染,建议选择true。
  - ExecutablePath:指定chrome的路径(也可以是chrome)。这个配置需要在talos中指定。talos 中的 chrome 地址默认为 /usr/bin/google-chrome。
  – RenderAfterDocumentEvent:这意味着在触发事件之后,执行预渲染。这个事件需要通过代码中的dispatchEvent来触发,这样可以控制预渲染的时间。通常,我们在最外层组件的已安装挂钩中触发。如果您有其他要求,也可以自行指定。
  有关更多信息,请参阅插件的官方文档。
  开发完成后,我们可以在本地构建,看看能不能生成符合我们预期的代码。
  Vue.config.js 指定 publicPath 导致预渲染失败
  如果你和我的项目一样,在vue.config.js中通过publicPath指定第三方CDN域名,然后CSS、JavaScript、Image等资源会转移到不同的域名。类似的配置如下:
  module.exports = {
...,
publicPath: `//awp-assets.cdn.net/${projectPath}`,
...,
};
  如果没有预渲染,这个方案打包完成后会上传到不同的CDN域名,在线访问是没有问题的。
  但是本地,此时CSS和JS资源还没有上传到CDN,浏览器无法加载相应的资源进行页面渲染。这将导致本地预渲染失败。
  为了解决这个问题,有两种解决方案。
  【推荐】调整打包策略,将非HTML资源上传到同一个CDN域名。在这种情况下,我们可以使用相对路径来访问这些资源,而无需将新域名传递给 publicPath,这样我们在本地构建时就可以访问这些值。这是一种更可靠、更合理的方法,更值得推荐。(如果上面的方法真的无法实现,那么可以考虑这个方案)在预渲染之前,资源是通过相对路径在本地访问的。这时候用替换方法替换html中的资源文件地址,然后进行预渲染。渲染后替换它。这种方法比较hacky,但经过实际验证确实有效。具体做法是自己写一个简单的webpack插件。
  首先,我们需要安装一个新的npm包来替换文件的内容(可以自己写正则规则,但是用这个会更方便),具体命令如下:
  mnpm i replace-in-file
  安装完成后,我们需要添加两个webpack插件分别作用于afterEmit和done这两个hook节点上。如果你想了解这两个hook节点为什么是这样,那么你可以阅读webpack插件的开发章节。
  const replace = require('replace-in-file');
let publicPath = `//awp-assets.cdn.net/${projectPath}`;
// 第1个替换插件,主要是将原先打包过程中带有CDN域名的路径替换成相对路径
function ReplacePathInHTMLPlugin1(cb) {
this.apply = compiler => {
if (compiler.hooks && compiler.hooks.afterEmit) {
compiler.hooks.afterEmit.tap('replace-url', cb);
}
};
}
function replacePluginCallback1() {
replace({
files: path.join(__dirname, '/build/**/*.html'),
from: new RegExp(
publicPath.replace(/([./])/g, (match, p1) => {
return `\\${p1}`;
}),
'g'
),
to: '',
})
.then(results => {
console.log('replace HTML static resources success', results);
})
.catch(e => {
console.log('replace HTML static resources fail', e);
});
}
// 第2个替换插件,主要是将预渲染后的HTML文件中的相对路径替换成带有CDN域名的路径
function ReplacePathInHTMLPlugin2(cb) {
this.apply = compiler => {
if (compiler.hooks && compiler.hooks.done) {
compiler.hooks.done.tap('replace-url', cb);
}
};
}
function replacePluginCallback2() {
replace({
files: path.join(__dirname, '/build/**/*.html'),
from: [/href="\/css/g, /href="\/js/g, /src="\/js/g, /href="\/favicon.ico"/g],
to: [
`href="${publicPath}/css`,
`href="${publicPath}/js`,
`src="${publicPath}/js`,
`href="${publicPath}/favicon.ico"`,
],
})
.then(results => {
console.log('replace HTML static resources success', results);
})
.catch(e => {
console.log('replace HTML static resources fail', e);
});
}
  以上代码就是我们需要添加的两个webpack替换插件和对应的回调函数。接下来我们看看如何在webpack中进行配置。
  module.exports = {
publicPath,
outputDir,
crossorigin: 'anonymous',
chainWebpack: config => {
config.plugin('replaceInHTML').use(new ReplacePathInHTMLPlugin1(replacePluginCallback));
config.plugin('prerender').use(PrerenderSPAPlugin, [
{
staticDir: path.join(__dirname, 'build'),
// 我们应该只会使用根路径,因为是hash路由,所以其他页面预渲染没有意义,因此不进行预渲染
routes: ['/'],
renderer: new Renderer({
headless: true,
executablePath: '/Applications/Google Chrome.app/Contents/MacOS/Google Chrome',
// 在 main.js 中 document.dispatchEvent(new Event('render-event')),两者的事件名称要对应上。
renderAfterDocumentEvent: 'render-event',
}),
},
]);
config.plugin('replaceInHTML2').use(new ReplacePathInHTMLPlugin2(replacePluginCallback2));
}
  我们的第一个替换插件需要在预渲染插件之前执行。在执行预渲染插件之前,将HTML中资源的地址替换为本地相对路径;第二个需要在替换后执行,以便将预渲染后端资源中的相对路径替换为CDN地址。
  通过这两个插件,我们可以通过在预渲染之前替换路径,然后在预渲染之后完成替换来完成预渲染,以保证在线可用性。
  本地验证
  通过上面的方法,我们应该已经得到了一个预渲染的HTML,接下来就要验证HTML是否符合预期。
  更简单的验证方式是直接访问HTML文件,或者启动一个HTTP静态资源服务来验证。
  为了验证,您可以使用 curl 发出请求。在这种情况下,将不会执行 JavaScript,您可以看到 HTML 源文件是什么。
  FAQ chrome版本比较低的时候(比如v73),会提示渲染失败?
  这是因为chrome的版本太低,导致预渲染失败。解决办法是将chrome/chromium版本升级到最新(目前v93没问题)版本。
  总结
  如果我们需要实现SSG(静态站点生成),那么我们可以使用prerender-spa-plugin插件,这个插件可以在本地启动chrome来抓取HTML内容,然后写回HTML文件,如果我们需要对静态资源文件进行处理,我们可以使用替换插件来替换处理前后的内容来满足我们的需求。
  虽然直接替换压缩代码看起来很有效,但它强烈依赖于压缩算法和内容顺序。强烈不建议直接用脚本修改和替换压缩文件。最好在 webpack 的 done hook 回调中处理。 查看全部

  chrome抓取网页插件(
-spa-plugin插件的预渲染方法)
  https://media.mybj123.com/wp-c ... 5.png 300w, https://media.mybj123.com/wp-c ... 6.png 768w" />
  本文主要介绍使用prerender-spa-plugin对前端代码进行预渲染。
  预渲染(SSG)和服务端(SSR)渲染有一定的区别。想了解的可以看:传送门。
  背景
  因为之前的网站是使用Vue开发的,这种前端JavaScript渲染开发模式对搜索引擎非常不友好,也没有办法抓取有效信息。因此,为了执行 SEO,我们需要预渲染页面。
  预渲染更适合静态页面或变化不大的页面。页面上的大部分内容都可以在部署前通过静态渲染进行渲染。这样,当搜索引擎在爬取时,就可以爬到相关的内容信息。
  现状
  商启通官网现状如下:
  目标
  希望通过预渲染,在第一次访问没有执行JavaScript时,页面可以携带足够的信息,即可以将JavaScript渲染的内容提前渲染成HTML。
  该版本预计不会进行太多更改。
  计划
  我们这次的计划主要是使用prerender-spa-plugin这个webpack插件来实现。
  它的主要原理是启动浏览器,渲染后抓取HTML,然后替换原来的HTML。
  我们需要实现预渲染,那么我们需要完成以下几件事:
  插件介绍和配置。本地验证。改变包装和施工过程。在线验证。
  下面,让我们一一谈谈我们如何做到这一点。
  插件介绍及配置
  首先,我们需要引入一个预渲染插件并执行命令:
  cnpm i prerender-spa-plugin -D
  这个命令除了安装插件本身,还要依赖puppeteer,然后puppeteer又依赖登陆的chromium,所以最后我们其实需要在依赖中安装一个chromium。
  如果安装puppeteer很慢或者经常失败,可以参考文章中的方法:国内下载安装-Puppeteer-,指定puppeteer下载镜像。
  安装完成后,我们可以在webpack配置文件中添加相应的配置。
  如果你也在使用vue-cli,那么我们需要添加的配置在vue.config.js中。如果直接修改webpack的配置,方法类似。
  我们以修改 vue.config.js 为例:
  const PrerenderSPAPlugin = require('prerender-spa-plugin');
module.exports = {
...,
configureWebpack: {
...,
chainWebpack: config => {
config.plugin('prerender').use(PrerenderSPAPlugin, [
{
staticDir: path.join(__dirname, 'build'),
routes: [
'/',
'/product',
'/case',
'/about',
'/register',
],
renderer: new Renderer({
headless: true,
executablePath: '/Applications/Google Chrome.app/Contents/MacOS/Google Chrome',
// 在 main.js 中 document.dispatchEvent(new Event('render-event')),两者的事件名称要对应上。
renderAfterDocumentEvent: 'render-event',
}),
},
]);
}
}
}
  因为我们在项目中使用了 webpack-chain,所以我们的语法类似于上面的链调用方法。如果直接修改,就是使用Vue原有的修改配置方式。
  给大家简单介绍一下上面一些配置的含义:
  – Headless:是否使用headless模式进行渲染,建议选择true。
  - ExecutablePath:指定chrome的路径(也可以是chrome)。这个配置需要在talos中指定。talos 中的 chrome 地址默认为 /usr/bin/google-chrome。
  – RenderAfterDocumentEvent:这意味着在触发事件之后,执行预渲染。这个事件需要通过代码中的dispatchEvent来触发,这样可以控制预渲染的时间。通常,我们在最外层组件的已安装挂钩中触发。如果您有其他要求,也可以自行指定。
  有关更多信息,请参阅插件的官方文档。
  开发完成后,我们可以在本地构建,看看能不能生成符合我们预期的代码。
  Vue.config.js 指定 publicPath 导致预渲染失败
  如果你和我的项目一样,在vue.config.js中通过publicPath指定第三方CDN域名,然后CSS、JavaScript、Image等资源会转移到不同的域名。类似的配置如下:
  module.exports = {
...,
publicPath: `//awp-assets.cdn.net/${projectPath}`,
...,
};
  如果没有预渲染,这个方案打包完成后会上传到不同的CDN域名,在线访问是没有问题的。
  但是本地,此时CSS和JS资源还没有上传到CDN,浏览器无法加载相应的资源进行页面渲染。这将导致本地预渲染失败。
  为了解决这个问题,有两种解决方案。
  【推荐】调整打包策略,将非HTML资源上传到同一个CDN域名。在这种情况下,我们可以使用相对路径来访问这些资源,而无需将新域名传递给 publicPath,这样我们在本地构建时就可以访问这些值。这是一种更可靠、更合理的方法,更值得推荐。(如果上面的方法真的无法实现,那么可以考虑这个方案)在预渲染之前,资源是通过相对路径在本地访问的。这时候用替换方法替换html中的资源文件地址,然后进行预渲染。渲染后替换它。这种方法比较hacky,但经过实际验证确实有效。具体做法是自己写一个简单的webpack插件。
  首先,我们需要安装一个新的npm包来替换文件的内容(可以自己写正则规则,但是用这个会更方便),具体命令如下:
  mnpm i replace-in-file
  安装完成后,我们需要添加两个webpack插件分别作用于afterEmit和done这两个hook节点上。如果你想了解这两个hook节点为什么是这样,那么你可以阅读webpack插件的开发章节。
  const replace = require('replace-in-file');
let publicPath = `//awp-assets.cdn.net/${projectPath}`;
// 第1个替换插件,主要是将原先打包过程中带有CDN域名的路径替换成相对路径
function ReplacePathInHTMLPlugin1(cb) {
this.apply = compiler => {
if (compiler.hooks && compiler.hooks.afterEmit) {
compiler.hooks.afterEmit.tap('replace-url', cb);
}
};
}
function replacePluginCallback1() {
replace({
files: path.join(__dirname, '/build/**/*.html'),
from: new RegExp(
publicPath.replace(/([./])/g, (match, p1) => {
return `\\${p1}`;
}),
'g'
),
to: '',
})
.then(results => {
console.log('replace HTML static resources success', results);
})
.catch(e => {
console.log('replace HTML static resources fail', e);
});
}
// 第2个替换插件,主要是将预渲染后的HTML文件中的相对路径替换成带有CDN域名的路径
function ReplacePathInHTMLPlugin2(cb) {
this.apply = compiler => {
if (compiler.hooks && compiler.hooks.done) {
compiler.hooks.done.tap('replace-url', cb);
}
};
}
function replacePluginCallback2() {
replace({
files: path.join(__dirname, '/build/**/*.html'),
from: [/href="\/css/g, /href="\/js/g, /src="\/js/g, /href="\/favicon.ico"/g],
to: [
`href="${publicPath}/css`,
`href="${publicPath}/js`,
`src="${publicPath}/js`,
`href="${publicPath}/favicon.ico"`,
],
})
.then(results => {
console.log('replace HTML static resources success', results);
})
.catch(e => {
console.log('replace HTML static resources fail', e);
});
}
  以上代码就是我们需要添加的两个webpack替换插件和对应的回调函数。接下来我们看看如何在webpack中进行配置。
  module.exports = {
publicPath,
outputDir,
crossorigin: 'anonymous',
chainWebpack: config => {
config.plugin('replaceInHTML').use(new ReplacePathInHTMLPlugin1(replacePluginCallback));
config.plugin('prerender').use(PrerenderSPAPlugin, [
{
staticDir: path.join(__dirname, 'build'),
// 我们应该只会使用根路径,因为是hash路由,所以其他页面预渲染没有意义,因此不进行预渲染
routes: ['/'],
renderer: new Renderer({
headless: true,
executablePath: '/Applications/Google Chrome.app/Contents/MacOS/Google Chrome',
// 在 main.js 中 document.dispatchEvent(new Event('render-event')),两者的事件名称要对应上。
renderAfterDocumentEvent: 'render-event',
}),
},
]);
config.plugin('replaceInHTML2').use(new ReplacePathInHTMLPlugin2(replacePluginCallback2));
}
  我们的第一个替换插件需要在预渲染插件之前执行。在执行预渲染插件之前,将HTML中资源的地址替换为本地相对路径;第二个需要在替换后执行,以便将预渲染后端资源中的相对路径替换为CDN地址。
  通过这两个插件,我们可以通过在预渲染之前替换路径,然后在预渲染之后完成替换来完成预渲染,以保证在线可用性。
  本地验证
  通过上面的方法,我们应该已经得到了一个预渲染的HTML,接下来就要验证HTML是否符合预期。
  更简单的验证方式是直接访问HTML文件,或者启动一个HTTP静态资源服务来验证。
  为了验证,您可以使用 curl 发出请求。在这种情况下,将不会执行 JavaScript,您可以看到 HTML 源文件是什么。
  FAQ chrome版本比较低的时候(比如v73),会提示渲染失败?
  这是因为chrome的版本太低,导致预渲染失败。解决办法是将chrome/chromium版本升级到最新(目前v93没问题)版本。
  总结
  如果我们需要实现SSG(静态站点生成),那么我们可以使用prerender-spa-plugin插件,这个插件可以在本地启动chrome来抓取HTML内容,然后写回HTML文件,如果我们需要对静态资源文件进行处理,我们可以使用替换插件来替换处理前后的内容来满足我们的需求。
  虽然直接替换压缩代码看起来很有效,但它强烈依赖于压缩算法和内容顺序。强烈不建议直接用脚本修改和替换压缩文件。最好在 webpack 的 done hook 回调中处理。

chrome抓取网页插件(-spa-plugin插件预渲染的区别及解决方法)

网站优化优采云 发表了文章 • 0 个评论 • 69 次浏览 • 2021-09-30 08:13 • 来自相关话题

  chrome抓取网页插件(-spa-plugin插件预渲染的区别及解决方法)
  本文主要介绍使用prerender-spa-plugin对前端代码进行预渲染。
  预渲染(SSG)和服务端(SSR)渲染有一定的区别。如果你想了解,你可以阅读:。
  背景
  因为之前的网站是使用Vue开发的,这种前端JavaScript渲染开发模式对搜索引擎非常不友好,也没有办法抓取有效信息。因此,为了执行 SEO,我们需要预渲染页面。
  预渲染更适合静态页面或变化不大的页面。页面上的大部分内容都可以在部署前通过静态渲染进行渲染。这样,当搜索引擎在爬取时,就可以爬到相关的内容信息。
  现状
  商启通官网现状如下:
  目标
  希望通过预渲染,在第一次访问没有执行JavaScript时,页面可以携带足够的信息,即可以将JavaScript渲染的内容提前渲染成HTML。
  该版本预计不会进行太多更改。
  计划
  我们这次的计划主要是使用prerender-spa-plugin这个webpack插件来实现。
  它的主要原理是启动浏览器,渲染后抓取HTML,然后替换原来的HTML。
  我们需要实现预渲染,那么我们需要完成以下几件事:
  插件介绍和配置。本地验证。改变包装和施工过程。在线验证。
  下面,让我们一一谈谈我们如何做到这一点。
  插件介绍及配置
  首先,我们需要引入一个预渲染插件并执行命令:
  mnpm i prerender-spa-plugin -D
  这个命令除了安装插件本身,还要依赖puppeteer,然后puppeteer又依赖登陆的chromium,所以最后我们其实需要在依赖中安装一个chromium。
  如果安装puppeteer很慢或者经常失败,可以参考本文档中的方法:国内下载安装-Puppeteer-method/,指定puppeteer下载镜像。
  安装完成后,我们可以在webpack配置文件中添加相应的配置。
  如果你也在使用vue-cli,那么我们需要添加的配置在vue.config.js中。如果直接修改webpack的配置,方法类似。
  我们以修改 vue.config.js 为例:
  const PrerenderSPAPlugin = require('prerender-spa-plugin');
module.exports = {
...,
configureWebpack: {
...,
chainWebpack: config => {
config.plugin('prerender').use(PrerenderSPAPlugin, [
{
staticDir: path.join(__dirname, 'build'),
routes: [
'/',
'/product',
'/case',
'/about',
'/register',
],
renderer: new Renderer({
headless: true,
executablePath: '/Applications/Google Chrome.app/Contents/MacOS/Google Chrome',
// 在 main.js 中 document.dispatchEvent(new Event('render-event')),两者的事件名称要对应上。
renderAfterDocumentEvent: 'render-event',
}),
},
]);
}
}
}
  因为我们在项目中使用了 webpack-chain,所以我们的语法类似于上面的链调用方法。如果直接修改,就是使用Vue原有的修改配置方式。
  给大家简单介绍一下上面一些配置的含义:
  -headless:是否使用headless模式进行渲染,建议选择true。
  -executablePath:指定chrome的路径(也可以是chrome)。这个配置需要在talos中指定。talos 中的 chrome 地址默认为 /usr/bin/google-chrome。
  -renderAfterDocumentEvent:这意味着在触发事件之后,执行预渲染。这个事件需要通过代码中的dispatchEvent来触发,这样可以控制预渲染的时间。通常,我们在最外层组件的已安装挂钩中触发。如果您有其他要求,也可以自行指定。
  有关更多信息,请参阅插件的官方文档。
  开发完成后,我们可以在本地构建,看看能不能生成符合我们预期的代码。
  Vue.config.js 指定 publicPath 导致预渲染失败
  如果你和我的项目一样,在vue.config.js中通过publicPath指定第三方CDN域名,然后CSS、JavaScript、Image等资源会转移到不同的域名。类似的配置如下:
  module.exports = {
...,
publicPath: `//awp-assets.cdn.net/${projectPath}`,
...,
};
  如果没有预渲染,这个方案打包完成后会上传到不同的CDN域名,在线访问是没有问题的。
  但是本地,此时CSS和JS资源还没有上传到CDN,浏览器无法加载相应的资源进行页面渲染。这将导致本地预渲染失败。
  为了解决这个问题,有两种解决方案。
  【推荐】调整打包策略,将非HTML资源上传到同一个CDN域名。在这种情况下,我们可以使用相对路径来访问这些资源,而无需将新域名传递给 publicPath,这样我们在本地构建时就可以访问这些值。这是一种更可靠、更合理的方法,更值得推荐。(如果上面的方法真的无法实现,那么可以考虑这个方案)在预渲染之前,资源是通过相对路径在本地访问的。这时候用替换方法替换html中的资源文件地址,然后进行预渲染。渲染后替换它。这种方法比较hacky,但经过实际验证确实有效。具体做法是自己写一个简单的webpack插件。
  首先,我们需要安装一个新的npm包来替换文件的内容(可以自己写正则规则,但是用这个会更方便),具体命令如下:
  安装完成后,我们需要添加两个webpack插件分别作用于afterEmit和done这两个hook节点上。如果你想了解这两个hook节点为什么是这样,那么你可以阅读webpack插件的开发章节。
  const replace = require('replace-in-file');
let publicPath = `//awp-assets.cdn.net/${projectPath}`;
// 第1个替换插件,主要是将原先打包过程中带有CDN域名的路径替换成相对路径
function ReplacePathInHTMLPlugin1(cb) {
this.apply = compiler => {
if (compiler.hooks && compiler.hooks.afterEmit) {
compiler.hooks.afterEmit.tap('replace-url', cb);
}
};
}
function replacePluginCallback1() {
replace({
files: path.join(__dirname, '/build/**/*.html'),
from: new RegExp(
publicPath.replace(/([./])/g, (match, p1) => {
return `\\${p1}`;
}),
'g'
),
to: '',
})
.then(results => {
console.log('replace HTML static resources success', results);
})
.catch(e => {
console.log('replace HTML static resources fail', e);
});
}
// 第2个替换插件,主要是将预渲染后的HTML文件中的相对路径替换成带有CDN域名的路径
function ReplacePathInHTMLPlugin2(cb) {
this.apply = compiler => {
if (compiler.hooks && compiler.hooks.done) {
compiler.hooks.done.tap('replace-url', cb);
}
};
}
function replacePluginCallback2() {
replace({
files: path.join(__dirname, '/build/**/*.html'),
from: [/href="\/css/g, /href="\/js/g, /src="\/js/g, /href="\/favicon.ico"/g],
to: [
`href="${publicPath}/css`,
`href="${publicPath}/js`,
`src="${publicPath}/js`,
`href="${publicPath}/favicon.ico"`,
],
})
.then(results => {
console.log('replace HTML static resources success', results);
})
.catch(e => {
console.log('replace HTML static resources fail', e);
});
}
  以上代码就是我们需要添加的两个webpack替换插件和对应的回调函数。接下来我们看看如何在webpack中进行配置。
  module.exports = {
publicPath,
outputDir,
crossorigin: 'anonymous',
chainWebpack: config => {
config.plugin('replaceInHTML').use(new ReplacePathInHTMLPlugin1(replacePluginCallback));
config.plugin('prerender').use(PrerenderSPAPlugin, [
{
staticDir: path.join(__dirname, 'build'),
// 我们应该只会使用根路径,因为是hash路由,所以其他页面预渲染没有意义,因此不进行预渲染
routes: ['/'],
renderer: new Renderer({
headless: true,
executablePath: '/Applications/Google Chrome.app/Contents/MacOS/Google Chrome',
// 在 main.js 中 document.dispatchEvent(new Event('render-event')),两者的事件名称要对应上。
renderAfterDocumentEvent: 'render-event',
}),
},
]);
config.plugin('replaceInHTML2').use(new ReplacePathInHTMLPlugin2(replacePluginCallback2));
}
  我们的第一个替换插件需要在预渲染插件之前执行。在执行预渲染插件之前,将HTML中资源的地址替换为本地相对路径;第二个需要在替换后执行,以便将预渲染后端资源中的相对路径替换为CDN地址。
  通过这两个插件,我们可以通过在预渲染之前替换路径,然后在预渲染之后完成替换来完成预渲染,以保证在线可用性。
  本地验证
  通过上面的方法,我们应该已经得到了一个预渲染的HTML,接下来就要验证HTML是否符合预期。
  更简单的验证方式是直接访问HTML文件,或者启动一个HTTP静态资源服务来验证。
  为了验证,您可以使用 curl 发出请求。在这种情况下,将不会执行 JavaScript,您可以看到 HTML 源文件是什么。
  FAQ chrome版本比较低的时候(比如v73),会提示渲染失败?
  这是因为chrome的版本太低,导致预渲染失败。解决办法是将chrome/chromium版本升级到最新(目前v93没问题)版本。
  总结
  如果我们需要实现SSG(静态站点生成),那么我们可以使用prerender-spa-plugin插件,这个插件可以在本地启动chrome来抓取HTML内容,然后写回HTML文件,如果我们需要对静态资源文件进行处理,我们可以使用替换插件来替换处理前后的内容来满足我们的需求。
  虽然直接替换压缩代码看起来很有效,但它强烈依赖于压缩算法和内容顺序。强烈不建议直接用脚本修改和替换压缩文件。最好在 webpack 的 done hook 回调中处理。 查看全部

  chrome抓取网页插件(-spa-plugin插件预渲染的区别及解决方法)
  本文主要介绍使用prerender-spa-plugin对前端代码进行预渲染。
  预渲染(SSG)和服务端(SSR)渲染有一定的区别。如果你想了解,你可以阅读:。
  背景
  因为之前的网站是使用Vue开发的,这种前端JavaScript渲染开发模式对搜索引擎非常不友好,也没有办法抓取有效信息。因此,为了执行 SEO,我们需要预渲染页面。
  预渲染更适合静态页面或变化不大的页面。页面上的大部分内容都可以在部署前通过静态渲染进行渲染。这样,当搜索引擎在爬取时,就可以爬到相关的内容信息。
  现状
  商启通官网现状如下:
  目标
  希望通过预渲染,在第一次访问没有执行JavaScript时,页面可以携带足够的信息,即可以将JavaScript渲染的内容提前渲染成HTML。
  该版本预计不会进行太多更改。
  计划
  我们这次的计划主要是使用prerender-spa-plugin这个webpack插件来实现。
  它的主要原理是启动浏览器,渲染后抓取HTML,然后替换原来的HTML。
  我们需要实现预渲染,那么我们需要完成以下几件事:
  插件介绍和配置。本地验证。改变包装和施工过程。在线验证。
  下面,让我们一一谈谈我们如何做到这一点。
  插件介绍及配置
  首先,我们需要引入一个预渲染插件并执行命令:
  mnpm i prerender-spa-plugin -D
  这个命令除了安装插件本身,还要依赖puppeteer,然后puppeteer又依赖登陆的chromium,所以最后我们其实需要在依赖中安装一个chromium。
  如果安装puppeteer很慢或者经常失败,可以参考本文档中的方法:国内下载安装-Puppeteer-method/,指定puppeteer下载镜像。
  安装完成后,我们可以在webpack配置文件中添加相应的配置。
  如果你也在使用vue-cli,那么我们需要添加的配置在vue.config.js中。如果直接修改webpack的配置,方法类似。
  我们以修改 vue.config.js 为例:
  const PrerenderSPAPlugin = require('prerender-spa-plugin');
module.exports = {
...,
configureWebpack: {
...,
chainWebpack: config => {
config.plugin('prerender').use(PrerenderSPAPlugin, [
{
staticDir: path.join(__dirname, 'build'),
routes: [
'/',
'/product',
'/case',
'/about',
'/register',
],
renderer: new Renderer({
headless: true,
executablePath: '/Applications/Google Chrome.app/Contents/MacOS/Google Chrome',
// 在 main.js 中 document.dispatchEvent(new Event('render-event')),两者的事件名称要对应上。
renderAfterDocumentEvent: 'render-event',
}),
},
]);
}
}
}
  因为我们在项目中使用了 webpack-chain,所以我们的语法类似于上面的链调用方法。如果直接修改,就是使用Vue原有的修改配置方式。
  给大家简单介绍一下上面一些配置的含义:
  -headless:是否使用headless模式进行渲染,建议选择true。
  -executablePath:指定chrome的路径(也可以是chrome)。这个配置需要在talos中指定。talos 中的 chrome 地址默认为 /usr/bin/google-chrome。
  -renderAfterDocumentEvent:这意味着在触发事件之后,执行预渲染。这个事件需要通过代码中的dispatchEvent来触发,这样可以控制预渲染的时间。通常,我们在最外层组件的已安装挂钩中触发。如果您有其他要求,也可以自行指定。
  有关更多信息,请参阅插件的官方文档。
  开发完成后,我们可以在本地构建,看看能不能生成符合我们预期的代码。
  Vue.config.js 指定 publicPath 导致预渲染失败
  如果你和我的项目一样,在vue.config.js中通过publicPath指定第三方CDN域名,然后CSS、JavaScript、Image等资源会转移到不同的域名。类似的配置如下:
  module.exports = {
...,
publicPath: `//awp-assets.cdn.net/${projectPath}`,
...,
};
  如果没有预渲染,这个方案打包完成后会上传到不同的CDN域名,在线访问是没有问题的。
  但是本地,此时CSS和JS资源还没有上传到CDN,浏览器无法加载相应的资源进行页面渲染。这将导致本地预渲染失败。
  为了解决这个问题,有两种解决方案。
  【推荐】调整打包策略,将非HTML资源上传到同一个CDN域名。在这种情况下,我们可以使用相对路径来访问这些资源,而无需将新域名传递给 publicPath,这样我们在本地构建时就可以访问这些值。这是一种更可靠、更合理的方法,更值得推荐。(如果上面的方法真的无法实现,那么可以考虑这个方案)在预渲染之前,资源是通过相对路径在本地访问的。这时候用替换方法替换html中的资源文件地址,然后进行预渲染。渲染后替换它。这种方法比较hacky,但经过实际验证确实有效。具体做法是自己写一个简单的webpack插件。
  首先,我们需要安装一个新的npm包来替换文件的内容(可以自己写正则规则,但是用这个会更方便),具体命令如下:
  安装完成后,我们需要添加两个webpack插件分别作用于afterEmit和done这两个hook节点上。如果你想了解这两个hook节点为什么是这样,那么你可以阅读webpack插件的开发章节。
  const replace = require('replace-in-file');
let publicPath = `//awp-assets.cdn.net/${projectPath}`;
// 第1个替换插件,主要是将原先打包过程中带有CDN域名的路径替换成相对路径
function ReplacePathInHTMLPlugin1(cb) {
this.apply = compiler => {
if (compiler.hooks && compiler.hooks.afterEmit) {
compiler.hooks.afterEmit.tap('replace-url', cb);
}
};
}
function replacePluginCallback1() {
replace({
files: path.join(__dirname, '/build/**/*.html'),
from: new RegExp(
publicPath.replace(/([./])/g, (match, p1) => {
return `\\${p1}`;
}),
'g'
),
to: '',
})
.then(results => {
console.log('replace HTML static resources success', results);
})
.catch(e => {
console.log('replace HTML static resources fail', e);
});
}
// 第2个替换插件,主要是将预渲染后的HTML文件中的相对路径替换成带有CDN域名的路径
function ReplacePathInHTMLPlugin2(cb) {
this.apply = compiler => {
if (compiler.hooks && compiler.hooks.done) {
compiler.hooks.done.tap('replace-url', cb);
}
};
}
function replacePluginCallback2() {
replace({
files: path.join(__dirname, '/build/**/*.html'),
from: [/href="\/css/g, /href="\/js/g, /src="\/js/g, /href="\/favicon.ico"/g],
to: [
`href="${publicPath}/css`,
`href="${publicPath}/js`,
`src="${publicPath}/js`,
`href="${publicPath}/favicon.ico"`,
],
})
.then(results => {
console.log('replace HTML static resources success', results);
})
.catch(e => {
console.log('replace HTML static resources fail', e);
});
}
  以上代码就是我们需要添加的两个webpack替换插件和对应的回调函数。接下来我们看看如何在webpack中进行配置。
  module.exports = {
publicPath,
outputDir,
crossorigin: 'anonymous',
chainWebpack: config => {
config.plugin('replaceInHTML').use(new ReplacePathInHTMLPlugin1(replacePluginCallback));
config.plugin('prerender').use(PrerenderSPAPlugin, [
{
staticDir: path.join(__dirname, 'build'),
// 我们应该只会使用根路径,因为是hash路由,所以其他页面预渲染没有意义,因此不进行预渲染
routes: ['/'],
renderer: new Renderer({
headless: true,
executablePath: '/Applications/Google Chrome.app/Contents/MacOS/Google Chrome',
// 在 main.js 中 document.dispatchEvent(new Event('render-event')),两者的事件名称要对应上。
renderAfterDocumentEvent: 'render-event',
}),
},
]);
config.plugin('replaceInHTML2').use(new ReplacePathInHTMLPlugin2(replacePluginCallback2));
}
  我们的第一个替换插件需要在预渲染插件之前执行。在执行预渲染插件之前,将HTML中资源的地址替换为本地相对路径;第二个需要在替换后执行,以便将预渲染后端资源中的相对路径替换为CDN地址。
  通过这两个插件,我们可以通过在预渲染之前替换路径,然后在预渲染之后完成替换来完成预渲染,以保证在线可用性。
  本地验证
  通过上面的方法,我们应该已经得到了一个预渲染的HTML,接下来就要验证HTML是否符合预期。
  更简单的验证方式是直接访问HTML文件,或者启动一个HTTP静态资源服务来验证。
  为了验证,您可以使用 curl 发出请求。在这种情况下,将不会执行 JavaScript,您可以看到 HTML 源文件是什么。
  FAQ chrome版本比较低的时候(比如v73),会提示渲染失败?
  这是因为chrome的版本太低,导致预渲染失败。解决办法是将chrome/chromium版本升级到最新(目前v93没问题)版本。
  总结
  如果我们需要实现SSG(静态站点生成),那么我们可以使用prerender-spa-plugin插件,这个插件可以在本地启动chrome来抓取HTML内容,然后写回HTML文件,如果我们需要对静态资源文件进行处理,我们可以使用替换插件来替换处理前后的内容来满足我们的需求。
  虽然直接替换压缩代码看起来很有效,但它强烈依赖于压缩算法和内容顺序。强烈不建议直接用脚本修改和替换压缩文件。最好在 webpack 的 done hook 回调中处理。

chrome抓取网页插件(PicMonkeyExtensionChrome插件轻松抓取您所在网页上的所有图片 )

网站优化优采云 发表了文章 • 0 个评论 • 408 次浏览 • 2021-09-29 19:25 • 来自相关话题

  chrome抓取网页插件(PicMonkeyExtensionChrome插件轻松抓取您所在网页上的所有图片
)
  PicMonkey Extension 是一个基于谷歌浏览器的插件。该插件可以实现网页图片抓取功能,您可以轻松抓取网页上的所有图片,并在PicMonkey中打开进行编辑。非常实用。
  
  软件说明
  PicMonkey Extension Chrome插件是一款非常不错的Chrome网页图片抓取插件。它可以轻松抓取您网页上的所有图片,并在PicMonkey 官方网站 上编辑图片。这是一个非常好的插件。
  特征
  1、PicMonkey 插件允许您立即从任何网页抓取图像并在 PicMonkey 中打开它们进行编辑。
  2、PicMonkey 是一个免费的在线照片编辑器。
  3、PicMonkey 在线编辑器的精简和快速引擎允许您执行基本编辑,例如裁剪和旋转,并使用颜色效果、叠加、字体、纹理、框架和触摸工具增强您的图像。
  指示
  1、编辑器使用chrome浏览器。首先在标签页输入【chrome://extensions/】进入chrome扩展,将你在本页下载的PicMonkey插件解压,拖入扩展页面。能。
  
  2、安装完成后,试试插件效果。
  
  3、 进入网页后,点击界面右上角的插件图标,可以抓取页面上的所有图片。
  
  4、 点击需要的图片后,可以在PicMonkey在线图片编辑网页对点击的图片进行编辑。
   查看全部

  chrome抓取网页插件(PicMonkeyExtensionChrome插件轻松抓取您所在网页上的所有图片
)
  PicMonkey Extension 是一个基于谷歌浏览器的插件。该插件可以实现网页图片抓取功能,您可以轻松抓取网页上的所有图片,并在PicMonkey中打开进行编辑。非常实用。
  
  软件说明
  PicMonkey Extension Chrome插件是一款非常不错的Chrome网页图片抓取插件。它可以轻松抓取您网页上的所有图片,并在PicMonkey 官方网站 上编辑图片。这是一个非常好的插件。
  特征
  1、PicMonkey 插件允许您立即从任何网页抓取图像并在 PicMonkey 中打开它们进行编辑。
  2、PicMonkey 是一个免费的在线照片编辑器。
  3、PicMonkey 在线编辑器的精简和快速引擎允许您执行基本编辑,例如裁剪和旋转,并使用颜色效果、叠加、字体、纹理、框架和触摸工具增强您的图像。
  指示
  1、编辑器使用chrome浏览器。首先在标签页输入【chrome://extensions/】进入chrome扩展,将你在本页下载的PicMonkey插件解压,拖入扩展页面。能。
  
  2、安装完成后,试试插件效果。
  
  3、 进入网页后,点击界面右上角的插件图标,可以抓取页面上的所有图片。
  
  4、 点击需要的图片后,可以在PicMonkey在线图片编辑网页对点击的图片进行编辑。
  

chrome抓取网页插件(几个非常实用功能却非常强大的谷歌浏览器插件,会让你的工作效率提高很多很多)

网站优化优采云 发表了文章 • 0 个评论 • 289 次浏览 • 2021-09-26 15:04 • 来自相关话题

  chrome抓取网页插件(几个非常实用功能却非常强大的谷歌浏览器插件,会让你的工作效率提高很多很多)
  今天给大家介绍几个非常好用但功能非常强大的谷歌浏览器插件,无论你是开发外贸B端客户,还是寻找Youtube或Instagram名人,都会大大提高你的工作效率。
  插件安装在谷歌应用商店,链接地址为
  首先,Seoquake插件是SEO的神器,而且是免费的,功能非常非常强大。
  短链地址:
  Seoquake插件功能是我最常用的一个。功能非常非常强大。它可以捕获多维度的数据,提供关键的 SEO 指标,以及其他有用的工具,例如 SEO 审计等。
  
  
  
  ★检查所有主要指标
  ★全面分析SERP并以CSV格式导出结果
  ★即时评估关键字难度
  ★设置搜索查询参数
  ★完整的网页SEO审核,包括检查手机兼容性
  ★查看您在 Facebook 和 Google+ 上的社交统计数据
  ★使用各种默认参数或创建自定义设置
  ★获取完整的内/外链接报告
  ★确定关键词密度,配置停用词列表
  ★比较网址/域名
  安装 Seoquake 插件后,在 Google 上搜索时会发现上面提到的以下主要关键指标。请勾选下图中红框,里面有排名,sermush外链,这个网站展示广告,whois等,安装后可以点击查看。
  
  其实最常用的就是左栏的Export CSV按钮,也就是可以把你的搜索结果批量导出为Excel表格。这个真的很省时,一一保存点击网站你在开发外贸客户或者找名人信息的时候。
  比如我想找一个做过手机开箱评测的YouTube网红,在搜索框中输入以下内容,site命令表示该网站之前的搜索结果会出现在域名中网站后的网址
  智能手机评论网站:
  搜索设置中每页可显示100条搜索结果,一次导出10条搜索内容
  
  您还可以单击高级搜索,添加一些国家、时间、语言、文件类型和其他限定符。当然,您也可以添加精确搜索或广泛搜索。让我们用最简单的搜索来看看如何搜索。结果被导出。
  
  我们点击左栏的Export CSV按钮,导出的是youtube上已经测试过的名人视频的链接,如下图:
  看起来很乱。使用Excel表格中的数据来整理红框的内容。可以看到双引号""在前面,双引号作为列字符。
  
  点击数据按钮-列按钮,如下图:
  
  
  其他人在这里输入双引号"
  
  可以看到数据已经单独列出来了,是很正规的数据
  
  
  然后点击完成,就会出现上面的Excel表格。可以看到链接很整齐,不凌乱,然后复制这些链接打开,找到youtube名人对应的信息。比如打开第一个链接的视频在下面这个youtube名人评测,你可以去他的关于信息栏看看有没有留下联系方式
  
  
  关于youtube名人的具体更详细的信息请参考前面的文章,我写的很详细文章
  如何快速找到 YouTube 名人 (一)
  如何快速找到 YouTube 名人 (二)
  这里还有一点需要注意的是,如果你在谷歌上搜索外贸B2B客户,不设置site命令,会有很多域名不是.com结尾,有的可能是co.uk。cn等,除了归类的方法,还有一种方法,就是快速删除域名后面的内容。
  例如,如果我要搜索海外智能手表的供应商或分销商,请输入以下内容
  智能手表供应商或分销商
  需要注意的是,我在这里是为了演示如何使用Seoquake插件工具。真正用谷歌搜索开发外贸客户。我需要添加很多限定符并排除国内供应商。以后会具体讲讲如何利用谷歌搜索开发外贸客户。
  下面是导出的结果,感觉比较混乱吧?接下来告诉你如果快速删除域名后面的内容,其实很简单,CTRL+F,然后点replace
  
  并在框中输入以下内容,点击“全部替换”删除域名后面的内容
  
  
  有些域名不以 .com 结尾。操作方法是一样的。只需使用 CTRL+F 并将它们全部替换。比如有很多co.uk区以in结尾,只要在框内输入把内容去掉就行了。
  
  现在您可以一次出口 100 家智能手表供应商。你可以安装这个方法导出谷歌第二、​​三、十页的搜索结果,这样智能手表就有1000块了。然后供应商删除重复项,批量开发这些网站客户,大大提高了效率。
  批量开发这些导出的域名有多种方式。有根据批量输入的域名抓取邮箱的工具,也可以使用一些插件批量导出。这就是我们接下来要讲的猎人插件。
  需要注意的是,例如,当谷歌搜索结果显示数十万条数据时,我们只能看到前1000条数据,其余的都是不可见的。
  二、猎人插件,找客户网站邮箱神器
  Hunter 也是一个经常使用的插件。它也非常方便和强大。找客户邮箱是神器。插件短链:
  
  如果你认识客户网站,除了查看客户的联系方式网站关于或联系我们网站,还可以直接使用猎人插件,只要打开客户网站,点击猎人插件,会自动抓取邮箱,下图为示例
  一般邮箱背面有绿色圆圈的logo就是已经验证过的邮箱,可信度还是挺高的。
  
  点击后面的源码按钮,还可以看到爬取了哪些网页,可以点击试试
  
  也可以打开猎人网页,输入域名只能查询邮箱,如下图,可以根据需要保存对应的邮箱。
  除了根据域名搜索邮箱,猎人还可以验证邮箱的准确性,批量导入域名或邮箱进行验证
  
  单击验证器按钮并输入您刚刚找到的电子邮件地址进行尝试。以下验证结果有效。
  
  还有批量验证验证邮件和批量获取邮件。需要注意的是,猎人每月有100次免费机会。超过了就要付费,但是一个月100次可以满足大多数人的需求。
  
  好了,今天就写到这里。我会继续介绍一些我经常使用的非常强大的谷歌插件工具。欢迎大家继续关注。 查看全部

  chrome抓取网页插件(几个非常实用功能却非常强大的谷歌浏览器插件,会让你的工作效率提高很多很多)
  今天给大家介绍几个非常好用但功能非常强大的谷歌浏览器插件,无论你是开发外贸B端客户,还是寻找Youtube或Instagram名人,都会大大提高你的工作效率。
  插件安装在谷歌应用商店,链接地址为
  首先,Seoquake插件是SEO的神器,而且是免费的,功能非常非常强大。
  短链地址:
  Seoquake插件功能是我最常用的一个。功能非常非常强大。它可以捕获多维度的数据,提供关键的 SEO 指标,以及其他有用的工具,例如 SEO 审计等。
  
  
  
  ★检查所有主要指标
  ★全面分析SERP并以CSV格式导出结果
  ★即时评估关键字难度
  ★设置搜索查询参数
  ★完整的网页SEO审核,包括检查手机兼容性
  ★查看您在 Facebook 和 Google+ 上的社交统计数据
  ★使用各种默认参数或创建自定义设置
  ★获取完整的内/外链接报告
  ★确定关键词密度,配置停用词列表
  ★比较网址/域名
  安装 Seoquake 插件后,在 Google 上搜索时会发现上面提到的以下主要关键指标。请勾选下图中红框,里面有排名,sermush外链,这个网站展示广告,whois等,安装后可以点击查看。
  
  其实最常用的就是左栏的Export CSV按钮,也就是可以把你的搜索结果批量导出为Excel表格。这个真的很省时,一一保存点击网站你在开发外贸客户或者找名人信息的时候。
  比如我想找一个做过手机开箱评测的YouTube网红,在搜索框中输入以下内容,site命令表示该网站之前的搜索结果会出现在域名中网站后的网址
  智能手机评论网站:
  搜索设置中每页可显示100条搜索结果,一次导出10条搜索内容
  
  您还可以单击高级搜索,添加一些国家、时间、语言、文件类型和其他限定符。当然,您也可以添加精确搜索或广泛搜索。让我们用最简单的搜索来看看如何搜索。结果被导出。
  
  我们点击左栏的Export CSV按钮,导出的是youtube上已经测试过的名人视频的链接,如下图:
  看起来很乱。使用Excel表格中的数据来整理红框的内容。可以看到双引号""在前面,双引号作为列字符。
  
  点击数据按钮-列按钮,如下图:
  
  
  其他人在这里输入双引号"
  
  可以看到数据已经单独列出来了,是很正规的数据
  
  
  然后点击完成,就会出现上面的Excel表格。可以看到链接很整齐,不凌乱,然后复制这些链接打开,找到youtube名人对应的信息。比如打开第一个链接的视频在下面这个youtube名人评测,你可以去他的关于信息栏看看有没有留下联系方式
  
  
  关于youtube名人的具体更详细的信息请参考前面的文章,我写的很详细文章
  如何快速找到 YouTube 名人 (一)
  如何快速找到 YouTube 名人 (二)
  这里还有一点需要注意的是,如果你在谷歌上搜索外贸B2B客户,不设置site命令,会有很多域名不是.com结尾,有的可能是co.uk。cn等,除了归类的方法,还有一种方法,就是快速删除域名后面的内容。
  例如,如果我要搜索海外智能手表的供应商或分销商,请输入以下内容
  智能手表供应商或分销商
  需要注意的是,我在这里是为了演示如何使用Seoquake插件工具。真正用谷歌搜索开发外贸客户。我需要添加很多限定符并排除国内供应商。以后会具体讲讲如何利用谷歌搜索开发外贸客户。
  下面是导出的结果,感觉比较混乱吧?接下来告诉你如果快速删除域名后面的内容,其实很简单,CTRL+F,然后点replace
  
  并在框中输入以下内容,点击“全部替换”删除域名后面的内容
  
  
  有些域名不以 .com 结尾。操作方法是一样的。只需使用 CTRL+F 并将它们全部替换。比如有很多co.uk区以in结尾,只要在框内输入把内容去掉就行了。
  
  现在您可以一次出口 100 家智能手表供应商。你可以安装这个方法导出谷歌第二、​​三、十页的搜索结果,这样智能手表就有1000块了。然后供应商删除重复项,批量开发这些网站客户,大大提高了效率。
  批量开发这些导出的域名有多种方式。有根据批量输入的域名抓取邮箱的工具,也可以使用一些插件批量导出。这就是我们接下来要讲的猎人插件。
  需要注意的是,例如,当谷歌搜索结果显示数十万条数据时,我们只能看到前1000条数据,其余的都是不可见的。
  二、猎人插件,找客户网站邮箱神器
  Hunter 也是一个经常使用的插件。它也非常方便和强大。找客户邮箱是神器。插件短链:
  
  如果你认识客户网站,除了查看客户的联系方式网站关于或联系我们网站,还可以直接使用猎人插件,只要打开客户网站,点击猎人插件,会自动抓取邮箱,下图为示例
  一般邮箱背面有绿色圆圈的logo就是已经验证过的邮箱,可信度还是挺高的。
  
  点击后面的源码按钮,还可以看到爬取了哪些网页,可以点击试试
  
  也可以打开猎人网页,输入域名只能查询邮箱,如下图,可以根据需要保存对应的邮箱。
  除了根据域名搜索邮箱,猎人还可以验证邮箱的准确性,批量导入域名或邮箱进行验证
  
  单击验证器按钮并输入您刚刚找到的电子邮件地址进行尝试。以下验证结果有效。
  
  还有批量验证验证邮件和批量获取邮件。需要注意的是,猎人每月有100次免费机会。超过了就要付费,但是一个月100次可以满足大多数人的需求。
  
  好了,今天就写到这里。我会继续介绍一些我经常使用的非常强大的谷歌插件工具。欢迎大家继续关注。

chrome抓取网页插件(百度idle抓取网页插件的方法和方法抓取插件)

网站优化优采云 发表了文章 • 0 个评论 • 88 次浏览 • 2021-09-25 09:07 • 来自相关话题

  chrome抓取网页插件(百度idle抓取网页插件的方法和方法抓取插件)
  chrome抓取网页插件很多,可以尝试去下载一个专门插件进行抓取,抓取的时候对ua也要进行识别,另外安装完了还要配置。就是麻烦一点。
  可以试试我家开发的idm抓取器
  安装一个idle吧,我也在用,挺好用的,推荐给你,具体方法百度idle。
  adobeacrobatprox
  1,试试把adblockplus用chrome替换掉2,实在不行找一个有postman的网站抓取一下,postman可以实现网页之间的contenttransfer。也可以用它来接受getpost和postmessage以及htmlmeta标签里所包含的postmessage。
  postman配合googleappengine查看抓取页面的内容。缺点是某些站点有时无法打开。
  chrome插件"抓取器"
  可以试试我发现的一个谷歌助手
  如果可以的话,
  这不是不会吗,有很多方法啊,就我知道的有快车,快车比较好用,wifi自动抓取手机抓取快车抓取,你如果需要电脑可以用手机端的,接口开放,然后手机挂在谷歌上面可以抓取, 查看全部

  chrome抓取网页插件(百度idle抓取网页插件的方法和方法抓取插件)
  chrome抓取网页插件很多,可以尝试去下载一个专门插件进行抓取,抓取的时候对ua也要进行识别,另外安装完了还要配置。就是麻烦一点。
  可以试试我家开发的idm抓取器
  安装一个idle吧,我也在用,挺好用的,推荐给你,具体方法百度idle。
  adobeacrobatprox
  1,试试把adblockplus用chrome替换掉2,实在不行找一个有postman的网站抓取一下,postman可以实现网页之间的contenttransfer。也可以用它来接受getpost和postmessage以及htmlmeta标签里所包含的postmessage。
  postman配合googleappengine查看抓取页面的内容。缺点是某些站点有时无法打开。
  chrome插件"抓取器"
  可以试试我发现的一个谷歌助手
  如果可以的话,
  这不是不会吗,有很多方法啊,就我知道的有快车,快车比较好用,wifi自动抓取手机抓取快车抓取,你如果需要电脑可以用手机端的,接口开放,然后手机挂在谷歌上面可以抓取,

chrome抓取网页插件(微信读书epubmobi刷屏神器,使用非常简单(图))

网站优化优采云 发表了文章 • 0 个评论 • 283 次浏览 • 2021-09-15 01:05 • 来自相关话题

  chrome抓取网页插件(微信读书epubmobi刷屏神器,使用非常简单(图))
  chrome抓取网页插件现在可以自动爬取网页了,但是一方面的确需要插件带量,另一方面使用太麻烦,可以试试这个插件!很小的插件,非常方便:。微信读书爬取阅读最新的书籍插件,插件被大家称为它“微信读书epub&mobi刷屏神器”,使用非常简单!微信读书、知乎、豆瓣都可以刷!天天读书ios的应用哦,不过要会员了!qq音乐安卓版的widget,也支持下载歌曲!网易云音乐在widget上,也支持下载歌曲,挺棒的!chrome插件:bt必备:bt大全在百度和搜狗输入法下面同样可以使用bt转换下载!。
  【rx】,这是switchyomega基本款。知乎精选,懂得自然懂,不懂也没有关系,作为最近开始利用bilibili听歌的用户,真的有很多很多很多很多优秀的小众音乐,oeasy老师算得上是其中之一,百分之六十都是无损的。我发现这不是bilibili的问题,而是不同地区不同运营商不同区域连接bilibili速度都差不多,导致的结果就是bilibili的音乐往往不能直接下载使用,甚至在网络不稳定或者百度和搜狗输入法不给力的情况下,下载进度永远只能停留在n。
  chrome的bilibili浏览器插件,可以在chrome中用bilibili浏览器在线观看各种番剧,app也可以用浏览器里的搜索功能直接搜自己想看的番剧。 查看全部

  chrome抓取网页插件(微信读书epubmobi刷屏神器,使用非常简单(图))
  chrome抓取网页插件现在可以自动爬取网页了,但是一方面的确需要插件带量,另一方面使用太麻烦,可以试试这个插件!很小的插件,非常方便:。微信读书爬取阅读最新的书籍插件,插件被大家称为它“微信读书epub&mobi刷屏神器”,使用非常简单!微信读书、知乎、豆瓣都可以刷!天天读书ios的应用哦,不过要会员了!qq音乐安卓版的widget,也支持下载歌曲!网易云音乐在widget上,也支持下载歌曲,挺棒的!chrome插件:bt必备:bt大全在百度和搜狗输入法下面同样可以使用bt转换下载!。
  【rx】,这是switchyomega基本款。知乎精选,懂得自然懂,不懂也没有关系,作为最近开始利用bilibili听歌的用户,真的有很多很多很多很多优秀的小众音乐,oeasy老师算得上是其中之一,百分之六十都是无损的。我发现这不是bilibili的问题,而是不同地区不同运营商不同区域连接bilibili速度都差不多,导致的结果就是bilibili的音乐往往不能直接下载使用,甚至在网络不稳定或者百度和搜狗输入法不给力的情况下,下载进度永远只能停留在n。
  chrome的bilibili浏览器插件,可以在chrome中用bilibili浏览器在线观看各种番剧,app也可以用浏览器里的搜索功能直接搜自己想看的番剧。

chrome抓取网页插件(爬取:1.Chrome浏览器;2.插件:WebScraper插件下载地址)

网站优化优采云 发表了文章 • 0 个评论 • 87 次浏览 • 2021-09-12 04:07 • 来自相关话题

  chrome抓取网页插件(爬取:1.Chrome浏览器;2.插件:WebScraper插件下载地址)
  做电商的时候,消费者对产品的评价很重要,但是如果你不会写代码怎么办?有一个Chrome插件,不用写一行代码,就可以做简单的数据爬取。下面显示了一些捕获的数据:
  
  可以看到抓取到的地址、评论者、评论内容、时间、商品颜色都被抓取了。那么,需要哪些工具来抓取这些数据呢?只有两个:
  1. Chrome 浏览器;
  2. 插件:网络爬虫
  插件下载链接:
  最后,如果你想自己抢,这里是这次抢的详细过程:
  1. 首先复制以下代码。是的,您不需要编写代码,但是为了开始,仍然需要复制代码。以后可以自己自定义选择,不用写代码。
  {
  "_id": "jdreview",
  "startUrl": [
  ""
  ],
  “选择器”:[
  {
  "id": "用户",
  "type": "SelectorText",
  "selector": "div.user-info",
  “父选择器”:[
  “主要”
  ],
  "multiple": false,
  "正则表达式":"",
  “延迟”:0
  },
  {
  "id": "评论",
  "type": "SelectorText",
  "selector": "ment-column> ment-con",
  “父选择器”:[
  “主要”
  ],
  "multiple": false,
  "正则表达式":"",
  “延迟”:0
  },
  {
  "id": "时间",
  "type": "SelectorText",
  "selector": "ment-message:nth-of-type(5)span:nth-of-type(4), div.order-info span:nth-of-type(4)" ,
  “父选择器”:[
  “主要”
  ],
  "multiple": false,
  "正则表达式":"",
  “延迟”:“0”
  },
  {
  "id": "颜色",
  "type": "SelectorText",
  "selector": "div.order-info span:nth-of-type(1)",
  “父选择器”:[
  “主要”
  ],
  "multiple": false,
  "正则表达式":"",
  “延迟”:0
  },
  {
  "id": "main",
  "type": "SelectorElementClick",
  "selector": "ment-item",
  “父选择器”:[
  "_root"
  ],
  "multiple": 真,
  "延迟": "10000",
  "clickElementSelector": "-table-footer a.ui-pager-next",
  "clickType": "clickMore",
  "discardInitialElements": false,
  "clickElementUniquenessType": "uniqueHTMLText"
  }
  ]
  }
  2. 然后打开chrome浏览器,在任意页面同时按下Ctrl+Shift+i,在弹出的窗口中找到Web Scraper,如下:
  
  3.如下
  
  4. 如图,粘贴上面的代码:
  
  5. 如图,如果需要自定义URL,注意替换即可。 URL 后面的#comment 是评论的链接,不能删除:
  
  6.如图:
  
  7.如图:
  
  8. 如图,点击Scrape后会自动运行打开需要抓取的页面。不要关闭窗口,安静地等待完成。完成后,右下角会提示完成。一般1000以内的评论不会有问题:
  
  9.最后点击下载到电脑,数据就会保存。
  
  使用此工具的优点是:
  1.无需编程;
  2.京东的评论基本可以用这个脚本,修改对应的url即可;
  3.如果需要抓取的评论少于1000条,这个工具会很好,所有数据都会自动下载;
  使用注意事项:
  1. 抓取一次的数据会被记录下来,如果立即再次抓取,则不会保存。建议关闭浏览器重新打开再试试;
  2.抓取次数:1000以内没有问题,可能是京东直接根据IP屏蔽了更多的抓取;
  如果你的英文水平不错,可以尝试阅读官方文档,进一步学习定制自己的爬虫。
  官方教程:
  以上是本文的全部内容。希望对大家的学习有所帮助,希望大家多多支持。 查看全部

  chrome抓取网页插件(爬取:1.Chrome浏览器;2.插件:WebScraper插件下载地址)
  做电商的时候,消费者对产品的评价很重要,但是如果你不会写代码怎么办?有一个Chrome插件,不用写一行代码,就可以做简单的数据爬取。下面显示了一些捕获的数据:
  
  可以看到抓取到的地址、评论者、评论内容、时间、商品颜色都被抓取了。那么,需要哪些工具来抓取这些数据呢?只有两个:
  1. Chrome 浏览器;
  2. 插件:网络爬虫
  插件下载链接:
  最后,如果你想自己抢,这里是这次抢的详细过程:
  1. 首先复制以下代码。是的,您不需要编写代码,但是为了开始,仍然需要复制代码。以后可以自己自定义选择,不用写代码。
  {
  "_id": "jdreview",
  "startUrl": [
  ""
  ],
  “选择器”:[
  {
  "id": "用户",
  "type": "SelectorText",
  "selector": "div.user-info",
  “父选择器”:[
  “主要”
  ],
  "multiple": false,
  "正则表达式":"",
  “延迟”:0
  },
  {
  "id": "评论",
  "type": "SelectorText",
  "selector": "ment-column> ment-con",
  “父选择器”:[
  “主要”
  ],
  "multiple": false,
  "正则表达式":"",
  “延迟”:0
  },
  {
  "id": "时间",
  "type": "SelectorText",
  "selector": "ment-message:nth-of-type(5)span:nth-of-type(4), div.order-info span:nth-of-type(4)" ,
  “父选择器”:[
  “主要”
  ],
  "multiple": false,
  "正则表达式":"",
  “延迟”:“0”
  },
  {
  "id": "颜色",
  "type": "SelectorText",
  "selector": "div.order-info span:nth-of-type(1)",
  “父选择器”:[
  “主要”
  ],
  "multiple": false,
  "正则表达式":"",
  “延迟”:0
  },
  {
  "id": "main",
  "type": "SelectorElementClick",
  "selector": "ment-item",
  “父选择器”:[
  "_root"
  ],
  "multiple": 真,
  "延迟": "10000",
  "clickElementSelector": "-table-footer a.ui-pager-next",
  "clickType": "clickMore",
  "discardInitialElements": false,
  "clickElementUniquenessType": "uniqueHTMLText"
  }
  ]
  }
  2. 然后打开chrome浏览器,在任意页面同时按下Ctrl+Shift+i,在弹出的窗口中找到Web Scraper,如下:
  
  3.如下
  
  4. 如图,粘贴上面的代码:
  
  5. 如图,如果需要自定义URL,注意替换即可。 URL 后面的#comment 是评论的链接,不能删除:
  
  6.如图:
  
  7.如图:
  
  8. 如图,点击Scrape后会自动运行打开需要抓取的页面。不要关闭窗口,安静地等待完成。完成后,右下角会提示完成。一般1000以内的评论不会有问题:
  
  9.最后点击下载到电脑,数据就会保存。
  
  使用此工具的优点是:
  1.无需编程;
  2.京东的评论基本可以用这个脚本,修改对应的url即可;
  3.如果需要抓取的评论少于1000条,这个工具会很好,所有数据都会自动下载;
  使用注意事项:
  1. 抓取一次的数据会被记录下来,如果立即再次抓取,则不会保存。建议关闭浏览器重新打开再试试;
  2.抓取次数:1000以内没有问题,可能是京东直接根据IP屏蔽了更多的抓取;
  如果你的英文水平不错,可以尝试阅读官方文档,进一步学习定制自己的爬虫。
  官方教程:
  以上是本文的全部内容。希望对大家的学习有所帮助,希望大家多多支持。

chrome抓取网页插件(webdeveloperchrome浏览器插件功能介绍Web开发人员扩展插件强大的功能)

网站优化优采云 发表了文章 • 0 个评论 • 70 次浏览 • 2021-10-19 01:22 • 来自相关话题

  chrome抓取网页插件(webdeveloperchrome浏览器插件功能介绍Web开发人员扩展插件强大的功能)
  web开发者chrome浏览器插件概述 Web Developer 这个扩展集成了多种web开发工具,几乎是web开发者必备的Chrome Developer Tools扩展插件。安装后,浏览器工具栏会增加一个齿轮形状,点击小图标,可以看到大量的Web开发工具。不过这个扩展目前还没有提供禁用Javascript的功能,因为目前的Chrome扩展API不支持这个功能。
  
  web开发者chrome浏览器插件功能介绍相信很多web开发者在Chrome问世之前就已经在FireFox上使用过Web Developer插件了。功能非常强大。现在,Web Developer 的 Chrome 版也正式上线了,FireFox 的开发者和 Web Developer 是同一个人——Chris Pederick。添加工具栏按钮和各种 Web 开发工具。Web 开发人员扩展的官方端口。
  Web 开发者扩展插件在浏览器中添加了工具栏按钮,以使用不同的 Web 开发工具。这是用于 Web 开发扩展的浏览器的官方端口。
  Web Developer 插件的强大功能超乎您的想​​象。CSS 网页布局的开发和调试只是其强大功能的一部分。它还为网络程序的开发提供了非常强大的辅助设计功能,例如:调试CSS、清除cookies、对表单图片等对象进行操作等。
  web developer chrome 浏览器插件安装和使用1. 在Google Chrome 中安装Web Developer 插件,并在Chrome 扩展中启动截图功能。Web Developer插件的下载地址可以在本文底部找到,离线Web Developer插件的安装方法请参考:如何在Google中安装扩展名为.crx的离线Chrome插件铬合金?CRX格式插件无法离线安装怎么办?
  2.Web Developer 插件有很多工具栏。Web Developer 主要由以下部分组成:禁用、Cookies、CSS、表单、图像、信息、杂项、大纲、调整大小、工具、查看源和选项。如下所示:
  
  Web Developer插件工具中禁用功能的使用方法如下:
  Disable 禁用工具可以临时阻止当前页面中的某些东西,例如 JavaScript 脚本、缓存、mete 自动重定向、将网页显示为黑色(图片除外)、禁用弹出窗口等。如下所示:
  Cookies 工具可以使用该工具查看当前页面的 Cookies 信息。可以通过不同的域名或路径查看,也可以手动添加一个cookie。这是一款非常方便和强大的后台网络编程开发调试工具。
  CSS 样式表工具 这是一个非常强大的工具。有了这个基于CSS网页布局的强大助手,工作学习都会变得非常简单。您可以控制是否应用 CSS,查看页面的 CSS 文件,并进行实时编辑。并立即在浏览器窗口中反映编辑后的效果。
  
  web开发者大小工具的使用方法如下: Resize size工具可以用来改变浏览器窗口的大小。如果我们使用1600*1200的分辨率,我们可以用这个工具来模拟一个1027*768的窗口效果。这个工具的详细介绍:Web Developer插件Outline、Resize工具教程
  对于我们的 CSS 网页布局设计来说,Tools 最大的功能就是整合 CSS 和 XHTML 验证工具。您可以点击此工具中的验证选项来验证当前页面,它会自动链接到相关的验证页面。并返回验证结果。
  
  Web开发者chrome浏览器插件注意事项
  有些人可能会问为什么 Web 开发者扩展需要访问我所有的浏览历史记录和私人数据?
  这是 chrome 标准消息,表示 chrome (#!category-topic/chrome/give-feature-feedback-and-suggestions/f5sdbSD92C8),表示促销对所有 网站 上的所有它的所有功能,所有用户数据工作,这些数据都是按照扩展功能的需要访问的,除了第三方的验证和其他功能之外,没有任何个人数据从扩展功能发送给第三方。 查看全部

  chrome抓取网页插件(webdeveloperchrome浏览器插件功能介绍Web开发人员扩展插件强大的功能)
  web开发者chrome浏览器插件概述 Web Developer 这个扩展集成了多种web开发工具,几乎是web开发者必备的Chrome Developer Tools扩展插件。安装后,浏览器工具栏会增加一个齿轮形状,点击小图标,可以看到大量的Web开发工具。不过这个扩展目前还没有提供禁用Javascript的功能,因为目前的Chrome扩展API不支持这个功能。
  
  web开发者chrome浏览器插件功能介绍相信很多web开发者在Chrome问世之前就已经在FireFox上使用过Web Developer插件了。功能非常强大。现在,Web Developer 的 Chrome 版也正式上线了,FireFox 的开发者和 Web Developer 是同一个人——Chris Pederick。添加工具栏按钮和各种 Web 开发工具。Web 开发人员扩展的官方端口。
  Web 开发者扩展插件在浏览器中添加了工具栏按钮,以使用不同的 Web 开发工具。这是用于 Web 开发扩展的浏览器的官方端口。
  Web Developer 插件的强大功能超乎您的想​​象。CSS 网页布局的开发和调试只是其强大功能的一部分。它还为网络程序的开发提供了非常强大的辅助设计功能,例如:调试CSS、清除cookies、对表单图片等对象进行操作等。
  web developer chrome 浏览器插件安装和使用1. 在Google Chrome 中安装Web Developer 插件,并在Chrome 扩展中启动截图功能。Web Developer插件的下载地址可以在本文底部找到,离线Web Developer插件的安装方法请参考:如何在Google中安装扩展名为.crx的离线Chrome插件铬合金?CRX格式插件无法离线安装怎么办?
  2.Web Developer 插件有很多工具栏。Web Developer 主要由以下部分组成:禁用、Cookies、CSS、表单、图像、信息、杂项、大纲、调整大小、工具、查看源和选项。如下所示:
  
  Web Developer插件工具中禁用功能的使用方法如下:
  Disable 禁用工具可以临时阻止当前页面中的某些东西,例如 JavaScript 脚本、缓存、mete 自动重定向、将网页显示为黑色(图片除外)、禁用弹出窗口等。如下所示:
  Cookies 工具可以使用该工具查看当前页面的 Cookies 信息。可以通过不同的域名或路径查看,也可以手动添加一个cookie。这是一款非常方便和强大的后台网络编程开发调试工具。
  CSS 样式表工具 这是一个非常强大的工具。有了这个基于CSS网页布局的强大助手,工作学习都会变得非常简单。您可以控制是否应用 CSS,查看页面的 CSS 文件,并进行实时编辑。并立即在浏览器窗口中反映编辑后的效果。
  
  web开发者大小工具的使用方法如下: Resize size工具可以用来改变浏览器窗口的大小。如果我们使用1600*1200的分辨率,我们可以用这个工具来模拟一个1027*768的窗口效果。这个工具的详细介绍:Web Developer插件Outline、Resize工具教程
  对于我们的 CSS 网页布局设计来说,Tools 最大的功能就是整合 CSS 和 XHTML 验证工具。您可以点击此工具中的验证选项来验证当前页面,它会自动链接到相关的验证页面。并返回验证结果。
  
  Web开发者chrome浏览器插件注意事项
  有些人可能会问为什么 Web 开发者扩展需要访问我所有的浏览历史记录和私人数据?
  这是 chrome 标准消息,表示 chrome (#!category-topic/chrome/give-feature-feedback-and-suggestions/f5sdbSD92C8),表示促销对所有 网站 上的所有它的所有功能,所有用户数据工作,这些数据都是按照扩展功能的需要访问的,除了第三方的验证和其他功能之外,没有任何个人数据从扩展功能发送给第三方。

chrome抓取网页插件(pingdom在线网页速度测试和Ping的使用方法(图) )

网站优化优采云 发表了文章 • 0 个评论 • 83 次浏览 • 2021-10-19 01:18 • 来自相关话题

  chrome抓取网页插件(pingdom在线网页速度测试和Ping的使用方法(图)
)
  虽然Pingdom有这样一个谷歌浏览器开发者插件,但是由于插件占用空间,我还是推荐大家使用pingdom在线网页速度测试。
  pingdom 概述 与其他网站 监控服务一样,pingdom 提供免费版和付费版。免费版和付费版的功能是一样的,只是站点数量和短信数量不同。虽然是国外的网站监控服务。
  
  我们都知道速度是一个重要的问题。它不仅是其 200 个搜索排名因素之一,而且您的潜在客户和访问者就像在您的 网站 上快速加载网站。Pingdom可以在线查看网站各个元素的加载速度,并生成非常详细的测试报告,助您轻松优化网站。
  如何使用pingdom
  1.点击一次网站的页面速度测试。只需按下按钮,进行速度测试,当然您需要注册:
  
  2.pingdom提供的测速工具和Ping功能。点击:这里是网页加载速度测试和Ping命令。Pingdom 为用户提供了多种选择。例如,您可以选择是每分钟ping 一次服务器还是每小时ping 一次服务器。Pingdom 还允许您灵活选择 ping 服务器上的特定端口,并检查 SMPT、POP3 或 IMAP 邮件服务器——但免费帐户只能选择检查其中之一。
  使用Pingdom Tools 网页测速工具可以帮助您将网页加载时间转换成图表,并清楚地了解每个网页组件是否是导致网页打开速度变慢的原因。Pingdom Tools 还会为您提供每个项目的分数和改进建议。帮助网站管理者分析优化。如下所示
   查看全部

  chrome抓取网页插件(pingdom在线网页速度测试和Ping的使用方法(图)
)
  虽然Pingdom有这样一个谷歌浏览器开发者插件,但是由于插件占用空间,我还是推荐大家使用pingdom在线网页速度测试。
  pingdom 概述 与其他网站 监控服务一样,pingdom 提供免费版和付费版。免费版和付费版的功能是一样的,只是站点数量和短信数量不同。虽然是国外的网站监控服务。
  
  我们都知道速度是一个重要的问题。它不仅是其 200 个搜索排名因素之一,而且您的潜在客户和访问者就像在您的 网站 上快速加载网站。Pingdom可以在线查看网站各个元素的加载速度,并生成非常详细的测试报告,助您轻松优化网站。
  如何使用pingdom
  1.点击一次网站的页面速度测试。只需按下按钮,进行速度测试,当然您需要注册:
  
  2.pingdom提供的测速工具和Ping功能。点击:这里是网页加载速度测试和Ping命令。Pingdom 为用户提供了多种选择。例如,您可以选择是每分钟ping 一次服务器还是每小时ping 一次服务器。Pingdom 还允许您灵活选择 ping 服务器上的特定端口,并检查 SMPT、POP3 或 IMAP 邮件服务器——但免费帐户只能选择检查其中之一。
  使用Pingdom Tools 网页测速工具可以帮助您将网页加载时间转换成图表,并清楚地了解每个网页组件是否是导致网页打开速度变慢的原因。Pingdom Tools 还会为您提供每个项目的分数和改进建议。帮助网站管理者分析优化。如下所示
  

chrome抓取网页插件(3.EvernoteWebClipper(Evernote的网页)(无格式复制))

网站优化优采云 发表了文章 • 0 个评论 • 92 次浏览 • 2021-10-12 12:04 • 来自相关话题

  chrome抓取网页插件(3.EvernoteWebClipper(Evernote的网页)(无格式复制))
  Chrome 是内讧浏览器家族的最新成员。虽然谷歌浏览器相对较新,但由于其出色的性能、简洁的界面和出色的易用性,在互联网上引起了不小的波澜。
  Chrome 的另一个有用的方面是它的扩展程序为用户的日常互联网访问提供了一些新功能。许多扩展可以帮助您提高工作效率,让您更快更轻松地完成工作。
  注意:由于 Mac 操作系统上的 Google Chrome 浏览器仍处于 Beta 测试阶段,因此某些扩展程序可能无法正常工作。但是,我们对以下扩展做了简单的测试,可以保证这些扩展可以正常使用。
  1. Pixlr 抓取器
  
  截图然后分享是一个非常复杂的过程。您需要将截图内容复制到剪贴板,然后打开图形编辑器,然后将其保存为网上常见的图片格式。然后你把图片上传到网络服务,最后你就可以公开分享了。看看Pixlr Grabber,这个浏览器扩展可以让你在谷歌浏览器中截图,然后自动将截图上传到图片共享服务imm.io。您可以只抓取可见窗口的一部分,或者抓取整个网页。
  2. 无格式复制
  
  当您只想将浏览器中没有任何格式的纯文本内容的一部分复制到办公软件或电子邮件中时,您会怎么做?复制文本,粘贴到记事本等文本编辑器中,然后将内容复制粘贴到要添加的地方?别担心,您不是唯一遇到此问题的人。就连 Lifehacker 上的效率专家也遇到过这个问题。使用 Copy without Formatting(无格式复制)这个 Chrome 扩展,您可以直接从 Chrome 复制无格式文本内容并将其粘贴到其他地方。它消除了中间环节,简化了工作。
  3. Evernote Web Clipper(Evernote Web Clipper)
  
  你是否经常在网上看到一些很酷的内容,却忘记保存在浏览器中?当您需要这些页面时,您是否经常花费大量时间再次寻找它们?反正我们经常遇到。Evernote Web Clipper 是一款可以将内容保存到剪贴板的 Chrome 扩展程序,它还有一个指向原创页面的链接,既方便又简单。您可以将文本、图片和链接保存到您的免费​​ Evernote 帐户,以便您可以在需要时随时随地获取它们(只要您可以访问互联网)。
  4. Symtica
  
  如果您发现自己经常使用谷歌的大量网络应用程序(说实话,现在,谁没有?),并且您需要快速访问和使用这些服务,您可以使用 Symtica 的 Google Chrome 扩展程序。此 Chrome 扩展程序可以监控新电子邮件和新创建的 Google 文档、访问地址簿、管理 Gmail 中的任务列表、阅读 RSS 内容等。
  5. 图片搜索
  
  在网络上搜索图片可能很费力。如果你需要一种网络工作可以帮你找到一张逗猫图片来做你的PPT杀手,你可以试试Image Search(图片搜索),这个超级图片搜索Chrome扩展会搜索Flickr、Picasa、Zoomr和Photobucket这些图片服务网站。它提供了大量选项供您设置大小、类型等搜索选项,可以为您节省大量时间。
  6. AdBlock
  
  此 Google Chrome 扩展程序可以过滤任何类型的弹出窗口和广告。让您专注于想要获取的信息。使用 AdBlock 可以提高你的英雄,因为它可以减少页面的响应时间,防止你被广告和弹出窗口分心。但是对于你喜欢的网站,还是允许展示广告吧,因为过滤广告显然会损害这些网站。
  7. goo.gl URL Shortener(goo.gl URL 缩短服务)
  
  如果您经常分享网页,goo.gl 的网址缩短服务是必备的一键式网址缩短服务,它可以让您轻松快速地在 Twitter 和 Facebook 等社交媒体网站上分享链接和有用资源。缩短的 URL 将自动复制到您的剪贴板。与传统的URL缩短方法相比,大大缩短了这个过程。此扩展程序利用了 Google 自己的 URL 缩短服务。
  8. Web2PDFConverter(网页到PDF转换器)
  
  将网页转换为可共享的 PDF 文件是一个漫长而令人筋疲力尽的过程。但是,如果您使用 Web2PDFConverter(网页到 PDF 转换器),我们就不能这么说。此 Google Chrome 扩展程序允许您在网络浏览器中创建 PDF 文件。此扩展允许您通过 Google Docs 预览 PDF 的内容,从而节省您打开 Adob​​e Acrobat(或其他相应程序)所需的时间。
  9. Shareaholic Chrome 插件
  
  你是社交媒体上瘾者吗?如果是这样,您就知道这种瘾将成为您时间的黑洞,并成为您高效工作的巨大障碍。让社交媒体共享更快、更容易、更方便总是有益的。Shareaholic 的 chrome 插件可以将当前网页转换为短网址,让您可以通过许多社交媒体网站与您的朋友分享。
  10. 分屏
  
  作为这个 Chrome 扩展程序的名称,分屏扩展程序允许您的浏览器窗口分屏。这不仅减少了您打开的选项卡数量,还允许您同时比较多个网页。对于需要研究和交叉参考信息的人来说,这是一个很好的扩展。 查看全部

  chrome抓取网页插件(3.EvernoteWebClipper(Evernote的网页)(无格式复制))
  Chrome 是内讧浏览器家族的最新成员。虽然谷歌浏览器相对较新,但由于其出色的性能、简洁的界面和出色的易用性,在互联网上引起了不小的波澜。
  Chrome 的另一个有用的方面是它的扩展程序为用户的日常互联网访问提供了一些新功能。许多扩展可以帮助您提高工作效率,让您更快更轻松地完成工作。
  注意:由于 Mac 操作系统上的 Google Chrome 浏览器仍处于 Beta 测试阶段,因此某些扩展程序可能无法正常工作。但是,我们对以下扩展做了简单的测试,可以保证这些扩展可以正常使用。
  1. Pixlr 抓取器
  
  截图然后分享是一个非常复杂的过程。您需要将截图内容复制到剪贴板,然后打开图形编辑器,然后将其保存为网上常见的图片格式。然后你把图片上传到网络服务,最后你就可以公开分享了。看看Pixlr Grabber,这个浏览器扩展可以让你在谷歌浏览器中截图,然后自动将截图上传到图片共享服务imm.io。您可以只抓取可见窗口的一部分,或者抓取整个网页。
  2. 无格式复制
  
  当您只想将浏览器中没有任何格式的纯文本内容的一部分复制到办公软件或电子邮件中时,您会怎么做?复制文本,粘贴到记事本等文本编辑器中,然后将内容复制粘贴到要添加的地方?别担心,您不是唯一遇到此问题的人。就连 Lifehacker 上的效率专家也遇到过这个问题。使用 Copy without Formatting(无格式复制)这个 Chrome 扩展,您可以直接从 Chrome 复制无格式文本内容并将其粘贴到其他地方。它消除了中间环节,简化了工作。
  3. Evernote Web Clipper(Evernote Web Clipper)
  
  你是否经常在网上看到一些很酷的内容,却忘记保存在浏览器中?当您需要这些页面时,您是否经常花费大量时间再次寻找它们?反正我们经常遇到。Evernote Web Clipper 是一款可以将内容保存到剪贴板的 Chrome 扩展程序,它还有一个指向原创页面的链接,既方便又简单。您可以将文本、图片和链接保存到您的免费​​ Evernote 帐户,以便您可以在需要时随时随地获取它们(只要您可以访问互联网)。
  4. Symtica
  
  如果您发现自己经常使用谷歌的大量网络应用程序(说实话,现在,谁没有?),并且您需要快速访问和使用这些服务,您可以使用 Symtica 的 Google Chrome 扩展程序。此 Chrome 扩展程序可以监控新电子邮件和新创建的 Google 文档、访问地址簿、管理 Gmail 中的任务列表、阅读 RSS 内容等。
  5. 图片搜索
  
  在网络上搜索图片可能很费力。如果你需要一种网络工作可以帮你找到一张逗猫图片来做你的PPT杀手,你可以试试Image Search(图片搜索),这个超级图片搜索Chrome扩展会搜索Flickr、Picasa、Zoomr和Photobucket这些图片服务网站。它提供了大量选项供您设置大小、类型等搜索选项,可以为您节省大量时间。
  6. AdBlock
  
  此 Google Chrome 扩展程序可以过滤任何类型的弹出窗口和广告。让您专注于想要获取的信息。使用 AdBlock 可以提高你的英雄,因为它可以减少页面的响应时间,防止你被广告和弹出窗口分心。但是对于你喜欢的网站,还是允许展示广告吧,因为过滤广告显然会损害这些网站。
  7. goo.gl URL Shortener(goo.gl URL 缩短服务)
  
  如果您经常分享网页,goo.gl 的网址缩短服务是必备的一键式网址缩短服务,它可以让您轻松快速地在 Twitter 和 Facebook 等社交媒体网站上分享链接和有用资源。缩短的 URL 将自动复制到您的剪贴板。与传统的URL缩短方法相比,大大缩短了这个过程。此扩展程序利用了 Google 自己的 URL 缩短服务。
  8. Web2PDFConverter(网页到PDF转换器)
  
  将网页转换为可共享的 PDF 文件是一个漫长而令人筋疲力尽的过程。但是,如果您使用 Web2PDFConverter(网页到 PDF 转换器),我们就不能这么说。此 Google Chrome 扩展程序允许您在网络浏览器中创建 PDF 文件。此扩展允许您通过 Google Docs 预览 PDF 的内容,从而节省您打开 Adob​​e Acrobat(或其他相应程序)所需的时间。
  9. Shareaholic Chrome 插件
  
  你是社交媒体上瘾者吗?如果是这样,您就知道这种瘾将成为您时间的黑洞,并成为您高效工作的巨大障碍。让社交媒体共享更快、更容易、更方便总是有益的。Shareaholic 的 chrome 插件可以将当前网页转换为短网址,让您可以通过许多社交媒体网站与您的朋友分享。
  10. 分屏
  
  作为这个 Chrome 扩展程序的名称,分屏扩展程序允许您的浏览器窗口分屏。这不仅减少了您打开的选项卡数量,还允许您同时比较多个网页。对于需要研究和交叉参考信息的人来说,这是一个很好的扩展。

chrome抓取网页插件(-spa-plugin插件预渲染的区别及解决方法)

网站优化优采云 发表了文章 • 0 个评论 • 74 次浏览 • 2021-10-12 09:30 • 来自相关话题

  chrome抓取网页插件(-spa-plugin插件预渲染的区别及解决方法)
  本文主要介绍使用prerender-spa-plugin对前端代码进行预渲染。
  预渲染(SSG)和服务端(SSR)渲染有一定的区别。如果你想了解,你可以阅读:。
  背景
  因为之前的网站是使用Vue开发的,这种前端JavaScript渲染开发模式对搜索引擎非常不友好,也没有办法抓取有效信息。因此,为了执行 SEO,我们需要预渲染页面。
  预渲染更适合静态或变化不大的页面,可以在部署前通过静态渲染来渲染页面上的大部分内容。这样,当搜索引擎在爬取时,就可以爬到相关的内容信息。
  现状
  商启通官网现状如下:
  目标
  希望通过预渲染,在第一次访问没有执行JavaScript时,页面可以携带足够的信息,即可以将JavaScript渲染的内容提前渲染成HTML。
  该版本预计不会进行太多更改。
  计划
  我们这次的计划主要是使用prerender-spa-plugin这个webpack插件来实现。
  它的主要原理是启动浏览器,渲染后抓取HTML,然后替换原来的HTML。
  我们需要实现预渲染,那么我们需要完成以下几件事:
  插件介绍和配置。
  本地验证。
  改变包装和施工过程。
  在线验证。
  下面,让我们一一谈谈我们如何做到这一点。
  插件介绍及配置
  首先,我们需要引入一个预渲染插件并执行命令:
  mnpm i prerender-spa-plugin -D
  这个命令除了安装插件本身,还要依赖puppeteer,然后puppeteer又依赖登陆的chromium,所以最后我们其实需要在依赖中安装一个chromium。
  如果安装puppeteer很慢或者经常失败,可以参考本文档中的方法:国内下载安装-Puppeteer-method/,指定puppeteer下载镜像。
  安装完成后,我们可以在webpack配置文件中添加相应的配置。
  如果你也在使用vue-cli,那么我们需要添加的配置在vue.config.js中。如果直接修改webpack的配置,方法类似。
  我们以修改 vue.config.js 为例:
  const PrerenderSPAPlugin = require('prerender-spa-plugin');
module.exports = {
...,
configureWebpack: {
...,
chainWebpack: config => {
config.plugin('prerender').use(PrerenderSPAPlugin, [
{
staticDir: path.join(__dirname, 'build'),
routes: [
'/',
'/product',
'/case',
'/about',
'/register',
],
renderer: new Renderer({
headless: true,
executablePath: '/Applications/Google Chrome.app/Contents/MacOS/Google Chrome',
// 在 main.js 中 document.dispatchEvent(new Event('render-event')),两者的事件名称要对应上。
renderAfterDocumentEvent: 'render-event',
}),
},
]);
}
}
}
  因为我们在项目中使用了 webpack-chain,所以我们的语法类似于上面的链调用方法。如果直接修改,就是使用Vue原有的修改配置方式。
  给大家简单介绍一下上面一些配置的含义:
  有关更多信息,请参阅插件的官方文档。
  开发完成后,我们可以在本地构建,看看能不能生成符合我们预期的代码。
  Vue.config.js 指定 publicPath 导致预渲染失败
  如果你和我的项目一样,在vue.config.js中传入publicPath指定第三方CDN域名,然后CSS、JavaScript、Image等资源会转移到不同的域名。类似的配置如下:
  module.exports = {
...,
publicPath: `//awp-assets.cdn.net/${projectPath}`,
...,
};
  如果没有预渲染,这个方案打包完成后会上传到不同的CDN域名,在线访问是没有问题的。
  但是本地,此时CSS和JS资源还没有上传到CDN,浏览器无法加载相应的资源进行页面渲染。这将导致本地预渲染失败。
  为了解决这个问题,有两种解决方案。
  【推荐】调整打包策略,将非HTML资源上传到同一个CDN域名。在这种情况下,我们可以使用相对路径来访问这些资源,而无需将新域名传递给 publicPath,这样我们在本地构建时就可以访问这些值。这是一种更可靠、更合理的方法,更值得推荐。
  (如果上面的方法真的无法实现,那么可以考虑这个方案)在预渲染之前,资源是通过相对路径在本地访问的。这时候用替换方法替换html中的资源文件地址,然后进行预渲染。渲染后替换它。这种方法比较hacky,但经过实际验证确实有效。具体做法是自己写一个简单的webpack插件。
  首先我们需要安装一个新的npm包来替换文件中的内容(也可以自己写正则规则,不过用这个会更方便),具体命令如下:
  mnpm i replace-in-file
  安装完成后,我们需要添加两个webpack插件分别作用于afterEmit和done这两个hook节点上。如果你想了解这两个hook节点为什么是这样,那么你可以阅读webpack插件的开发章节。
  const replace = require('replace-in-file');
let publicPath = `//awp-assets.cdn.net/${projectPath}`;
// 第1个替换插件,主要是将原先打包过程中带有CDN域名的路径替换成相对路径
function ReplacePathInHTMLPlugin1(cb) {
this.apply = compiler => {
if (compiler.hooks && compiler.hooks.afterEmit) {
compiler.hooks.afterEmit.tap('replace-url', cb);
}
};
}
function replacePluginCallback1() {
replace({
files: path.join(__dirname, '/build/**/*.html'),
from: new RegExp(
publicPath.replace(/([./])/g, (match, p1) => {
return `\\${p1}`;
}),
'g'
),
to: '',
})
.then(results => {
console.log('replace HTML static resources success', results);
})
.catch(e => {
console.log('replace HTML static resources fail', e);
});
}
// 第2个替换插件,主要是将预渲染后的HTML文件中的相对路径替换成带有CDN域名的路径
function ReplacePathInHTMLPlugin2(cb) {
this.apply = compiler => {
if (compiler.hooks && compiler.hooks.done) {
compiler.hooks.done.tap('replace-url', cb);
}
};
}
function replacePluginCallback2() {
replace({
files: path.join(__dirname, '/build/**/*.html'),
from: [/href="\/css/g, /href="\/js/g, /src="\/js/g, /href="\/favicon.ico"/g],
to: [
`href="${publicPath}/css`,
`href="${publicPath}/js`,
`src="${publicPath}/js`,
`href="${publicPath}/favicon.ico"`,
],
})
.then(results => {
console.log('replace HTML static resources success', results);
})
.catch(e => {
console.log('replace HTML static resources fail', e);
});
}
  以上代码就是我们需要添加的两个webpack替换插件和对应的回调函数。接下来我们看看如何在webpack中进行配置。
  module.exports = {
publicPath,
outputDir,
crossorigin: 'anonymous',
chainWebpack: config => {
config.plugin('replaceInHTML').use(new ReplacePathInHTMLPlugin1(replacePluginCallback));
config.plugin('prerender').use(PrerenderSPAPlugin, [
{
staticDir: path.join(__dirname, 'build'),
// 我们应该只会使用根路径,因为是hash路由,所以其他页面预渲染没有意义,因此不进行预渲染
routes: ['/'],
renderer: new Renderer({
headless: true,
executablePath: '/Applications/Google Chrome.app/Contents/MacOS/Google Chrome',
// 在 main.js 中 document.dispatchEvent(new Event('render-event')),两者的事件名称要对应上。
renderAfterDocumentEvent: 'render-event',
}),
},
]);
config.plugin('replaceInHTML2').use(new ReplacePathInHTMLPlugin2(replacePluginCallback2));
}
  我们的第一个替换插件需要在预渲染插件之前执行。在执行预渲染插件之前,将HTML中资源的地址替换为本地的相对路径;第二个需要替换后执行,它会将预渲染后端资源中的相对路径替换为CDN地址。
  通过这两个插件,我们可以通过在预渲染之前替换路径,然后在预渲染之后完成替换来完成预渲染,以保证在线可用性。
  本地验证
  通过上面的方法,我们应该已经得到了一个预渲染的HTML,接下来就要验证HTML是否符合预期。
  更简单的验证方式是直接访问HTML文件,或者启动一个HTTP静态资源服务来验证。
  为了验证,您可以使用 curl 发出请求。在这种情况下,将不会执行 JavaScript,您可以看到 HTML 源文件是什么。
  FAQ chrome版本比较低的时候(比如v73),会提示渲染失败?
  这是因为chrome的版本太低,导致预渲染失败。解决办法是将chrome/chromium版本升级到最新(目前v93没问题)版本。
  总结
  如果我们需要实现SSG(静态站点生成),那么我们可以使用prerender-spa-plugin插件,这个插件可以在本地启动chrome来抓取HTML内容,然后写回HTML文件,如果我们需要对静态资源文件进行处理,我们可以使用替换插件来替换处理前后的内容来满足我们的需求。
  虽然直接替换压缩代码看起来很有效,但这在很大程度上依赖于压缩算法和内容序列。强烈不建议直接用脚本修改和替换压缩文件。最好在 webpack 的 done hook 回调中处理。 查看全部

  chrome抓取网页插件(-spa-plugin插件预渲染的区别及解决方法)
  本文主要介绍使用prerender-spa-plugin对前端代码进行预渲染。
  预渲染(SSG)和服务端(SSR)渲染有一定的区别。如果你想了解,你可以阅读:。
  背景
  因为之前的网站是使用Vue开发的,这种前端JavaScript渲染开发模式对搜索引擎非常不友好,也没有办法抓取有效信息。因此,为了执行 SEO,我们需要预渲染页面。
  预渲染更适合静态或变化不大的页面,可以在部署前通过静态渲染来渲染页面上的大部分内容。这样,当搜索引擎在爬取时,就可以爬到相关的内容信息。
  现状
  商启通官网现状如下:
  目标
  希望通过预渲染,在第一次访问没有执行JavaScript时,页面可以携带足够的信息,即可以将JavaScript渲染的内容提前渲染成HTML。
  该版本预计不会进行太多更改。
  计划
  我们这次的计划主要是使用prerender-spa-plugin这个webpack插件来实现。
  它的主要原理是启动浏览器,渲染后抓取HTML,然后替换原来的HTML。
  我们需要实现预渲染,那么我们需要完成以下几件事:
  插件介绍和配置。
  本地验证。
  改变包装和施工过程。
  在线验证。
  下面,让我们一一谈谈我们如何做到这一点。
  插件介绍及配置
  首先,我们需要引入一个预渲染插件并执行命令:
  mnpm i prerender-spa-plugin -D
  这个命令除了安装插件本身,还要依赖puppeteer,然后puppeteer又依赖登陆的chromium,所以最后我们其实需要在依赖中安装一个chromium。
  如果安装puppeteer很慢或者经常失败,可以参考本文档中的方法:国内下载安装-Puppeteer-method/,指定puppeteer下载镜像。
  安装完成后,我们可以在webpack配置文件中添加相应的配置。
  如果你也在使用vue-cli,那么我们需要添加的配置在vue.config.js中。如果直接修改webpack的配置,方法类似。
  我们以修改 vue.config.js 为例:
  const PrerenderSPAPlugin = require('prerender-spa-plugin');
module.exports = {
...,
configureWebpack: {
...,
chainWebpack: config => {
config.plugin('prerender').use(PrerenderSPAPlugin, [
{
staticDir: path.join(__dirname, 'build'),
routes: [
'/',
'/product',
'/case',
'/about',
'/register',
],
renderer: new Renderer({
headless: true,
executablePath: '/Applications/Google Chrome.app/Contents/MacOS/Google Chrome',
// 在 main.js 中 document.dispatchEvent(new Event('render-event')),两者的事件名称要对应上。
renderAfterDocumentEvent: 'render-event',
}),
},
]);
}
}
}
  因为我们在项目中使用了 webpack-chain,所以我们的语法类似于上面的链调用方法。如果直接修改,就是使用Vue原有的修改配置方式。
  给大家简单介绍一下上面一些配置的含义:
  有关更多信息,请参阅插件的官方文档。
  开发完成后,我们可以在本地构建,看看能不能生成符合我们预期的代码。
  Vue.config.js 指定 publicPath 导致预渲染失败
  如果你和我的项目一样,在vue.config.js中传入publicPath指定第三方CDN域名,然后CSS、JavaScript、Image等资源会转移到不同的域名。类似的配置如下:
  module.exports = {
...,
publicPath: `//awp-assets.cdn.net/${projectPath}`,
...,
};
  如果没有预渲染,这个方案打包完成后会上传到不同的CDN域名,在线访问是没有问题的。
  但是本地,此时CSS和JS资源还没有上传到CDN,浏览器无法加载相应的资源进行页面渲染。这将导致本地预渲染失败。
  为了解决这个问题,有两种解决方案。
  【推荐】调整打包策略,将非HTML资源上传到同一个CDN域名。在这种情况下,我们可以使用相对路径来访问这些资源,而无需将新域名传递给 publicPath,这样我们在本地构建时就可以访问这些值。这是一种更可靠、更合理的方法,更值得推荐。
  (如果上面的方法真的无法实现,那么可以考虑这个方案)在预渲染之前,资源是通过相对路径在本地访问的。这时候用替换方法替换html中的资源文件地址,然后进行预渲染。渲染后替换它。这种方法比较hacky,但经过实际验证确实有效。具体做法是自己写一个简单的webpack插件。
  首先我们需要安装一个新的npm包来替换文件中的内容(也可以自己写正则规则,不过用这个会更方便),具体命令如下:
  mnpm i replace-in-file
  安装完成后,我们需要添加两个webpack插件分别作用于afterEmit和done这两个hook节点上。如果你想了解这两个hook节点为什么是这样,那么你可以阅读webpack插件的开发章节。
  const replace = require('replace-in-file');
let publicPath = `//awp-assets.cdn.net/${projectPath}`;
// 第1个替换插件,主要是将原先打包过程中带有CDN域名的路径替换成相对路径
function ReplacePathInHTMLPlugin1(cb) {
this.apply = compiler => {
if (compiler.hooks && compiler.hooks.afterEmit) {
compiler.hooks.afterEmit.tap('replace-url', cb);
}
};
}
function replacePluginCallback1() {
replace({
files: path.join(__dirname, '/build/**/*.html'),
from: new RegExp(
publicPath.replace(/([./])/g, (match, p1) => {
return `\\${p1}`;
}),
'g'
),
to: '',
})
.then(results => {
console.log('replace HTML static resources success', results);
})
.catch(e => {
console.log('replace HTML static resources fail', e);
});
}
// 第2个替换插件,主要是将预渲染后的HTML文件中的相对路径替换成带有CDN域名的路径
function ReplacePathInHTMLPlugin2(cb) {
this.apply = compiler => {
if (compiler.hooks && compiler.hooks.done) {
compiler.hooks.done.tap('replace-url', cb);
}
};
}
function replacePluginCallback2() {
replace({
files: path.join(__dirname, '/build/**/*.html'),
from: [/href="\/css/g, /href="\/js/g, /src="\/js/g, /href="\/favicon.ico"/g],
to: [
`href="${publicPath}/css`,
`href="${publicPath}/js`,
`src="${publicPath}/js`,
`href="${publicPath}/favicon.ico"`,
],
})
.then(results => {
console.log('replace HTML static resources success', results);
})
.catch(e => {
console.log('replace HTML static resources fail', e);
});
}
  以上代码就是我们需要添加的两个webpack替换插件和对应的回调函数。接下来我们看看如何在webpack中进行配置。
  module.exports = {
publicPath,
outputDir,
crossorigin: 'anonymous',
chainWebpack: config => {
config.plugin('replaceInHTML').use(new ReplacePathInHTMLPlugin1(replacePluginCallback));
config.plugin('prerender').use(PrerenderSPAPlugin, [
{
staticDir: path.join(__dirname, 'build'),
// 我们应该只会使用根路径,因为是hash路由,所以其他页面预渲染没有意义,因此不进行预渲染
routes: ['/'],
renderer: new Renderer({
headless: true,
executablePath: '/Applications/Google Chrome.app/Contents/MacOS/Google Chrome',
// 在 main.js 中 document.dispatchEvent(new Event('render-event')),两者的事件名称要对应上。
renderAfterDocumentEvent: 'render-event',
}),
},
]);
config.plugin('replaceInHTML2').use(new ReplacePathInHTMLPlugin2(replacePluginCallback2));
}
  我们的第一个替换插件需要在预渲染插件之前执行。在执行预渲染插件之前,将HTML中资源的地址替换为本地的相对路径;第二个需要替换后执行,它会将预渲染后端资源中的相对路径替换为CDN地址。
  通过这两个插件,我们可以通过在预渲染之前替换路径,然后在预渲染之后完成替换来完成预渲染,以保证在线可用性。
  本地验证
  通过上面的方法,我们应该已经得到了一个预渲染的HTML,接下来就要验证HTML是否符合预期。
  更简单的验证方式是直接访问HTML文件,或者启动一个HTTP静态资源服务来验证。
  为了验证,您可以使用 curl 发出请求。在这种情况下,将不会执行 JavaScript,您可以看到 HTML 源文件是什么。
  FAQ chrome版本比较低的时候(比如v73),会提示渲染失败?
  这是因为chrome的版本太低,导致预渲染失败。解决办法是将chrome/chromium版本升级到最新(目前v93没问题)版本。
  总结
  如果我们需要实现SSG(静态站点生成),那么我们可以使用prerender-spa-plugin插件,这个插件可以在本地启动chrome来抓取HTML内容,然后写回HTML文件,如果我们需要对静态资源文件进行处理,我们可以使用替换插件来替换处理前后的内容来满足我们的需求。
  虽然直接替换压缩代码看起来很有效,但这在很大程度上依赖于压缩算法和内容序列。强烈不建议直接用脚本修改和替换压缩文件。最好在 webpack 的 done hook 回调中处理。

chrome抓取网页插件(DocsumoFreeOCRSoftwareChrome插件可以提升用户复制网页内容的效率)

网站优化优采云 发表了文章 • 0 个评论 • 356 次浏览 • 2021-10-10 20:34 • 来自相关话题

  chrome抓取网页插件(DocsumoFreeOCRSoftwareChrome插件可以提升用户复制网页内容的效率)
  Docsumo Free OCR Software Chrome 插件是一款免费的浏览器 OCR 识别插件。该插件可以帮助用户识别网页内容并从网页中获取文字供用户使用;许多网页中的内容无法复制。如果用户想要获取这类网页的内容,只能手动提取,但是现在有了这个插件,就可以告别手动提取的麻烦了;本工具采用OCR光学识别技术,帮助用户快速识别网页中无法复制的内容,识别准确率高,识别速度快。使用它可以提高获取网页内容的速度。欢迎有需要的朋友下载体验。
  
  软件功能
  网页上的屏幕截图图像/文​​本块并转换为可编辑文本
  组织通常以文档图像的形式接收重要信息和数据。
  将无法在浏览器中复制的文本识别为可编辑文本。
  支持对选中区域的文字进行识别,需要识别的内容可以通过截图的方式进行截取。
  支持可见区域文字识别,可以识别整个页面的文字。
  通过快捷键快速开启网页的OCR识别功能非常方便。
  软件特点
  1、在浏览器中安装使用非常方便,可以通过组合键激活。
  2、识别率高,识别速度快,可以识别多种语言的文字。
  3、两种识别方式,每一种都很简单。
  4、这个工具可以帮助用户获取电脑上无法复制的文字。
  5、使用该插件可以提高用户复制网页内容的效率,节省用户时间。
  指示
  1、 插件解压后,双击插件在浏览器中安装。
  
  2、在浏览器的扩展栏中打开插件,选择识别方式。
  
  3、 第一个选项是捕获选定区域识别。
  
  4、 第二个选项是在可见区域捕获文本。
  
  5、 识别完成后会弹出如下窗口,窗口中的文字可以进行编辑和复制。
  
  常见问题
  为什么我们需要从网页中提取数据?
  通常,我们会遇到我们想要复制、保存为笔记或与他人分享的信息图表、图像、时事通讯或网页的某些部分。为此,我们需要一个强大的 OCR 工具,它可以从 网站 的图像/文本块中提取文本,并允许您对其进行编辑、复制和共享。
  这个工具需要任何培训吗?
  不需要,Docsumo 的 OCR chrome 扩展程序已经过预训练,不需要任何训练。
  它捕获哪些字段?
  使用扩展程序,您可以捕获任何基于文本的字段。它允许您在复制输出之前查看提取的数据
  它可以使用多少种语言?
  没有语言限制。您可以使用 Docsumo 的 OCR Chrome 扩展程序从任何语言中提取数据。
  Docsumo 如何处理更正?
  Docsumo 提供审阅工具作为解决方案的一部分。您可以将机器输出的验证外包给我们的团队,或者您的内部团队可以使用审核工具。我们将 OCR 输出嵌入到文档中并提供键值对的预测。这意味着检查过程不需要手动输入数据,并且是点击式界面。 查看全部

  chrome抓取网页插件(DocsumoFreeOCRSoftwareChrome插件可以提升用户复制网页内容的效率)
  Docsumo Free OCR Software Chrome 插件是一款免费的浏览器 OCR 识别插件。该插件可以帮助用户识别网页内容并从网页中获取文字供用户使用;许多网页中的内容无法复制。如果用户想要获取这类网页的内容,只能手动提取,但是现在有了这个插件,就可以告别手动提取的麻烦了;本工具采用OCR光学识别技术,帮助用户快速识别网页中无法复制的内容,识别准确率高,识别速度快。使用它可以提高获取网页内容的速度。欢迎有需要的朋友下载体验。
  
  软件功能
  网页上的屏幕截图图像/文​​本块并转换为可编辑文本
  组织通常以文档图像的形式接收重要信息和数据。
  将无法在浏览器中复制的文本识别为可编辑文本。
  支持对选中区域的文字进行识别,需要识别的内容可以通过截图的方式进行截取。
  支持可见区域文字识别,可以识别整个页面的文字。
  通过快捷键快速开启网页的OCR识别功能非常方便。
  软件特点
  1、在浏览器中安装使用非常方便,可以通过组合键激活。
  2、识别率高,识别速度快,可以识别多种语言的文字。
  3、两种识别方式,每一种都很简单。
  4、这个工具可以帮助用户获取电脑上无法复制的文字。
  5、使用该插件可以提高用户复制网页内容的效率,节省用户时间。
  指示
  1、 插件解压后,双击插件在浏览器中安装。
  
  2、在浏览器的扩展栏中打开插件,选择识别方式。
  
  3、 第一个选项是捕获选定区域识别。
  
  4、 第二个选项是在可见区域捕获文本。
  
  5、 识别完成后会弹出如下窗口,窗口中的文字可以进行编辑和复制。
  
  常见问题
  为什么我们需要从网页中提取数据?
  通常,我们会遇到我们想要复制、保存为笔记或与他人分享的信息图表、图像、时事通讯或网页的某些部分。为此,我们需要一个强大的 OCR 工具,它可以从 网站 的图像/文本块中提取文本,并允许您对其进行编辑、复制和共享。
  这个工具需要任何培训吗?
  不需要,Docsumo 的 OCR chrome 扩展程序已经过预训练,不需要任何训练。
  它捕获哪些字段?
  使用扩展程序,您可以捕获任何基于文本的字段。它允许您在复制输出之前查看提取的数据
  它可以使用多少种语言?
  没有语言限制。您可以使用 Docsumo 的 OCR Chrome 扩展程序从任何语言中提取数据。
  Docsumo 如何处理更正?
  Docsumo 提供审阅工具作为解决方案的一部分。您可以将机器输出的验证外包给我们的团队,或者您的内部团队可以使用审核工具。我们将 OCR 输出嵌入到文档中并提供键值对的预测。这意味着检查过程不需要手动输入数据,并且是点击式界面。

chrome抓取网页插件(WebScraper插件安装使用方法及安装流程:安装方法)

网站优化优采云 发表了文章 • 0 个评论 • 90 次浏览 • 2021-10-08 02:07 • 来自相关话题

  chrome抓取网页插件(WebScraper插件安装使用方法及安装流程:安装方法)
  Web Scraper是一款chrome网页数据提取插件,用于从网页中提取数据。只需四步,用户就可以使用该插件建立页面数据提取规则,从而快速提取网页中需要的内容。Web Scraper插件的整个爬取逻辑都是从设置一级Selector和选择爬取范围开始,然后在一级Selector下设置好二级Selector后,再次选择爬取字段,然后你可以抓取网页数据。插件抓取数据后,可将数据导出为CSV文件,欢迎免费下载。
  
  插件安装和使用
  一、安装
  1、编辑器使用chrome浏览器,首先在标签页输入【chrome://extensions/】进入chrome扩展,将你在本页下载的Web Scraper插件解压,拖入扩展页面就是这样。
  
  2、安装完成后,赶紧试试插件的具体功能吧。
  
  3、当然可以先在设置页面设​​置插件的存储设置和存储类型功能。
  
  二、使用fetch函数
  安装完成后,只需四步即可完成爬取操作。具体流程如下:
  1、打开网页爬虫
  首先,您需要使用该插件来提取网页数据。您需要在开发者工具模式下使用它。使用快捷键Ctrl+Shift+I/F12,在出现的开发工具窗口中找到与插件同名的列。
  
  2、创建一个新的站点地图
  单击创建新站点地图,其中有两个选项。导入站点地图是导入现成站点地图的指南。我们没有现成的,所以我们一般不选择这个,只选择创建站点地图。
  
  然后执行这两个操作:
  (1)Sitemap Name:代表你的sitemap适用于哪个网页,所以你可以根据自己的名字给网页命名,但是需要用英文字母。比如我从今天的头条中抓取数据,那我就用今日头条来命名
  (2)Sitemap URL:将网页链接复制到Star URL栏。例如,在图片中,我将“吴晓波频道”的首页链接复制到该栏,然后点击下面的创建站点地图创建一个新的站点地图。
  
  3、设置此站点地图
  整个Web Scraper的爬取逻辑如下: 设置一级Selector,选择爬取范围;在一级Selector下设置二级Selector,选择爬取字段,然后爬取。
  对于文章,一级Selector意味着你要圈出这块文章的元素。这个元素可能包括标题、作者、发布时间、评论数等,然后我们会从关卡Selector中选择我们想要的元素,比如标题、作者、阅读次数。
  
  下面我们来拆解一下设置primary和secondary Selector的工作流程:
  (1)单击添加新选择器以创建一级选择器。
  然后按照以下步骤操作:
  -输入id:id代表你爬取的整个范围,比如这里是文章,我们可以命名为wuxiaobo-articles;
  -Select Type:type代表你抓取的这部分的类型,比如element/text/link,因为这是整个文章元素范围的选择,所以我们需要先用Element来选择整个(如果此页面需要滑动加载(更多选择Element Scroll Down);
  -Check Multiple:勾选 Multiple 前面的小方框,因为要选择多个元素而不是单个元素。我们检查的时候,爬虫插件会帮我们识别多篇相同类型的文章文章;
  -保留设置:其余未提及的部分保留默认设置。
  
  (2)点击select选择范围,按照以下步骤操作:
  -选择范围:用鼠标选择要爬取的数据范围,绿色为要选择的区域,鼠标点击后区域变为红色,此区域被选中;
  - 多选:不要只选一个,选择以下,否则只会爬出一行数据;
  - 完成选择:记得点击完成选择;
  - 保存:单击保存选择器。
  
  (3)设置好这个一级Selector后,点击进入设置二级Selector,步骤如下:
  - 新建选择器:点击添加新选择器;
  -输入id:id代表你抓的是哪个字段,这样你就可以取字段的英文了。比如我要选择“作者”,我就写“作者”;
  -Select Type:选择Text,因为你要抓取的是文本;
  -Do not check Multiple:不要勾选 Multiple 前面的小方框,因为我们这里要抓取的是单个元素;
  -保留设置:其余未提及的部分保留默认设置。
  
  (4)点击选择,然后点击要爬取的字段,按照以下步骤操作:
  -选择字段:这里要爬取的字段为单个字段,可以通过鼠标点击该字段进行选择。比如要爬取标题,用鼠标点击某篇文章的标题,该字段所在的区域会变成红色被选中
  - 完成选择:记得点击完成选择;
  - 保存:单击保存选择器。
  (5)重复以上操作,直到选好要攀登的场地。
  4、 爬取数据
  (1) 之后只需要设置好所有的Selector就可以开始爬取数据了:
  点击Scrape,然后点击Start Scraping,弹出一个小窗口,爬虫就开始工作了。您将获得收录您想要的所有数据的列表。
  
  (2)如果想对数据进行排序,比如按阅读、喜欢、作者等排序,让数据更清晰,那么可以点击Export Data as CSV,导入到Excel表格中。
  (3)导入Excel表格后,可以过滤数据。
  
  插件功能
  1、抓取多个页面
  2、读取的数据存储在本地存储或CouchDB
  3、多种数据选择类型
  4、 从动态页面中提取数据(JavaScript + AJAX)
  5、浏览抓取的数据
  6、将数据导出为 CSV
  7、导入、导出站点地图
  8、仅依赖于Chrome浏览器 查看全部

  chrome抓取网页插件(WebScraper插件安装使用方法及安装流程:安装方法)
  Web Scraper是一款chrome网页数据提取插件,用于从网页中提取数据。只需四步,用户就可以使用该插件建立页面数据提取规则,从而快速提取网页中需要的内容。Web Scraper插件的整个爬取逻辑都是从设置一级Selector和选择爬取范围开始,然后在一级Selector下设置好二级Selector后,再次选择爬取字段,然后你可以抓取网页数据。插件抓取数据后,可将数据导出为CSV文件,欢迎免费下载。
  
  插件安装和使用
  一、安装
  1、编辑器使用chrome浏览器,首先在标签页输入【chrome://extensions/】进入chrome扩展,将你在本页下载的Web Scraper插件解压,拖入扩展页面就是这样。
  
  2、安装完成后,赶紧试试插件的具体功能吧。
  
  3、当然可以先在设置页面设​​置插件的存储设置和存储类型功能。
  
  二、使用fetch函数
  安装完成后,只需四步即可完成爬取操作。具体流程如下:
  1、打开网页爬虫
  首先,您需要使用该插件来提取网页数据。您需要在开发者工具模式下使用它。使用快捷键Ctrl+Shift+I/F12,在出现的开发工具窗口中找到与插件同名的列。
  
  2、创建一个新的站点地图
  单击创建新站点地图,其中有两个选项。导入站点地图是导入现成站点地图的指南。我们没有现成的,所以我们一般不选择这个,只选择创建站点地图。
  
  然后执行这两个操作:
  (1)Sitemap Name:代表你的sitemap适用于哪个网页,所以你可以根据自己的名字给网页命名,但是需要用英文字母。比如我从今天的头条中抓取数据,那我就用今日头条来命名
  (2)Sitemap URL:将网页链接复制到Star URL栏。例如,在图片中,我将“吴晓波频道”的首页链接复制到该栏,然后点击下面的创建站点地图创建一个新的站点地图。
  
  3、设置此站点地图
  整个Web Scraper的爬取逻辑如下: 设置一级Selector,选择爬取范围;在一级Selector下设置二级Selector,选择爬取字段,然后爬取。
  对于文章,一级Selector意味着你要圈出这块文章的元素。这个元素可能包括标题、作者、发布时间、评论数等,然后我们会从关卡Selector中选择我们想要的元素,比如标题、作者、阅读次数。
  
  下面我们来拆解一下设置primary和secondary Selector的工作流程:
  (1)单击添加新选择器以创建一级选择器。
  然后按照以下步骤操作:
  -输入id:id代表你爬取的整个范围,比如这里是文章,我们可以命名为wuxiaobo-articles;
  -Select Type:type代表你抓取的这部分的类型,比如element/text/link,因为这是整个文章元素范围的选择,所以我们需要先用Element来选择整个(如果此页面需要滑动加载(更多选择Element Scroll Down);
  -Check Multiple:勾选 Multiple 前面的小方框,因为要选择多个元素而不是单个元素。我们检查的时候,爬虫插件会帮我们识别多篇相同类型的文章文章;
  -保留设置:其余未提及的部分保留默认设置。
  
  (2)点击select选择范围,按照以下步骤操作:
  -选择范围:用鼠标选择要爬取的数据范围,绿色为要选择的区域,鼠标点击后区域变为红色,此区域被选中;
  - 多选:不要只选一个,选择以下,否则只会爬出一行数据;
  - 完成选择:记得点击完成选择;
  - 保存:单击保存选择器。
  
  (3)设置好这个一级Selector后,点击进入设置二级Selector,步骤如下:
  - 新建选择器:点击添加新选择器;
  -输入id:id代表你抓的是哪个字段,这样你就可以取字段的英文了。比如我要选择“作者”,我就写“作者”;
  -Select Type:选择Text,因为你要抓取的是文本;
  -Do not check Multiple:不要勾选 Multiple 前面的小方框,因为我们这里要抓取的是单个元素;
  -保留设置:其余未提及的部分保留默认设置。
  
  (4)点击选择,然后点击要爬取的字段,按照以下步骤操作:
  -选择字段:这里要爬取的字段为单个字段,可以通过鼠标点击该字段进行选择。比如要爬取标题,用鼠标点击某篇文章的标题,该字段所在的区域会变成红色被选中
  - 完成选择:记得点击完成选择;
  - 保存:单击保存选择器。
  (5)重复以上操作,直到选好要攀登的场地。
  4、 爬取数据
  (1) 之后只需要设置好所有的Selector就可以开始爬取数据了:
  点击Scrape,然后点击Start Scraping,弹出一个小窗口,爬虫就开始工作了。您将获得收录您想要的所有数据的列表。
  
  (2)如果想对数据进行排序,比如按阅读、喜欢、作者等排序,让数据更清晰,那么可以点击Export Data as CSV,导入到Excel表格中。
  (3)导入Excel表格后,可以过滤数据。
  
  插件功能
  1、抓取多个页面
  2、读取的数据存储在本地存储或CouchDB
  3、多种数据选择类型
  4、 从动态页面中提取数据(JavaScript + AJAX)
  5、浏览抓取的数据
  6、将数据导出为 CSV
  7、导入、导出站点地图
  8、仅依赖于Chrome浏览器

chrome抓取网页插件( 6款Chrome插件可以大大提升我们的爬虫效率(组图))

网站优化优采云 发表了文章 • 0 个评论 • 592 次浏览 • 2021-10-07 01:10 • 来自相关话题

  chrome抓取网页插件(
6款Chrome插件可以大大提升我们的爬虫效率(组图))
  
  在PC端的日常抓取过程中,Chrome浏览器是我们常用的工具。
  鉴于Chrome浏览器的强大,Chrome网上应用店中的众多强大插件可以帮助我们快速高效地抓取数据。
  今天推荐的6个Chrome插件可以大大提高我们的爬虫效率。
  1、EditThisCookie
  
  EditThisCookie 是一个 cookie 管理器,可以轻松添加、删除、编辑、搜索、锁定和阻止 cookie。
  可以先将登录cookies保存到本地,使用cookielib库直接爬取登录数据。
  它避免了抓包和模拟登录,帮助我们快速爬行。
  2、网络爬虫
  
  Web Scraper 是一款免费的,适合任何人的,包括没有任何编程基础的爬虫工具。
  操作简单,只需点击鼠标,简单配置即可快速抓取Web端数据。
  支持复杂的网站结构,数据支持文本、连接、数据块、下拉加载数据块等多种数据类型。
  另外,爬取的数据可以导出为CSV文件。
  3、Xpath 助手
  
  Xpath Helper 是一个结构化的网页元素选择器,支持列表和单节点数据获取,
  它可以快速定位网页元素。
  与 Beautiful Soup 相比,Xpath 在网页元素的搜索性能上更具优势;Xpath 比正则表达式更方便编写。
  写完Xpath后,会实时显示匹配数和对应位置,方便我们判断句子是否写对。
  4、切换 JavaScript
  
  Toggle JavaScript 插件可用于检测当前网页的哪些元素是通过 AJAX 动态加载的。
  使用它可以在允许加载 JS 和禁止加载 JS 两种模式之间快速切换。
  5、Chrome 用户代理切换器
  
  Chrome插件的User-Agent Switcher可以方便的修改浏览器的User-Agent。
  它可以模拟不同的浏览器和客户端,包括Android和IOS来模拟请求。
  对于一些特殊的网站,切换User-Agent可以让数据爬取更方便。
  6、JSON 句柄
  
  JSON-handle 是一款强大的 JSON 数据解析 Chrome 插件。
  它以简单明了的树状图样式显示 JSON 文档,并且可以实时编辑。
  对于数据量大的场景,可以做部分选择分析。 查看全部

  chrome抓取网页插件(
6款Chrome插件可以大大提升我们的爬虫效率(组图))
  
  在PC端的日常抓取过程中,Chrome浏览器是我们常用的工具。
  鉴于Chrome浏览器的强大,Chrome网上应用店中的众多强大插件可以帮助我们快速高效地抓取数据。
  今天推荐的6个Chrome插件可以大大提高我们的爬虫效率。
  1、EditThisCookie
  
  EditThisCookie 是一个 cookie 管理器,可以轻松添加、删除、编辑、搜索、锁定和阻止 cookie。
  可以先将登录cookies保存到本地,使用cookielib库直接爬取登录数据。
  它避免了抓包和模拟登录,帮助我们快速爬行。
  2、网络爬虫
  
  Web Scraper 是一款免费的,适合任何人的,包括没有任何编程基础的爬虫工具。
  操作简单,只需点击鼠标,简单配置即可快速抓取Web端数据。
  支持复杂的网站结构,数据支持文本、连接、数据块、下拉加载数据块等多种数据类型。
  另外,爬取的数据可以导出为CSV文件。
  3、Xpath 助手
  
  Xpath Helper 是一个结构化的网页元素选择器,支持列表和单节点数据获取,
  它可以快速定位网页元素。
  与 Beautiful Soup 相比,Xpath 在网页元素的搜索性能上更具优势;Xpath 比正则表达式更方便编写。
  写完Xpath后,会实时显示匹配数和对应位置,方便我们判断句子是否写对。
  4、切换 JavaScript
  
  Toggle JavaScript 插件可用于检测当前网页的哪些元素是通过 AJAX 动态加载的。
  使用它可以在允许加载 JS 和禁止加载 JS 两种模式之间快速切换。
  5、Chrome 用户代理切换器
  
  Chrome插件的User-Agent Switcher可以方便的修改浏览器的User-Agent。
  它可以模拟不同的浏览器和客户端,包括Android和IOS来模拟请求。
  对于一些特殊的网站,切换User-Agent可以让数据爬取更方便。
  6、JSON 句柄
  
  JSON-handle 是一款强大的 JSON 数据解析 Chrome 插件。
  它以简单明了的树状图样式显示 JSON 文档,并且可以实时编辑。
  对于数据量大的场景,可以做部分选择分析。

chrome抓取网页插件(10种Chrome中运用比较广泛的功能插件(组图))

网站优化优采云 发表了文章 • 0 个评论 • 100 次浏览 • 2021-10-05 13:18 • 来自相关话题

  chrome抓取网页插件(10种Chrome中运用比较广泛的功能插件(组图))
  [文本]
  据外媒报道,谷歌Chrome浏览器一向以速度轻快着称,在各项测试软件中均领先其他产品。随着Chrome的不断发展,用于扩展功能的插件也越来越丰富。
  谷歌提倡的云概念将浏览器视为重要的应用平台,Chrome用户数量也在逐渐增加。下面为您介绍Chrome中10个广泛使用的功能插件:
  1、 Chrome 备份备份工具
  
  图(1)
  Google Chrome Backup 是一种可用于备份、创建、恢复和删除个人数据的工具。配置文件收录所有个人信息,例如书签、浏览历史记录、浏览器设置等。
  使用此工具,用户可以轻松地将您的 Google Chrome 书签和设置备份到本地磁盘。
  2、 Xmarks 书签同步
  
  图(2)
  这个插件被广泛使用。Xmarks 的原名是 Foxmarks,它是一个改进的书签同步工具。Xmarks可以准确保存您经常访问的网站的用户名和密码,大大节省您宝贵的工作时间。
  此外,Xmark 支持跨系统和跨平台同步。适用于拥有多台电脑或计划重装系统的用户。
  [分页]
  [1]·谷歌浏览器:Chrome-1广泛使用的十个功能插件介绍
  [2]·谷歌浏览器:Chrome-2广泛使用的十个功能插件介绍
  [3]·谷歌浏览器:Chrome浏览器广泛使用的十种插件介绍-3
  [4]·谷歌浏览器:Chrome-4广泛使用的十个功能插件介绍
  [5]·谷歌浏览器:Chrome浏览器广泛使用的十种插件介绍-5 查看全部

  chrome抓取网页插件(10种Chrome中运用比较广泛的功能插件(组图))
  [文本]
  据外媒报道,谷歌Chrome浏览器一向以速度轻快着称,在各项测试软件中均领先其他产品。随着Chrome的不断发展,用于扩展功能的插件也越来越丰富。
  谷歌提倡的云概念将浏览器视为重要的应用平台,Chrome用户数量也在逐渐增加。下面为您介绍Chrome中10个广泛使用的功能插件:
  1、 Chrome 备份备份工具
  
  图(1)
  Google Chrome Backup 是一种可用于备份、创建、恢复和删除个人数据的工具。配置文件收录所有个人信息,例如书签、浏览历史记录、浏览器设置等。
  使用此工具,用户可以轻松地将您的 Google Chrome 书签和设置备份到本地磁盘。
  2、 Xmarks 书签同步
  
  图(2)
  这个插件被广泛使用。Xmarks 的原名是 Foxmarks,它是一个改进的书签同步工具。Xmarks可以准确保存您经常访问的网站的用户名和密码,大大节省您宝贵的工作时间。
  此外,Xmark 支持跨系统和跨平台同步。适用于拥有多台电脑或计划重装系统的用户。
  [分页]
  [1]·谷歌浏览器:Chrome-1广泛使用的十个功能插件介绍
  [2]·谷歌浏览器:Chrome-2广泛使用的十个功能插件介绍
  [3]·谷歌浏览器:Chrome浏览器广泛使用的十种插件介绍-3
  [4]·谷歌浏览器:Chrome-4广泛使用的十个功能插件介绍
  [5]·谷歌浏览器:Chrome浏览器广泛使用的十种插件介绍-5

chrome抓取网页插件(7款顶级谷歌Chrome浏览器插件可增强用户的Chrome体验)

网站优化优采云 发表了文章 • 0 个评论 • 345 次浏览 • 2021-10-05 13:17 • 来自相关话题

  chrome抓取网页插件(7款顶级谷歌Chrome浏览器插件可增强用户的Chrome体验)
  据外媒报道,纵观当前浏览器市场,主流浏览器包括微软IE、Mozilla Firefox、谷歌Chrome、苹果Safari和Opera。其中,谷歌的Chrome浏览器以简洁着称,Mozilla基金会的Firefox以丰富的插件着称。
  不过目前谷歌已经开始允许用户下载和使用Chrome插件,极大地丰富了用户体验。
  到目前为止,Chrome 拥有 800 多个浏览器插件,这些插件可以提升用户的 Chrome 体验。
  一般来说,这些插件以图标的形式显示在Chrome的地址栏旁边,方便删除或禁用(如果用户想保留Chrome的经典观感)。
  另外,如果用户想使用Chrome插件,必须在/chrome下载最新的Linux或Windows beta版Chrome浏览器,然后到/extensions下载数百个插件。
  以下是笔者总结的7个顶级谷歌Chrome浏览器插件,如下:
  1、Google Apps 快捷方式
  该插件允许用户快速访问 Google 应用程序,例如 Gmail、Google 日历和 Google Docs。这个插件可以在新标签页中打开这些应用,也可以让用户快速创建邮件、文件等。如果你只是想访问Gmail,可以试试Google Mail Checker。
  2、标签菜单
  使用标签菜单,用户可以获得所有标签的垂直列表和一个搜索框,以便于标签导航。选项卡菜单使用户可以使用关闭按钮关闭选项卡,并拖放选项卡以重新排列它们。
  3、StumbleUpon
  StumbleUpon 插件可以根据用户的个人喜好向您推荐最推荐的网站。这样,您就可以轻松访问那些内容优质的网页,而不必总是浪费时间访问许多内容平庸的网页。
  4、Chrome 的 Picnik 扩展
  适用于 Chrome 的 Picnik 扩展程序可以帮助用户嵌入 网站 的图像并轻松发送。加载网站页面后,点击Picnik按钮,用户将能够得到网站图片的缩略图列表。单击这些缩略图,图像将在 Picnik 中打开,用户可以进行编辑、注释和共享。
  5、Feedly
  Chrome 的 Feedly 插件可让您以快速时尚的方式阅读和分享您喜爱的 网站 和服务内容。它可以为您提供谷歌阅读器、推特、Tasty、YouTube、亚马逊等,让您随时浏览您喜欢的内容。
  6、WOT(信任网络)
  当用户使用 Chrome 浏览器打开收录垃圾邮件、恶意软件或其他危险/未知信息的站点时,Chrome 浏览器的 Web of Trust 插件会警告用户。
  当用户点击WOT插件图标时,红色圆圈网站是危险的网站,绿色圆圈网站是安全的网站。WOT 也适用于 Google 和 Bing 搜索结果、Gmail 和 Yahoo! 等邮件服务。邮件等
  7、Brizzly
  Brizzly 是一个小型 Twitter 插件,允许用户撰写和编译推文,访问 Twitter 个人资料、详细信息、列表、保存的搜索等。
  使用Brizzly,用户几乎可以在一个页面上完成所有操作,包括关注、取消关注、添加到群组、了解热门话题等。 查看全部

  chrome抓取网页插件(7款顶级谷歌Chrome浏览器插件可增强用户的Chrome体验)
  据外媒报道,纵观当前浏览器市场,主流浏览器包括微软IE、Mozilla Firefox、谷歌Chrome、苹果Safari和Opera。其中,谷歌的Chrome浏览器以简洁着称,Mozilla基金会的Firefox以丰富的插件着称。
  不过目前谷歌已经开始允许用户下载和使用Chrome插件,极大地丰富了用户体验。
  到目前为止,Chrome 拥有 800 多个浏览器插件,这些插件可以提升用户的 Chrome 体验。
  一般来说,这些插件以图标的形式显示在Chrome的地址栏旁边,方便删除或禁用(如果用户想保留Chrome的经典观感)。
  另外,如果用户想使用Chrome插件,必须在/chrome下载最新的Linux或Windows beta版Chrome浏览器,然后到/extensions下载数百个插件。
  以下是笔者总结的7个顶级谷歌Chrome浏览器插件,如下:
  1、Google Apps 快捷方式
  该插件允许用户快速访问 Google 应用程序,例如 Gmail、Google 日历和 Google Docs。这个插件可以在新标签页中打开这些应用,也可以让用户快速创建邮件、文件等。如果你只是想访问Gmail,可以试试Google Mail Checker。
  2、标签菜单
  使用标签菜单,用户可以获得所有标签的垂直列表和一个搜索框,以便于标签导航。选项卡菜单使用户可以使用关闭按钮关闭选项卡,并拖放选项卡以重新排列它们。
  3、StumbleUpon
  StumbleUpon 插件可以根据用户的个人喜好向您推荐最推荐的网站。这样,您就可以轻松访问那些内容优质的网页,而不必总是浪费时间访问许多内容平庸的网页。
  4、Chrome 的 Picnik 扩展
  适用于 Chrome 的 Picnik 扩展程序可以帮助用户嵌入 网站 的图像并轻松发送。加载网站页面后,点击Picnik按钮,用户将能够得到网站图片的缩略图列表。单击这些缩略图,图像将在 Picnik 中打开,用户可以进行编辑、注释和共享。
  5、Feedly
  Chrome 的 Feedly 插件可让您以快速时尚的方式阅读和分享您喜爱的 网站 和服务内容。它可以为您提供谷歌阅读器、推特、Tasty、YouTube、亚马逊等,让您随时浏览您喜欢的内容。
  6、WOT(信任网络)
  当用户使用 Chrome 浏览器打开收录垃圾邮件、恶意软件或其他危险/未知信息的站点时,Chrome 浏览器的 Web of Trust 插件会警告用户。
  当用户点击WOT插件图标时,红色圆圈网站是危险的网站,绿色圆圈网站是安全的网站。WOT 也适用于 Google 和 Bing 搜索结果、Gmail 和 Yahoo! 等邮件服务。邮件等
  7、Brizzly
  Brizzly 是一个小型 Twitter 插件,允许用户撰写和编译推文,访问 Twitter 个人资料、详细信息、列表、保存的搜索等。
  使用Brizzly,用户几乎可以在一个页面上完成所有操作,包括关注、取消关注、添加到群组、了解热门话题等。

chrome抓取网页插件(几款Chrome必备的扩展程序,让你的Chrome变得更加好用)

网站优化优采云 发表了文章 • 0 个评论 • 98 次浏览 • 2021-10-04 02:28 • 来自相关话题

  chrome抓取网页插件(几款Chrome必备的扩展程序,让你的Chrome变得更加好用)
  Chrome浏览器长期以来一直主导着浏览器应用软件。很多人选择Chrome浏览器,不仅是因为它的流畅和稳定,还因为它丰富的可扩展性。通过扩展可以实现各种功能。. 今天就让小编为大家推荐几个Chrome必备的扩展,让你的Chrome更实用!
  
  1.AdBlock——免费的广告拦截器
  不知道大家有没有被各种网络广告所困扰。小曲浏览一些网页时,突然弹出各种“如果你是兄弟,请砍我”和“一美元999”。洗脑很烦人,所以要小心。还是有中毒的危险。AdBlock 可以解决弹窗广告的烦恼。顾名思义,Ad(advertisement)Block(阻止)是一个广告拦截插件。它也是 Chrome 上最受欢迎的扩展程序之一,超过 4000 万用户正在使用它。
  
  使用 AdBlock,您可以告别所有广告,无论是网络广告、弹出式广告还是视频前广告!安装AdBlock扩展后,Chrome浏览器右上角的插件栏中会出现一个小的adblock图标。通常,最常用的网站 广告无需设置即可屏蔽。当然,如果你觉得默认设置不够强大,你也可以自定义屏蔽规则!
  2、Video Speed Controller--视频播放加速插件
  我们都知道,在长时间看电视节目或在线观看在线课程时,冗长的内容很容易让人感到疲倦。因此,很多人在观看视频时,习惯于将播放速度提高到 1-2 倍,以弥补视觉接收上的差异。虽然有些网站自带加速功能,但有些是收费的,需要开通会员。Video Speed Controller的优势是免费的视频播放加速插件,也是Chrome商店中最受欢迎的免费加速播放器之一。视频速度控制器适用于任何HTML5视频播放器,支持从0.07倍超慢速播放到16倍超高速播放。经测试,国内视频调速器包括优酷、腾讯视频、
  
  
  3、搜索播放歌曲
  它集成了很多播放器,让你不用下载大部分听音乐软件的烦恼。部分听歌软件需要会员才能播放,搜索播放听歌软件可以直接搜索任意歌曲播放,避免版权纠纷被下架。
  搜索后直接播放即可。
  
  4、Video Downloader Professional--网络视频下载工具
  一般来说,使用第三方工具下载视频,需要打开软件,复制链接。这个过程需要我们花时间。通过Video Downloader专业插件,您可以直接下载YouTube、Instagram等主流网络视频和国内众多视频网页。还支持下载很多国内的视频网页,非常方便。
  5、WebTimer--记录浏览的点点滴滴
  在手机上统计APP使用时间并不少见。这个插件可以帮你自动记录在主网站上花费的时间。可以看到结果是以饼图的形式展示的,饼图下方列出了这些浏览记录的详细信息。给你一份参考数据的工作计划。这些统计结果不仅可以通过WebTimer插件直观的查看,其他社交网络也可以快速查看。
  
  当然,上述扩展也可以在国内的Chrome插件商店中找到。微软发布了一款基于 Chromium 内核的新 Edge 浏览器。Microsoft Edge插件在中国可以顺利访问!
  
  你在等什么?为您的 Chrome/Edge 添加新功能!有没有其他好用的插件推荐?欢迎在评论区留言和分享! 查看全部

  chrome抓取网页插件(几款Chrome必备的扩展程序,让你的Chrome变得更加好用)
  Chrome浏览器长期以来一直主导着浏览器应用软件。很多人选择Chrome浏览器,不仅是因为它的流畅和稳定,还因为它丰富的可扩展性。通过扩展可以实现各种功能。. 今天就让小编为大家推荐几个Chrome必备的扩展,让你的Chrome更实用!
  
  1.AdBlock——免费的广告拦截器
  不知道大家有没有被各种网络广告所困扰。小曲浏览一些网页时,突然弹出各种“如果你是兄弟,请砍我”和“一美元999”。洗脑很烦人,所以要小心。还是有中毒的危险。AdBlock 可以解决弹窗广告的烦恼。顾名思义,Ad(advertisement)Block(阻止)是一个广告拦截插件。它也是 Chrome 上最受欢迎的扩展程序之一,超过 4000 万用户正在使用它。
  
  使用 AdBlock,您可以告别所有广告,无论是网络广告、弹出式广告还是视频前广告!安装AdBlock扩展后,Chrome浏览器右上角的插件栏中会出现一个小的adblock图标。通常,最常用的网站 广告无需设置即可屏蔽。当然,如果你觉得默认设置不够强大,你也可以自定义屏蔽规则!
  2、Video Speed Controller--视频播放加速插件
  我们都知道,在长时间看电视节目或在线观看在线课程时,冗长的内容很容易让人感到疲倦。因此,很多人在观看视频时,习惯于将播放速度提高到 1-2 倍,以弥补视觉接收上的差异。虽然有些网站自带加速功能,但有些是收费的,需要开通会员。Video Speed Controller的优势是免费的视频播放加速插件,也是Chrome商店中最受欢迎的免费加速播放器之一。视频速度控制器适用于任何HTML5视频播放器,支持从0.07倍超慢速播放到16倍超高速播放。经测试,国内视频调速器包括优酷、腾讯视频、
  
  
  3、搜索播放歌曲
  它集成了很多播放器,让你不用下载大部分听音乐软件的烦恼。部分听歌软件需要会员才能播放,搜索播放听歌软件可以直接搜索任意歌曲播放,避免版权纠纷被下架。
  搜索后直接播放即可。
  
  4、Video Downloader Professional--网络视频下载工具
  一般来说,使用第三方工具下载视频,需要打开软件,复制链接。这个过程需要我们花时间。通过Video Downloader专业插件,您可以直接下载YouTube、Instagram等主流网络视频和国内众多视频网页。还支持下载很多国内的视频网页,非常方便。
  5、WebTimer--记录浏览的点点滴滴
  在手机上统计APP使用时间并不少见。这个插件可以帮你自动记录在主网站上花费的时间。可以看到结果是以饼图的形式展示的,饼图下方列出了这些浏览记录的详细信息。给你一份参考数据的工作计划。这些统计结果不仅可以通过WebTimer插件直观的查看,其他社交网络也可以快速查看。
  
  当然,上述扩展也可以在国内的Chrome插件商店中找到。微软发布了一款基于 Chromium 内核的新 Edge 浏览器。Microsoft Edge插件在中国可以顺利访问!
  
  你在等什么?为您的 Chrome/Edge 添加新功能!有没有其他好用的插件推荐?欢迎在评论区留言和分享!

chrome抓取网页插件(在Chrome安装了LiveHTTPHeaders插件的作用(组图))

网站优化优采云 发表了文章 • 0 个评论 • 128 次浏览 • 2021-10-03 06:00 • 来自相关话题

  chrome抓取网页插件(在Chrome安装了LiveHTTPHeaders插件的作用(组图))
  在开发过程中,往往需要抓取动态http,但是切换到软件上会拖慢开发进程,降低效率。很多程序员会选择这个Live Http Headers Chrome插件来捕捉动态http页面。
  
  软件截图1
  插件概述
  LiveHTTPHeaders是一个开发者插件,可以实时监控发起的http请求和响应,也可以修改请求参数后重新发起请求。目前,LiveHTTPHeader 插件有 firefox 插件和 chrome 插件,这取决于用户的选择。无论是web开发还是测试,当我们测试一个web应用的安全性时,往往需要对HTTP流量进行分析和动态修改。此外,控制Web应用程序的出入流数据不仅有助于发现Web应用程序安全漏洞和利用安全测试任务,而且有利于常规Web应用程序测试。这就是我们今天要讲的LiveHTTPHeaders插件的作用。
  特征
  Chrome中安装Live HTTP Headers插件后,用户在Chrome中打开某个网站后,可以立即使用Live HTTP Headers插件查看当前网页中的HTTP Header信息。此信息将收录当前网页信息。加载状态,如资源访问状态:200、301、404等。通过对这些信息的分析,可以很好的调试当前网页,给开发者带来网站 来方便。
  指示
  1. 在谷歌浏览器中安装Live HTTP Headers插件后,可以在Chrome扩展设置中开启监控所有浏览器头信息的功能。
  2.用户使用Chrome打开需要调试的网页,然后可以访问该网页,等待谷歌浏览器加载相应的网页资源。加载完成后,您可以使用 Live HTTP Headers 插件查看当前网页 HTTP 头信息和加载状态。
  3.同理,用户可以点击Live HTTP Headers插件的RAW标签,查看HTTP Header的原创信息。
  4. 我们需要打开的浏览器网页,所有交互的HTTP请求和重放信息内容都可以被用户捕获和分析。
  5.用户可以在Live HTTP Headers的设置界面自定义当前的HTTP Header监控,点击Live HTTP Headers的设置按钮,可以设置抓取http报文的字段信息,在页面上选择监控资源,默认显示视图、列表排序等功能。
  预防措施
  一旦 Live HTTP Headers 插件打开,它就会监控和捕获当前 Chrome 会话中的所有 HTTP 头信息。用户可以尝试模拟一些操作来检查http头。 查看全部

  chrome抓取网页插件(在Chrome安装了LiveHTTPHeaders插件的作用(组图))
  在开发过程中,往往需要抓取动态http,但是切换到软件上会拖慢开发进程,降低效率。很多程序员会选择这个Live Http Headers Chrome插件来捕捉动态http页面。
  
  软件截图1
  插件概述
  LiveHTTPHeaders是一个开发者插件,可以实时监控发起的http请求和响应,也可以修改请求参数后重新发起请求。目前,LiveHTTPHeader 插件有 firefox 插件和 chrome 插件,这取决于用户的选择。无论是web开发还是测试,当我们测试一个web应用的安全性时,往往需要对HTTP流量进行分析和动态修改。此外,控制Web应用程序的出入流数据不仅有助于发现Web应用程序安全漏洞和利用安全测试任务,而且有利于常规Web应用程序测试。这就是我们今天要讲的LiveHTTPHeaders插件的作用。
  特征
  Chrome中安装Live HTTP Headers插件后,用户在Chrome中打开某个网站后,可以立即使用Live HTTP Headers插件查看当前网页中的HTTP Header信息。此信息将收录当前网页信息。加载状态,如资源访问状态:200、301、404等。通过对这些信息的分析,可以很好的调试当前网页,给开发者带来网站 来方便。
  指示
  1. 在谷歌浏览器中安装Live HTTP Headers插件后,可以在Chrome扩展设置中开启监控所有浏览器头信息的功能。
  2.用户使用Chrome打开需要调试的网页,然后可以访问该网页,等待谷歌浏览器加载相应的网页资源。加载完成后,您可以使用 Live HTTP Headers 插件查看当前网页 HTTP 头信息和加载状态。
  3.同理,用户可以点击Live HTTP Headers插件的RAW标签,查看HTTP Header的原创信息。
  4. 我们需要打开的浏览器网页,所有交互的HTTP请求和重放信息内容都可以被用户捕获和分析。
  5.用户可以在Live HTTP Headers的设置界面自定义当前的HTTP Header监控,点击Live HTTP Headers的设置按钮,可以设置抓取http报文的字段信息,在页面上选择监控资源,默认显示视图、列表排序等功能。
  预防措施
  一旦 Live HTTP Headers 插件打开,它就会监控和捕获当前 Chrome 会话中的所有 HTTP 头信息。用户可以尝试模拟一些操作来检查http头。

chrome抓取网页插件( -spa-plugin插件的预渲染方法)

网站优化优采云 发表了文章 • 0 个评论 • 58 次浏览 • 2021-09-30 20:18 • 来自相关话题

  chrome抓取网页插件(
-spa-plugin插件的预渲染方法)
  
  本文主要介绍使用prerender-spa-plugin对前端代码进行预渲染。
  预渲染(SSG)和服务端(SSR)渲染有一定的区别。想了解的可以看:传送门。
  背景
  因为之前的网站是使用Vue开发的,这种前端JavaScript渲染开发模式对搜索引擎非常不友好,也没有办法抓取有效信息。因此,为了执行 SEO,我们需要预渲染页面。
  预渲染更适合静态页面或变化不大的页面。页面上的大部分内容都可以在部署前通过静态渲染进行渲染。这样,当搜索引擎在爬取时,就可以爬到相关的内容信息。
  现状
  商启通官网现状如下:
  目标
  希望通过预渲染,在第一次访问没有执行JavaScript时,页面可以携带足够的信息,即可以将JavaScript渲染的内容提前渲染成HTML。
  该版本预计不会进行太多更改。
  计划
  我们这次的计划主要是使用prerender-spa-plugin这个webpack插件来实现。
  它的主要原理是启动浏览器,渲染后抓取HTML,然后替换原来的HTML。
  我们需要实现预渲染,那么我们需要完成以下几件事:
  插件介绍和配置。本地验证。改变包装和施工过程。在线验证。
  下面,让我们一一谈谈我们如何做到这一点。
  插件介绍及配置
  首先,我们需要引入一个预渲染插件并执行命令:
  cnpm i prerender-spa-plugin -D
  这个命令除了安装插件本身,还要依赖puppeteer,然后puppeteer又依赖登陆的chromium,所以最后我们其实需要在依赖中安装一个chromium。
  如果安装puppeteer很慢或者经常失败,可以参考文章中的方法:国内下载安装-Puppeteer-,指定puppeteer下载镜像。
  安装完成后,我们可以在webpack配置文件中添加相应的配置。
  如果你也在使用vue-cli,那么我们需要添加的配置在vue.config.js中。如果直接修改webpack的配置,方法类似。
  我们以修改 vue.config.js 为例:
  const PrerenderSPAPlugin = require('prerender-spa-plugin');
module.exports = {
...,
configureWebpack: {
...,
chainWebpack: config => {
config.plugin('prerender').use(PrerenderSPAPlugin, [
{
staticDir: path.join(__dirname, 'build'),
routes: [
'/',
'/product',
'/case',
'/about',
'/register',
],
renderer: new Renderer({
headless: true,
executablePath: '/Applications/Google Chrome.app/Contents/MacOS/Google Chrome',
// 在 main.js 中 document.dispatchEvent(new Event('render-event')),两者的事件名称要对应上。
renderAfterDocumentEvent: 'render-event',
}),
},
]);
}
}
}
  因为我们在项目中使用了 webpack-chain,所以我们的语法类似于上面的链调用方法。如果直接修改,就是使用Vue原有的修改配置方式。
  给大家简单介绍一下上面一些配置的含义:
  – Headless:是否使用headless模式进行渲染,建议选择true。
  - ExecutablePath:指定chrome的路径(也可以是chrome)。这个配置需要在talos中指定。talos 中的 chrome 地址默认为 /usr/bin/google-chrome。
  – RenderAfterDocumentEvent:这意味着在触发事件之后,执行预渲染。这个事件需要通过代码中的dispatchEvent来触发,这样可以控制预渲染的时间。通常,我们在最外层组件的已安装挂钩中触发。如果您有其他要求,也可以自行指定。
  有关更多信息,请参阅插件的官方文档。
  开发完成后,我们可以在本地构建,看看能不能生成符合我们预期的代码。
  Vue.config.js 指定 publicPath 导致预渲染失败
  如果你和我的项目一样,在vue.config.js中通过publicPath指定第三方CDN域名,然后CSS、JavaScript、Image等资源会转移到不同的域名。类似的配置如下:
  module.exports = {
...,
publicPath: `//awp-assets.cdn.net/${projectPath}`,
...,
};
  如果没有预渲染,这个方案打包完成后会上传到不同的CDN域名,在线访问是没有问题的。
  但是本地,此时CSS和JS资源还没有上传到CDN,浏览器无法加载相应的资源进行页面渲染。这将导致本地预渲染失败。
  为了解决这个问题,有两种解决方案。
  【推荐】调整打包策略,将非HTML资源上传到同一个CDN域名。在这种情况下,我们可以使用相对路径来访问这些资源,而无需将新域名传递给 publicPath,这样我们在本地构建时就可以访问这些值。这是一种更可靠、更合理的方法,更值得推荐。(如果上面的方法真的无法实现,那么可以考虑这个方案)在预渲染之前,资源是通过相对路径在本地访问的。这时候用替换方法替换html中的资源文件地址,然后进行预渲染。渲染后替换它。这种方法比较hacky,但经过实际验证确实有效。具体做法是自己写一个简单的webpack插件。
  首先,我们需要安装一个新的npm包来替换文件的内容(可以自己写正则规则,但是用这个会更方便),具体命令如下:
  mnpm i replace-in-file
  安装完成后,我们需要添加两个webpack插件分别作用于afterEmit和done这两个hook节点上。如果你想了解这两个hook节点为什么是这样,那么你可以阅读webpack插件的开发章节。
  const replace = require('replace-in-file');
let publicPath = `//awp-assets.cdn.net/${projectPath}`;
// 第1个替换插件,主要是将原先打包过程中带有CDN域名的路径替换成相对路径
function ReplacePathInHTMLPlugin1(cb) {
this.apply = compiler => {
if (compiler.hooks && compiler.hooks.afterEmit) {
compiler.hooks.afterEmit.tap('replace-url', cb);
}
};
}
function replacePluginCallback1() {
replace({
files: path.join(__dirname, '/build/**/*.html'),
from: new RegExp(
publicPath.replace(/([./])/g, (match, p1) => {
return `\\${p1}`;
}),
'g'
),
to: '',
})
.then(results => {
console.log('replace HTML static resources success', results);
})
.catch(e => {
console.log('replace HTML static resources fail', e);
});
}
// 第2个替换插件,主要是将预渲染后的HTML文件中的相对路径替换成带有CDN域名的路径
function ReplacePathInHTMLPlugin2(cb) {
this.apply = compiler => {
if (compiler.hooks && compiler.hooks.done) {
compiler.hooks.done.tap('replace-url', cb);
}
};
}
function replacePluginCallback2() {
replace({
files: path.join(__dirname, '/build/**/*.html'),
from: [/href="\/css/g, /href="\/js/g, /src="\/js/g, /href="\/favicon.ico"/g],
to: [
`href="${publicPath}/css`,
`href="${publicPath}/js`,
`src="${publicPath}/js`,
`href="${publicPath}/favicon.ico"`,
],
})
.then(results => {
console.log('replace HTML static resources success', results);
})
.catch(e => {
console.log('replace HTML static resources fail', e);
});
}
  以上代码就是我们需要添加的两个webpack替换插件和对应的回调函数。接下来我们看看如何在webpack中进行配置。
  module.exports = {
publicPath,
outputDir,
crossorigin: 'anonymous',
chainWebpack: config => {
config.plugin('replaceInHTML').use(new ReplacePathInHTMLPlugin1(replacePluginCallback));
config.plugin('prerender').use(PrerenderSPAPlugin, [
{
staticDir: path.join(__dirname, 'build'),
// 我们应该只会使用根路径,因为是hash路由,所以其他页面预渲染没有意义,因此不进行预渲染
routes: ['/'],
renderer: new Renderer({
headless: true,
executablePath: '/Applications/Google Chrome.app/Contents/MacOS/Google Chrome',
// 在 main.js 中 document.dispatchEvent(new Event('render-event')),两者的事件名称要对应上。
renderAfterDocumentEvent: 'render-event',
}),
},
]);
config.plugin('replaceInHTML2').use(new ReplacePathInHTMLPlugin2(replacePluginCallback2));
}
  我们的第一个替换插件需要在预渲染插件之前执行。在执行预渲染插件之前,将HTML中资源的地址替换为本地相对路径;第二个需要在替换后执行,以便将预渲染后端资源中的相对路径替换为CDN地址。
  通过这两个插件,我们可以通过在预渲染之前替换路径,然后在预渲染之后完成替换来完成预渲染,以保证在线可用性。
  本地验证
  通过上面的方法,我们应该已经得到了一个预渲染的HTML,接下来就要验证HTML是否符合预期。
  更简单的验证方式是直接访问HTML文件,或者启动一个HTTP静态资源服务来验证。
  为了验证,您可以使用 curl 发出请求。在这种情况下,将不会执行 JavaScript,您可以看到 HTML 源文件是什么。
  FAQ chrome版本比较低的时候(比如v73),会提示渲染失败?
  这是因为chrome的版本太低,导致预渲染失败。解决办法是将chrome/chromium版本升级到最新(目前v93没问题)版本。
  总结
  如果我们需要实现SSG(静态站点生成),那么我们可以使用prerender-spa-plugin插件,这个插件可以在本地启动chrome来抓取HTML内容,然后写回HTML文件,如果我们需要对静态资源文件进行处理,我们可以使用替换插件来替换处理前后的内容来满足我们的需求。
  虽然直接替换压缩代码看起来很有效,但它强烈依赖于压缩算法和内容顺序。强烈不建议直接用脚本修改和替换压缩文件。最好在 webpack 的 done hook 回调中处理。 查看全部

  chrome抓取网页插件(
-spa-plugin插件的预渲染方法)
  https://media.mybj123.com/wp-c ... 5.png 300w, https://media.mybj123.com/wp-c ... 6.png 768w" />
  本文主要介绍使用prerender-spa-plugin对前端代码进行预渲染。
  预渲染(SSG)和服务端(SSR)渲染有一定的区别。想了解的可以看:传送门。
  背景
  因为之前的网站是使用Vue开发的,这种前端JavaScript渲染开发模式对搜索引擎非常不友好,也没有办法抓取有效信息。因此,为了执行 SEO,我们需要预渲染页面。
  预渲染更适合静态页面或变化不大的页面。页面上的大部分内容都可以在部署前通过静态渲染进行渲染。这样,当搜索引擎在爬取时,就可以爬到相关的内容信息。
  现状
  商启通官网现状如下:
  目标
  希望通过预渲染,在第一次访问没有执行JavaScript时,页面可以携带足够的信息,即可以将JavaScript渲染的内容提前渲染成HTML。
  该版本预计不会进行太多更改。
  计划
  我们这次的计划主要是使用prerender-spa-plugin这个webpack插件来实现。
  它的主要原理是启动浏览器,渲染后抓取HTML,然后替换原来的HTML。
  我们需要实现预渲染,那么我们需要完成以下几件事:
  插件介绍和配置。本地验证。改变包装和施工过程。在线验证。
  下面,让我们一一谈谈我们如何做到这一点。
  插件介绍及配置
  首先,我们需要引入一个预渲染插件并执行命令:
  cnpm i prerender-spa-plugin -D
  这个命令除了安装插件本身,还要依赖puppeteer,然后puppeteer又依赖登陆的chromium,所以最后我们其实需要在依赖中安装一个chromium。
  如果安装puppeteer很慢或者经常失败,可以参考文章中的方法:国内下载安装-Puppeteer-,指定puppeteer下载镜像。
  安装完成后,我们可以在webpack配置文件中添加相应的配置。
  如果你也在使用vue-cli,那么我们需要添加的配置在vue.config.js中。如果直接修改webpack的配置,方法类似。
  我们以修改 vue.config.js 为例:
  const PrerenderSPAPlugin = require('prerender-spa-plugin');
module.exports = {
...,
configureWebpack: {
...,
chainWebpack: config => {
config.plugin('prerender').use(PrerenderSPAPlugin, [
{
staticDir: path.join(__dirname, 'build'),
routes: [
'/',
'/product',
'/case',
'/about',
'/register',
],
renderer: new Renderer({
headless: true,
executablePath: '/Applications/Google Chrome.app/Contents/MacOS/Google Chrome',
// 在 main.js 中 document.dispatchEvent(new Event('render-event')),两者的事件名称要对应上。
renderAfterDocumentEvent: 'render-event',
}),
},
]);
}
}
}
  因为我们在项目中使用了 webpack-chain,所以我们的语法类似于上面的链调用方法。如果直接修改,就是使用Vue原有的修改配置方式。
  给大家简单介绍一下上面一些配置的含义:
  – Headless:是否使用headless模式进行渲染,建议选择true。
  - ExecutablePath:指定chrome的路径(也可以是chrome)。这个配置需要在talos中指定。talos 中的 chrome 地址默认为 /usr/bin/google-chrome。
  – RenderAfterDocumentEvent:这意味着在触发事件之后,执行预渲染。这个事件需要通过代码中的dispatchEvent来触发,这样可以控制预渲染的时间。通常,我们在最外层组件的已安装挂钩中触发。如果您有其他要求,也可以自行指定。
  有关更多信息,请参阅插件的官方文档。
  开发完成后,我们可以在本地构建,看看能不能生成符合我们预期的代码。
  Vue.config.js 指定 publicPath 导致预渲染失败
  如果你和我的项目一样,在vue.config.js中通过publicPath指定第三方CDN域名,然后CSS、JavaScript、Image等资源会转移到不同的域名。类似的配置如下:
  module.exports = {
...,
publicPath: `//awp-assets.cdn.net/${projectPath}`,
...,
};
  如果没有预渲染,这个方案打包完成后会上传到不同的CDN域名,在线访问是没有问题的。
  但是本地,此时CSS和JS资源还没有上传到CDN,浏览器无法加载相应的资源进行页面渲染。这将导致本地预渲染失败。
  为了解决这个问题,有两种解决方案。
  【推荐】调整打包策略,将非HTML资源上传到同一个CDN域名。在这种情况下,我们可以使用相对路径来访问这些资源,而无需将新域名传递给 publicPath,这样我们在本地构建时就可以访问这些值。这是一种更可靠、更合理的方法,更值得推荐。(如果上面的方法真的无法实现,那么可以考虑这个方案)在预渲染之前,资源是通过相对路径在本地访问的。这时候用替换方法替换html中的资源文件地址,然后进行预渲染。渲染后替换它。这种方法比较hacky,但经过实际验证确实有效。具体做法是自己写一个简单的webpack插件。
  首先,我们需要安装一个新的npm包来替换文件的内容(可以自己写正则规则,但是用这个会更方便),具体命令如下:
  mnpm i replace-in-file
  安装完成后,我们需要添加两个webpack插件分别作用于afterEmit和done这两个hook节点上。如果你想了解这两个hook节点为什么是这样,那么你可以阅读webpack插件的开发章节。
  const replace = require('replace-in-file');
let publicPath = `//awp-assets.cdn.net/${projectPath}`;
// 第1个替换插件,主要是将原先打包过程中带有CDN域名的路径替换成相对路径
function ReplacePathInHTMLPlugin1(cb) {
this.apply = compiler => {
if (compiler.hooks && compiler.hooks.afterEmit) {
compiler.hooks.afterEmit.tap('replace-url', cb);
}
};
}
function replacePluginCallback1() {
replace({
files: path.join(__dirname, '/build/**/*.html'),
from: new RegExp(
publicPath.replace(/([./])/g, (match, p1) => {
return `\\${p1}`;
}),
'g'
),
to: '',
})
.then(results => {
console.log('replace HTML static resources success', results);
})
.catch(e => {
console.log('replace HTML static resources fail', e);
});
}
// 第2个替换插件,主要是将预渲染后的HTML文件中的相对路径替换成带有CDN域名的路径
function ReplacePathInHTMLPlugin2(cb) {
this.apply = compiler => {
if (compiler.hooks && compiler.hooks.done) {
compiler.hooks.done.tap('replace-url', cb);
}
};
}
function replacePluginCallback2() {
replace({
files: path.join(__dirname, '/build/**/*.html'),
from: [/href="\/css/g, /href="\/js/g, /src="\/js/g, /href="\/favicon.ico"/g],
to: [
`href="${publicPath}/css`,
`href="${publicPath}/js`,
`src="${publicPath}/js`,
`href="${publicPath}/favicon.ico"`,
],
})
.then(results => {
console.log('replace HTML static resources success', results);
})
.catch(e => {
console.log('replace HTML static resources fail', e);
});
}
  以上代码就是我们需要添加的两个webpack替换插件和对应的回调函数。接下来我们看看如何在webpack中进行配置。
  module.exports = {
publicPath,
outputDir,
crossorigin: 'anonymous',
chainWebpack: config => {
config.plugin('replaceInHTML').use(new ReplacePathInHTMLPlugin1(replacePluginCallback));
config.plugin('prerender').use(PrerenderSPAPlugin, [
{
staticDir: path.join(__dirname, 'build'),
// 我们应该只会使用根路径,因为是hash路由,所以其他页面预渲染没有意义,因此不进行预渲染
routes: ['/'],
renderer: new Renderer({
headless: true,
executablePath: '/Applications/Google Chrome.app/Contents/MacOS/Google Chrome',
// 在 main.js 中 document.dispatchEvent(new Event('render-event')),两者的事件名称要对应上。
renderAfterDocumentEvent: 'render-event',
}),
},
]);
config.plugin('replaceInHTML2').use(new ReplacePathInHTMLPlugin2(replacePluginCallback2));
}
  我们的第一个替换插件需要在预渲染插件之前执行。在执行预渲染插件之前,将HTML中资源的地址替换为本地相对路径;第二个需要在替换后执行,以便将预渲染后端资源中的相对路径替换为CDN地址。
  通过这两个插件,我们可以通过在预渲染之前替换路径,然后在预渲染之后完成替换来完成预渲染,以保证在线可用性。
  本地验证
  通过上面的方法,我们应该已经得到了一个预渲染的HTML,接下来就要验证HTML是否符合预期。
  更简单的验证方式是直接访问HTML文件,或者启动一个HTTP静态资源服务来验证。
  为了验证,您可以使用 curl 发出请求。在这种情况下,将不会执行 JavaScript,您可以看到 HTML 源文件是什么。
  FAQ chrome版本比较低的时候(比如v73),会提示渲染失败?
  这是因为chrome的版本太低,导致预渲染失败。解决办法是将chrome/chromium版本升级到最新(目前v93没问题)版本。
  总结
  如果我们需要实现SSG(静态站点生成),那么我们可以使用prerender-spa-plugin插件,这个插件可以在本地启动chrome来抓取HTML内容,然后写回HTML文件,如果我们需要对静态资源文件进行处理,我们可以使用替换插件来替换处理前后的内容来满足我们的需求。
  虽然直接替换压缩代码看起来很有效,但它强烈依赖于压缩算法和内容顺序。强烈不建议直接用脚本修改和替换压缩文件。最好在 webpack 的 done hook 回调中处理。

chrome抓取网页插件(-spa-plugin插件预渲染的区别及解决方法)

网站优化优采云 发表了文章 • 0 个评论 • 69 次浏览 • 2021-09-30 08:13 • 来自相关话题

  chrome抓取网页插件(-spa-plugin插件预渲染的区别及解决方法)
  本文主要介绍使用prerender-spa-plugin对前端代码进行预渲染。
  预渲染(SSG)和服务端(SSR)渲染有一定的区别。如果你想了解,你可以阅读:。
  背景
  因为之前的网站是使用Vue开发的,这种前端JavaScript渲染开发模式对搜索引擎非常不友好,也没有办法抓取有效信息。因此,为了执行 SEO,我们需要预渲染页面。
  预渲染更适合静态页面或变化不大的页面。页面上的大部分内容都可以在部署前通过静态渲染进行渲染。这样,当搜索引擎在爬取时,就可以爬到相关的内容信息。
  现状
  商启通官网现状如下:
  目标
  希望通过预渲染,在第一次访问没有执行JavaScript时,页面可以携带足够的信息,即可以将JavaScript渲染的内容提前渲染成HTML。
  该版本预计不会进行太多更改。
  计划
  我们这次的计划主要是使用prerender-spa-plugin这个webpack插件来实现。
  它的主要原理是启动浏览器,渲染后抓取HTML,然后替换原来的HTML。
  我们需要实现预渲染,那么我们需要完成以下几件事:
  插件介绍和配置。本地验证。改变包装和施工过程。在线验证。
  下面,让我们一一谈谈我们如何做到这一点。
  插件介绍及配置
  首先,我们需要引入一个预渲染插件并执行命令:
  mnpm i prerender-spa-plugin -D
  这个命令除了安装插件本身,还要依赖puppeteer,然后puppeteer又依赖登陆的chromium,所以最后我们其实需要在依赖中安装一个chromium。
  如果安装puppeteer很慢或者经常失败,可以参考本文档中的方法:国内下载安装-Puppeteer-method/,指定puppeteer下载镜像。
  安装完成后,我们可以在webpack配置文件中添加相应的配置。
  如果你也在使用vue-cli,那么我们需要添加的配置在vue.config.js中。如果直接修改webpack的配置,方法类似。
  我们以修改 vue.config.js 为例:
  const PrerenderSPAPlugin = require('prerender-spa-plugin');
module.exports = {
...,
configureWebpack: {
...,
chainWebpack: config => {
config.plugin('prerender').use(PrerenderSPAPlugin, [
{
staticDir: path.join(__dirname, 'build'),
routes: [
'/',
'/product',
'/case',
'/about',
'/register',
],
renderer: new Renderer({
headless: true,
executablePath: '/Applications/Google Chrome.app/Contents/MacOS/Google Chrome',
// 在 main.js 中 document.dispatchEvent(new Event('render-event')),两者的事件名称要对应上。
renderAfterDocumentEvent: 'render-event',
}),
},
]);
}
}
}
  因为我们在项目中使用了 webpack-chain,所以我们的语法类似于上面的链调用方法。如果直接修改,就是使用Vue原有的修改配置方式。
  给大家简单介绍一下上面一些配置的含义:
  -headless:是否使用headless模式进行渲染,建议选择true。
  -executablePath:指定chrome的路径(也可以是chrome)。这个配置需要在talos中指定。talos 中的 chrome 地址默认为 /usr/bin/google-chrome。
  -renderAfterDocumentEvent:这意味着在触发事件之后,执行预渲染。这个事件需要通过代码中的dispatchEvent来触发,这样可以控制预渲染的时间。通常,我们在最外层组件的已安装挂钩中触发。如果您有其他要求,也可以自行指定。
  有关更多信息,请参阅插件的官方文档。
  开发完成后,我们可以在本地构建,看看能不能生成符合我们预期的代码。
  Vue.config.js 指定 publicPath 导致预渲染失败
  如果你和我的项目一样,在vue.config.js中通过publicPath指定第三方CDN域名,然后CSS、JavaScript、Image等资源会转移到不同的域名。类似的配置如下:
  module.exports = {
...,
publicPath: `//awp-assets.cdn.net/${projectPath}`,
...,
};
  如果没有预渲染,这个方案打包完成后会上传到不同的CDN域名,在线访问是没有问题的。
  但是本地,此时CSS和JS资源还没有上传到CDN,浏览器无法加载相应的资源进行页面渲染。这将导致本地预渲染失败。
  为了解决这个问题,有两种解决方案。
  【推荐】调整打包策略,将非HTML资源上传到同一个CDN域名。在这种情况下,我们可以使用相对路径来访问这些资源,而无需将新域名传递给 publicPath,这样我们在本地构建时就可以访问这些值。这是一种更可靠、更合理的方法,更值得推荐。(如果上面的方法真的无法实现,那么可以考虑这个方案)在预渲染之前,资源是通过相对路径在本地访问的。这时候用替换方法替换html中的资源文件地址,然后进行预渲染。渲染后替换它。这种方法比较hacky,但经过实际验证确实有效。具体做法是自己写一个简单的webpack插件。
  首先,我们需要安装一个新的npm包来替换文件的内容(可以自己写正则规则,但是用这个会更方便),具体命令如下:
  安装完成后,我们需要添加两个webpack插件分别作用于afterEmit和done这两个hook节点上。如果你想了解这两个hook节点为什么是这样,那么你可以阅读webpack插件的开发章节。
  const replace = require('replace-in-file');
let publicPath = `//awp-assets.cdn.net/${projectPath}`;
// 第1个替换插件,主要是将原先打包过程中带有CDN域名的路径替换成相对路径
function ReplacePathInHTMLPlugin1(cb) {
this.apply = compiler => {
if (compiler.hooks && compiler.hooks.afterEmit) {
compiler.hooks.afterEmit.tap('replace-url', cb);
}
};
}
function replacePluginCallback1() {
replace({
files: path.join(__dirname, '/build/**/*.html'),
from: new RegExp(
publicPath.replace(/([./])/g, (match, p1) => {
return `\\${p1}`;
}),
'g'
),
to: '',
})
.then(results => {
console.log('replace HTML static resources success', results);
})
.catch(e => {
console.log('replace HTML static resources fail', e);
});
}
// 第2个替换插件,主要是将预渲染后的HTML文件中的相对路径替换成带有CDN域名的路径
function ReplacePathInHTMLPlugin2(cb) {
this.apply = compiler => {
if (compiler.hooks && compiler.hooks.done) {
compiler.hooks.done.tap('replace-url', cb);
}
};
}
function replacePluginCallback2() {
replace({
files: path.join(__dirname, '/build/**/*.html'),
from: [/href="\/css/g, /href="\/js/g, /src="\/js/g, /href="\/favicon.ico"/g],
to: [
`href="${publicPath}/css`,
`href="${publicPath}/js`,
`src="${publicPath}/js`,
`href="${publicPath}/favicon.ico"`,
],
})
.then(results => {
console.log('replace HTML static resources success', results);
})
.catch(e => {
console.log('replace HTML static resources fail', e);
});
}
  以上代码就是我们需要添加的两个webpack替换插件和对应的回调函数。接下来我们看看如何在webpack中进行配置。
  module.exports = {
publicPath,
outputDir,
crossorigin: 'anonymous',
chainWebpack: config => {
config.plugin('replaceInHTML').use(new ReplacePathInHTMLPlugin1(replacePluginCallback));
config.plugin('prerender').use(PrerenderSPAPlugin, [
{
staticDir: path.join(__dirname, 'build'),
// 我们应该只会使用根路径,因为是hash路由,所以其他页面预渲染没有意义,因此不进行预渲染
routes: ['/'],
renderer: new Renderer({
headless: true,
executablePath: '/Applications/Google Chrome.app/Contents/MacOS/Google Chrome',
// 在 main.js 中 document.dispatchEvent(new Event('render-event')),两者的事件名称要对应上。
renderAfterDocumentEvent: 'render-event',
}),
},
]);
config.plugin('replaceInHTML2').use(new ReplacePathInHTMLPlugin2(replacePluginCallback2));
}
  我们的第一个替换插件需要在预渲染插件之前执行。在执行预渲染插件之前,将HTML中资源的地址替换为本地相对路径;第二个需要在替换后执行,以便将预渲染后端资源中的相对路径替换为CDN地址。
  通过这两个插件,我们可以通过在预渲染之前替换路径,然后在预渲染之后完成替换来完成预渲染,以保证在线可用性。
  本地验证
  通过上面的方法,我们应该已经得到了一个预渲染的HTML,接下来就要验证HTML是否符合预期。
  更简单的验证方式是直接访问HTML文件,或者启动一个HTTP静态资源服务来验证。
  为了验证,您可以使用 curl 发出请求。在这种情况下,将不会执行 JavaScript,您可以看到 HTML 源文件是什么。
  FAQ chrome版本比较低的时候(比如v73),会提示渲染失败?
  这是因为chrome的版本太低,导致预渲染失败。解决办法是将chrome/chromium版本升级到最新(目前v93没问题)版本。
  总结
  如果我们需要实现SSG(静态站点生成),那么我们可以使用prerender-spa-plugin插件,这个插件可以在本地启动chrome来抓取HTML内容,然后写回HTML文件,如果我们需要对静态资源文件进行处理,我们可以使用替换插件来替换处理前后的内容来满足我们的需求。
  虽然直接替换压缩代码看起来很有效,但它强烈依赖于压缩算法和内容顺序。强烈不建议直接用脚本修改和替换压缩文件。最好在 webpack 的 done hook 回调中处理。 查看全部

  chrome抓取网页插件(-spa-plugin插件预渲染的区别及解决方法)
  本文主要介绍使用prerender-spa-plugin对前端代码进行预渲染。
  预渲染(SSG)和服务端(SSR)渲染有一定的区别。如果你想了解,你可以阅读:。
  背景
  因为之前的网站是使用Vue开发的,这种前端JavaScript渲染开发模式对搜索引擎非常不友好,也没有办法抓取有效信息。因此,为了执行 SEO,我们需要预渲染页面。
  预渲染更适合静态页面或变化不大的页面。页面上的大部分内容都可以在部署前通过静态渲染进行渲染。这样,当搜索引擎在爬取时,就可以爬到相关的内容信息。
  现状
  商启通官网现状如下:
  目标
  希望通过预渲染,在第一次访问没有执行JavaScript时,页面可以携带足够的信息,即可以将JavaScript渲染的内容提前渲染成HTML。
  该版本预计不会进行太多更改。
  计划
  我们这次的计划主要是使用prerender-spa-plugin这个webpack插件来实现。
  它的主要原理是启动浏览器,渲染后抓取HTML,然后替换原来的HTML。
  我们需要实现预渲染,那么我们需要完成以下几件事:
  插件介绍和配置。本地验证。改变包装和施工过程。在线验证。
  下面,让我们一一谈谈我们如何做到这一点。
  插件介绍及配置
  首先,我们需要引入一个预渲染插件并执行命令:
  mnpm i prerender-spa-plugin -D
  这个命令除了安装插件本身,还要依赖puppeteer,然后puppeteer又依赖登陆的chromium,所以最后我们其实需要在依赖中安装一个chromium。
  如果安装puppeteer很慢或者经常失败,可以参考本文档中的方法:国内下载安装-Puppeteer-method/,指定puppeteer下载镜像。
  安装完成后,我们可以在webpack配置文件中添加相应的配置。
  如果你也在使用vue-cli,那么我们需要添加的配置在vue.config.js中。如果直接修改webpack的配置,方法类似。
  我们以修改 vue.config.js 为例:
  const PrerenderSPAPlugin = require('prerender-spa-plugin');
module.exports = {
...,
configureWebpack: {
...,
chainWebpack: config => {
config.plugin('prerender').use(PrerenderSPAPlugin, [
{
staticDir: path.join(__dirname, 'build'),
routes: [
'/',
'/product',
'/case',
'/about',
'/register',
],
renderer: new Renderer({
headless: true,
executablePath: '/Applications/Google Chrome.app/Contents/MacOS/Google Chrome',
// 在 main.js 中 document.dispatchEvent(new Event('render-event')),两者的事件名称要对应上。
renderAfterDocumentEvent: 'render-event',
}),
},
]);
}
}
}
  因为我们在项目中使用了 webpack-chain,所以我们的语法类似于上面的链调用方法。如果直接修改,就是使用Vue原有的修改配置方式。
  给大家简单介绍一下上面一些配置的含义:
  -headless:是否使用headless模式进行渲染,建议选择true。
  -executablePath:指定chrome的路径(也可以是chrome)。这个配置需要在talos中指定。talos 中的 chrome 地址默认为 /usr/bin/google-chrome。
  -renderAfterDocumentEvent:这意味着在触发事件之后,执行预渲染。这个事件需要通过代码中的dispatchEvent来触发,这样可以控制预渲染的时间。通常,我们在最外层组件的已安装挂钩中触发。如果您有其他要求,也可以自行指定。
  有关更多信息,请参阅插件的官方文档。
  开发完成后,我们可以在本地构建,看看能不能生成符合我们预期的代码。
  Vue.config.js 指定 publicPath 导致预渲染失败
  如果你和我的项目一样,在vue.config.js中通过publicPath指定第三方CDN域名,然后CSS、JavaScript、Image等资源会转移到不同的域名。类似的配置如下:
  module.exports = {
...,
publicPath: `//awp-assets.cdn.net/${projectPath}`,
...,
};
  如果没有预渲染,这个方案打包完成后会上传到不同的CDN域名,在线访问是没有问题的。
  但是本地,此时CSS和JS资源还没有上传到CDN,浏览器无法加载相应的资源进行页面渲染。这将导致本地预渲染失败。
  为了解决这个问题,有两种解决方案。
  【推荐】调整打包策略,将非HTML资源上传到同一个CDN域名。在这种情况下,我们可以使用相对路径来访问这些资源,而无需将新域名传递给 publicPath,这样我们在本地构建时就可以访问这些值。这是一种更可靠、更合理的方法,更值得推荐。(如果上面的方法真的无法实现,那么可以考虑这个方案)在预渲染之前,资源是通过相对路径在本地访问的。这时候用替换方法替换html中的资源文件地址,然后进行预渲染。渲染后替换它。这种方法比较hacky,但经过实际验证确实有效。具体做法是自己写一个简单的webpack插件。
  首先,我们需要安装一个新的npm包来替换文件的内容(可以自己写正则规则,但是用这个会更方便),具体命令如下:
  安装完成后,我们需要添加两个webpack插件分别作用于afterEmit和done这两个hook节点上。如果你想了解这两个hook节点为什么是这样,那么你可以阅读webpack插件的开发章节。
  const replace = require('replace-in-file');
let publicPath = `//awp-assets.cdn.net/${projectPath}`;
// 第1个替换插件,主要是将原先打包过程中带有CDN域名的路径替换成相对路径
function ReplacePathInHTMLPlugin1(cb) {
this.apply = compiler => {
if (compiler.hooks && compiler.hooks.afterEmit) {
compiler.hooks.afterEmit.tap('replace-url', cb);
}
};
}
function replacePluginCallback1() {
replace({
files: path.join(__dirname, '/build/**/*.html'),
from: new RegExp(
publicPath.replace(/([./])/g, (match, p1) => {
return `\\${p1}`;
}),
'g'
),
to: '',
})
.then(results => {
console.log('replace HTML static resources success', results);
})
.catch(e => {
console.log('replace HTML static resources fail', e);
});
}
// 第2个替换插件,主要是将预渲染后的HTML文件中的相对路径替换成带有CDN域名的路径
function ReplacePathInHTMLPlugin2(cb) {
this.apply = compiler => {
if (compiler.hooks && compiler.hooks.done) {
compiler.hooks.done.tap('replace-url', cb);
}
};
}
function replacePluginCallback2() {
replace({
files: path.join(__dirname, '/build/**/*.html'),
from: [/href="\/css/g, /href="\/js/g, /src="\/js/g, /href="\/favicon.ico"/g],
to: [
`href="${publicPath}/css`,
`href="${publicPath}/js`,
`src="${publicPath}/js`,
`href="${publicPath}/favicon.ico"`,
],
})
.then(results => {
console.log('replace HTML static resources success', results);
})
.catch(e => {
console.log('replace HTML static resources fail', e);
});
}
  以上代码就是我们需要添加的两个webpack替换插件和对应的回调函数。接下来我们看看如何在webpack中进行配置。
  module.exports = {
publicPath,
outputDir,
crossorigin: 'anonymous',
chainWebpack: config => {
config.plugin('replaceInHTML').use(new ReplacePathInHTMLPlugin1(replacePluginCallback));
config.plugin('prerender').use(PrerenderSPAPlugin, [
{
staticDir: path.join(__dirname, 'build'),
// 我们应该只会使用根路径,因为是hash路由,所以其他页面预渲染没有意义,因此不进行预渲染
routes: ['/'],
renderer: new Renderer({
headless: true,
executablePath: '/Applications/Google Chrome.app/Contents/MacOS/Google Chrome',
// 在 main.js 中 document.dispatchEvent(new Event('render-event')),两者的事件名称要对应上。
renderAfterDocumentEvent: 'render-event',
}),
},
]);
config.plugin('replaceInHTML2').use(new ReplacePathInHTMLPlugin2(replacePluginCallback2));
}
  我们的第一个替换插件需要在预渲染插件之前执行。在执行预渲染插件之前,将HTML中资源的地址替换为本地相对路径;第二个需要在替换后执行,以便将预渲染后端资源中的相对路径替换为CDN地址。
  通过这两个插件,我们可以通过在预渲染之前替换路径,然后在预渲染之后完成替换来完成预渲染,以保证在线可用性。
  本地验证
  通过上面的方法,我们应该已经得到了一个预渲染的HTML,接下来就要验证HTML是否符合预期。
  更简单的验证方式是直接访问HTML文件,或者启动一个HTTP静态资源服务来验证。
  为了验证,您可以使用 curl 发出请求。在这种情况下,将不会执行 JavaScript,您可以看到 HTML 源文件是什么。
  FAQ chrome版本比较低的时候(比如v73),会提示渲染失败?
  这是因为chrome的版本太低,导致预渲染失败。解决办法是将chrome/chromium版本升级到最新(目前v93没问题)版本。
  总结
  如果我们需要实现SSG(静态站点生成),那么我们可以使用prerender-spa-plugin插件,这个插件可以在本地启动chrome来抓取HTML内容,然后写回HTML文件,如果我们需要对静态资源文件进行处理,我们可以使用替换插件来替换处理前后的内容来满足我们的需求。
  虽然直接替换压缩代码看起来很有效,但它强烈依赖于压缩算法和内容顺序。强烈不建议直接用脚本修改和替换压缩文件。最好在 webpack 的 done hook 回调中处理。

chrome抓取网页插件(PicMonkeyExtensionChrome插件轻松抓取您所在网页上的所有图片 )

网站优化优采云 发表了文章 • 0 个评论 • 408 次浏览 • 2021-09-29 19:25 • 来自相关话题

  chrome抓取网页插件(PicMonkeyExtensionChrome插件轻松抓取您所在网页上的所有图片
)
  PicMonkey Extension 是一个基于谷歌浏览器的插件。该插件可以实现网页图片抓取功能,您可以轻松抓取网页上的所有图片,并在PicMonkey中打开进行编辑。非常实用。
  
  软件说明
  PicMonkey Extension Chrome插件是一款非常不错的Chrome网页图片抓取插件。它可以轻松抓取您网页上的所有图片,并在PicMonkey 官方网站 上编辑图片。这是一个非常好的插件。
  特征
  1、PicMonkey 插件允许您立即从任何网页抓取图像并在 PicMonkey 中打开它们进行编辑。
  2、PicMonkey 是一个免费的在线照片编辑器。
  3、PicMonkey 在线编辑器的精简和快速引擎允许您执行基本编辑,例如裁剪和旋转,并使用颜色效果、叠加、字体、纹理、框架和触摸工具增强您的图像。
  指示
  1、编辑器使用chrome浏览器。首先在标签页输入【chrome://extensions/】进入chrome扩展,将你在本页下载的PicMonkey插件解压,拖入扩展页面。能。
  
  2、安装完成后,试试插件效果。
  
  3、 进入网页后,点击界面右上角的插件图标,可以抓取页面上的所有图片。
  
  4、 点击需要的图片后,可以在PicMonkey在线图片编辑网页对点击的图片进行编辑。
   查看全部

  chrome抓取网页插件(PicMonkeyExtensionChrome插件轻松抓取您所在网页上的所有图片
)
  PicMonkey Extension 是一个基于谷歌浏览器的插件。该插件可以实现网页图片抓取功能,您可以轻松抓取网页上的所有图片,并在PicMonkey中打开进行编辑。非常实用。
  
  软件说明
  PicMonkey Extension Chrome插件是一款非常不错的Chrome网页图片抓取插件。它可以轻松抓取您网页上的所有图片,并在PicMonkey 官方网站 上编辑图片。这是一个非常好的插件。
  特征
  1、PicMonkey 插件允许您立即从任何网页抓取图像并在 PicMonkey 中打开它们进行编辑。
  2、PicMonkey 是一个免费的在线照片编辑器。
  3、PicMonkey 在线编辑器的精简和快速引擎允许您执行基本编辑,例如裁剪和旋转,并使用颜色效果、叠加、字体、纹理、框架和触摸工具增强您的图像。
  指示
  1、编辑器使用chrome浏览器。首先在标签页输入【chrome://extensions/】进入chrome扩展,将你在本页下载的PicMonkey插件解压,拖入扩展页面。能。
  
  2、安装完成后,试试插件效果。
  
  3、 进入网页后,点击界面右上角的插件图标,可以抓取页面上的所有图片。
  
  4、 点击需要的图片后,可以在PicMonkey在线图片编辑网页对点击的图片进行编辑。
  

chrome抓取网页插件(几个非常实用功能却非常强大的谷歌浏览器插件,会让你的工作效率提高很多很多)

网站优化优采云 发表了文章 • 0 个评论 • 289 次浏览 • 2021-09-26 15:04 • 来自相关话题

  chrome抓取网页插件(几个非常实用功能却非常强大的谷歌浏览器插件,会让你的工作效率提高很多很多)
  今天给大家介绍几个非常好用但功能非常强大的谷歌浏览器插件,无论你是开发外贸B端客户,还是寻找Youtube或Instagram名人,都会大大提高你的工作效率。
  插件安装在谷歌应用商店,链接地址为
  首先,Seoquake插件是SEO的神器,而且是免费的,功能非常非常强大。
  短链地址:
  Seoquake插件功能是我最常用的一个。功能非常非常强大。它可以捕获多维度的数据,提供关键的 SEO 指标,以及其他有用的工具,例如 SEO 审计等。
  
  
  
  ★检查所有主要指标
  ★全面分析SERP并以CSV格式导出结果
  ★即时评估关键字难度
  ★设置搜索查询参数
  ★完整的网页SEO审核,包括检查手机兼容性
  ★查看您在 Facebook 和 Google+ 上的社交统计数据
  ★使用各种默认参数或创建自定义设置
  ★获取完整的内/外链接报告
  ★确定关键词密度,配置停用词列表
  ★比较网址/域名
  安装 Seoquake 插件后,在 Google 上搜索时会发现上面提到的以下主要关键指标。请勾选下图中红框,里面有排名,sermush外链,这个网站展示广告,whois等,安装后可以点击查看。
  
  其实最常用的就是左栏的Export CSV按钮,也就是可以把你的搜索结果批量导出为Excel表格。这个真的很省时,一一保存点击网站你在开发外贸客户或者找名人信息的时候。
  比如我想找一个做过手机开箱评测的YouTube网红,在搜索框中输入以下内容,site命令表示该网站之前的搜索结果会出现在域名中网站后的网址
  智能手机评论网站:
  搜索设置中每页可显示100条搜索结果,一次导出10条搜索内容
  
  您还可以单击高级搜索,添加一些国家、时间、语言、文件类型和其他限定符。当然,您也可以添加精确搜索或广泛搜索。让我们用最简单的搜索来看看如何搜索。结果被导出。
  
  我们点击左栏的Export CSV按钮,导出的是youtube上已经测试过的名人视频的链接,如下图:
  看起来很乱。使用Excel表格中的数据来整理红框的内容。可以看到双引号""在前面,双引号作为列字符。
  
  点击数据按钮-列按钮,如下图:
  
  
  其他人在这里输入双引号"
  
  可以看到数据已经单独列出来了,是很正规的数据
  
  
  然后点击完成,就会出现上面的Excel表格。可以看到链接很整齐,不凌乱,然后复制这些链接打开,找到youtube名人对应的信息。比如打开第一个链接的视频在下面这个youtube名人评测,你可以去他的关于信息栏看看有没有留下联系方式
  
  
  关于youtube名人的具体更详细的信息请参考前面的文章,我写的很详细文章
  如何快速找到 YouTube 名人 (一)
  如何快速找到 YouTube 名人 (二)
  这里还有一点需要注意的是,如果你在谷歌上搜索外贸B2B客户,不设置site命令,会有很多域名不是.com结尾,有的可能是co.uk。cn等,除了归类的方法,还有一种方法,就是快速删除域名后面的内容。
  例如,如果我要搜索海外智能手表的供应商或分销商,请输入以下内容
  智能手表供应商或分销商
  需要注意的是,我在这里是为了演示如何使用Seoquake插件工具。真正用谷歌搜索开发外贸客户。我需要添加很多限定符并排除国内供应商。以后会具体讲讲如何利用谷歌搜索开发外贸客户。
  下面是导出的结果,感觉比较混乱吧?接下来告诉你如果快速删除域名后面的内容,其实很简单,CTRL+F,然后点replace
  
  并在框中输入以下内容,点击“全部替换”删除域名后面的内容
  
  
  有些域名不以 .com 结尾。操作方法是一样的。只需使用 CTRL+F 并将它们全部替换。比如有很多co.uk区以in结尾,只要在框内输入把内容去掉就行了。
  
  现在您可以一次出口 100 家智能手表供应商。你可以安装这个方法导出谷歌第二、​​三、十页的搜索结果,这样智能手表就有1000块了。然后供应商删除重复项,批量开发这些网站客户,大大提高了效率。
  批量开发这些导出的域名有多种方式。有根据批量输入的域名抓取邮箱的工具,也可以使用一些插件批量导出。这就是我们接下来要讲的猎人插件。
  需要注意的是,例如,当谷歌搜索结果显示数十万条数据时,我们只能看到前1000条数据,其余的都是不可见的。
  二、猎人插件,找客户网站邮箱神器
  Hunter 也是一个经常使用的插件。它也非常方便和强大。找客户邮箱是神器。插件短链:
  
  如果你认识客户网站,除了查看客户的联系方式网站关于或联系我们网站,还可以直接使用猎人插件,只要打开客户网站,点击猎人插件,会自动抓取邮箱,下图为示例
  一般邮箱背面有绿色圆圈的logo就是已经验证过的邮箱,可信度还是挺高的。
  
  点击后面的源码按钮,还可以看到爬取了哪些网页,可以点击试试
  
  也可以打开猎人网页,输入域名只能查询邮箱,如下图,可以根据需要保存对应的邮箱。
  除了根据域名搜索邮箱,猎人还可以验证邮箱的准确性,批量导入域名或邮箱进行验证
  
  单击验证器按钮并输入您刚刚找到的电子邮件地址进行尝试。以下验证结果有效。
  
  还有批量验证验证邮件和批量获取邮件。需要注意的是,猎人每月有100次免费机会。超过了就要付费,但是一个月100次可以满足大多数人的需求。
  
  好了,今天就写到这里。我会继续介绍一些我经常使用的非常强大的谷歌插件工具。欢迎大家继续关注。 查看全部

  chrome抓取网页插件(几个非常实用功能却非常强大的谷歌浏览器插件,会让你的工作效率提高很多很多)
  今天给大家介绍几个非常好用但功能非常强大的谷歌浏览器插件,无论你是开发外贸B端客户,还是寻找Youtube或Instagram名人,都会大大提高你的工作效率。
  插件安装在谷歌应用商店,链接地址为
  首先,Seoquake插件是SEO的神器,而且是免费的,功能非常非常强大。
  短链地址:
  Seoquake插件功能是我最常用的一个。功能非常非常强大。它可以捕获多维度的数据,提供关键的 SEO 指标,以及其他有用的工具,例如 SEO 审计等。
  
  
  
  ★检查所有主要指标
  ★全面分析SERP并以CSV格式导出结果
  ★即时评估关键字难度
  ★设置搜索查询参数
  ★完整的网页SEO审核,包括检查手机兼容性
  ★查看您在 Facebook 和 Google+ 上的社交统计数据
  ★使用各种默认参数或创建自定义设置
  ★获取完整的内/外链接报告
  ★确定关键词密度,配置停用词列表
  ★比较网址/域名
  安装 Seoquake 插件后,在 Google 上搜索时会发现上面提到的以下主要关键指标。请勾选下图中红框,里面有排名,sermush外链,这个网站展示广告,whois等,安装后可以点击查看。
  
  其实最常用的就是左栏的Export CSV按钮,也就是可以把你的搜索结果批量导出为Excel表格。这个真的很省时,一一保存点击网站你在开发外贸客户或者找名人信息的时候。
  比如我想找一个做过手机开箱评测的YouTube网红,在搜索框中输入以下内容,site命令表示该网站之前的搜索结果会出现在域名中网站后的网址
  智能手机评论网站:
  搜索设置中每页可显示100条搜索结果,一次导出10条搜索内容
  
  您还可以单击高级搜索,添加一些国家、时间、语言、文件类型和其他限定符。当然,您也可以添加精确搜索或广泛搜索。让我们用最简单的搜索来看看如何搜索。结果被导出。
  
  我们点击左栏的Export CSV按钮,导出的是youtube上已经测试过的名人视频的链接,如下图:
  看起来很乱。使用Excel表格中的数据来整理红框的内容。可以看到双引号""在前面,双引号作为列字符。
  
  点击数据按钮-列按钮,如下图:
  
  
  其他人在这里输入双引号"
  
  可以看到数据已经单独列出来了,是很正规的数据
  
  
  然后点击完成,就会出现上面的Excel表格。可以看到链接很整齐,不凌乱,然后复制这些链接打开,找到youtube名人对应的信息。比如打开第一个链接的视频在下面这个youtube名人评测,你可以去他的关于信息栏看看有没有留下联系方式
  
  
  关于youtube名人的具体更详细的信息请参考前面的文章,我写的很详细文章
  如何快速找到 YouTube 名人 (一)
  如何快速找到 YouTube 名人 (二)
  这里还有一点需要注意的是,如果你在谷歌上搜索外贸B2B客户,不设置site命令,会有很多域名不是.com结尾,有的可能是co.uk。cn等,除了归类的方法,还有一种方法,就是快速删除域名后面的内容。
  例如,如果我要搜索海外智能手表的供应商或分销商,请输入以下内容
  智能手表供应商或分销商
  需要注意的是,我在这里是为了演示如何使用Seoquake插件工具。真正用谷歌搜索开发外贸客户。我需要添加很多限定符并排除国内供应商。以后会具体讲讲如何利用谷歌搜索开发外贸客户。
  下面是导出的结果,感觉比较混乱吧?接下来告诉你如果快速删除域名后面的内容,其实很简单,CTRL+F,然后点replace
  
  并在框中输入以下内容,点击“全部替换”删除域名后面的内容
  
  
  有些域名不以 .com 结尾。操作方法是一样的。只需使用 CTRL+F 并将它们全部替换。比如有很多co.uk区以in结尾,只要在框内输入把内容去掉就行了。
  
  现在您可以一次出口 100 家智能手表供应商。你可以安装这个方法导出谷歌第二、​​三、十页的搜索结果,这样智能手表就有1000块了。然后供应商删除重复项,批量开发这些网站客户,大大提高了效率。
  批量开发这些导出的域名有多种方式。有根据批量输入的域名抓取邮箱的工具,也可以使用一些插件批量导出。这就是我们接下来要讲的猎人插件。
  需要注意的是,例如,当谷歌搜索结果显示数十万条数据时,我们只能看到前1000条数据,其余的都是不可见的。
  二、猎人插件,找客户网站邮箱神器
  Hunter 也是一个经常使用的插件。它也非常方便和强大。找客户邮箱是神器。插件短链:
  
  如果你认识客户网站,除了查看客户的联系方式网站关于或联系我们网站,还可以直接使用猎人插件,只要打开客户网站,点击猎人插件,会自动抓取邮箱,下图为示例
  一般邮箱背面有绿色圆圈的logo就是已经验证过的邮箱,可信度还是挺高的。
  
  点击后面的源码按钮,还可以看到爬取了哪些网页,可以点击试试
  
  也可以打开猎人网页,输入域名只能查询邮箱,如下图,可以根据需要保存对应的邮箱。
  除了根据域名搜索邮箱,猎人还可以验证邮箱的准确性,批量导入域名或邮箱进行验证
  
  单击验证器按钮并输入您刚刚找到的电子邮件地址进行尝试。以下验证结果有效。
  
  还有批量验证验证邮件和批量获取邮件。需要注意的是,猎人每月有100次免费机会。超过了就要付费,但是一个月100次可以满足大多数人的需求。
  
  好了,今天就写到这里。我会继续介绍一些我经常使用的非常强大的谷歌插件工具。欢迎大家继续关注。

chrome抓取网页插件(百度idle抓取网页插件的方法和方法抓取插件)

网站优化优采云 发表了文章 • 0 个评论 • 88 次浏览 • 2021-09-25 09:07 • 来自相关话题

  chrome抓取网页插件(百度idle抓取网页插件的方法和方法抓取插件)
  chrome抓取网页插件很多,可以尝试去下载一个专门插件进行抓取,抓取的时候对ua也要进行识别,另外安装完了还要配置。就是麻烦一点。
  可以试试我家开发的idm抓取器
  安装一个idle吧,我也在用,挺好用的,推荐给你,具体方法百度idle。
  adobeacrobatprox
  1,试试把adblockplus用chrome替换掉2,实在不行找一个有postman的网站抓取一下,postman可以实现网页之间的contenttransfer。也可以用它来接受getpost和postmessage以及htmlmeta标签里所包含的postmessage。
  postman配合googleappengine查看抓取页面的内容。缺点是某些站点有时无法打开。
  chrome插件"抓取器"
  可以试试我发现的一个谷歌助手
  如果可以的话,
  这不是不会吗,有很多方法啊,就我知道的有快车,快车比较好用,wifi自动抓取手机抓取快车抓取,你如果需要电脑可以用手机端的,接口开放,然后手机挂在谷歌上面可以抓取, 查看全部

  chrome抓取网页插件(百度idle抓取网页插件的方法和方法抓取插件)
  chrome抓取网页插件很多,可以尝试去下载一个专门插件进行抓取,抓取的时候对ua也要进行识别,另外安装完了还要配置。就是麻烦一点。
  可以试试我家开发的idm抓取器
  安装一个idle吧,我也在用,挺好用的,推荐给你,具体方法百度idle。
  adobeacrobatprox
  1,试试把adblockplus用chrome替换掉2,实在不行找一个有postman的网站抓取一下,postman可以实现网页之间的contenttransfer。也可以用它来接受getpost和postmessage以及htmlmeta标签里所包含的postmessage。
  postman配合googleappengine查看抓取页面的内容。缺点是某些站点有时无法打开。
  chrome插件"抓取器"
  可以试试我发现的一个谷歌助手
  如果可以的话,
  这不是不会吗,有很多方法啊,就我知道的有快车,快车比较好用,wifi自动抓取手机抓取快车抓取,你如果需要电脑可以用手机端的,接口开放,然后手机挂在谷歌上面可以抓取,

chrome抓取网页插件(微信读书epubmobi刷屏神器,使用非常简单(图))

网站优化优采云 发表了文章 • 0 个评论 • 283 次浏览 • 2021-09-15 01:05 • 来自相关话题

  chrome抓取网页插件(微信读书epubmobi刷屏神器,使用非常简单(图))
  chrome抓取网页插件现在可以自动爬取网页了,但是一方面的确需要插件带量,另一方面使用太麻烦,可以试试这个插件!很小的插件,非常方便:。微信读书爬取阅读最新的书籍插件,插件被大家称为它“微信读书epub&mobi刷屏神器”,使用非常简单!微信读书、知乎、豆瓣都可以刷!天天读书ios的应用哦,不过要会员了!qq音乐安卓版的widget,也支持下载歌曲!网易云音乐在widget上,也支持下载歌曲,挺棒的!chrome插件:bt必备:bt大全在百度和搜狗输入法下面同样可以使用bt转换下载!。
  【rx】,这是switchyomega基本款。知乎精选,懂得自然懂,不懂也没有关系,作为最近开始利用bilibili听歌的用户,真的有很多很多很多很多优秀的小众音乐,oeasy老师算得上是其中之一,百分之六十都是无损的。我发现这不是bilibili的问题,而是不同地区不同运营商不同区域连接bilibili速度都差不多,导致的结果就是bilibili的音乐往往不能直接下载使用,甚至在网络不稳定或者百度和搜狗输入法不给力的情况下,下载进度永远只能停留在n。
  chrome的bilibili浏览器插件,可以在chrome中用bilibili浏览器在线观看各种番剧,app也可以用浏览器里的搜索功能直接搜自己想看的番剧。 查看全部

  chrome抓取网页插件(微信读书epubmobi刷屏神器,使用非常简单(图))
  chrome抓取网页插件现在可以自动爬取网页了,但是一方面的确需要插件带量,另一方面使用太麻烦,可以试试这个插件!很小的插件,非常方便:。微信读书爬取阅读最新的书籍插件,插件被大家称为它“微信读书epub&mobi刷屏神器”,使用非常简单!微信读书、知乎、豆瓣都可以刷!天天读书ios的应用哦,不过要会员了!qq音乐安卓版的widget,也支持下载歌曲!网易云音乐在widget上,也支持下载歌曲,挺棒的!chrome插件:bt必备:bt大全在百度和搜狗输入法下面同样可以使用bt转换下载!。
  【rx】,这是switchyomega基本款。知乎精选,懂得自然懂,不懂也没有关系,作为最近开始利用bilibili听歌的用户,真的有很多很多很多很多优秀的小众音乐,oeasy老师算得上是其中之一,百分之六十都是无损的。我发现这不是bilibili的问题,而是不同地区不同运营商不同区域连接bilibili速度都差不多,导致的结果就是bilibili的音乐往往不能直接下载使用,甚至在网络不稳定或者百度和搜狗输入法不给力的情况下,下载进度永远只能停留在n。
  chrome的bilibili浏览器插件,可以在chrome中用bilibili浏览器在线观看各种番剧,app也可以用浏览器里的搜索功能直接搜自己想看的番剧。

chrome抓取网页插件(爬取:1.Chrome浏览器;2.插件:WebScraper插件下载地址)

网站优化优采云 发表了文章 • 0 个评论 • 87 次浏览 • 2021-09-12 04:07 • 来自相关话题

  chrome抓取网页插件(爬取:1.Chrome浏览器;2.插件:WebScraper插件下载地址)
  做电商的时候,消费者对产品的评价很重要,但是如果你不会写代码怎么办?有一个Chrome插件,不用写一行代码,就可以做简单的数据爬取。下面显示了一些捕获的数据:
  
  可以看到抓取到的地址、评论者、评论内容、时间、商品颜色都被抓取了。那么,需要哪些工具来抓取这些数据呢?只有两个:
  1. Chrome 浏览器;
  2. 插件:网络爬虫
  插件下载链接:
  最后,如果你想自己抢,这里是这次抢的详细过程:
  1. 首先复制以下代码。是的,您不需要编写代码,但是为了开始,仍然需要复制代码。以后可以自己自定义选择,不用写代码。
  {
  "_id": "jdreview",
  "startUrl": [
  ""
  ],
  “选择器”:[
  {
  "id": "用户",
  "type": "SelectorText",
  "selector": "div.user-info",
  “父选择器”:[
  “主要”
  ],
  "multiple": false,
  "正则表达式":"",
  “延迟”:0
  },
  {
  "id": "评论",
  "type": "SelectorText",
  "selector": "ment-column> ment-con",
  “父选择器”:[
  “主要”
  ],
  "multiple": false,
  "正则表达式":"",
  “延迟”:0
  },
  {
  "id": "时间",
  "type": "SelectorText",
  "selector": "ment-message:nth-of-type(5)span:nth-of-type(4), div.order-info span:nth-of-type(4)" ,
  “父选择器”:[
  “主要”
  ],
  "multiple": false,
  "正则表达式":"",
  “延迟”:“0”
  },
  {
  "id": "颜色",
  "type": "SelectorText",
  "selector": "div.order-info span:nth-of-type(1)",
  “父选择器”:[
  “主要”
  ],
  "multiple": false,
  "正则表达式":"",
  “延迟”:0
  },
  {
  "id": "main",
  "type": "SelectorElementClick",
  "selector": "ment-item",
  “父选择器”:[
  "_root"
  ],
  "multiple": 真,
  "延迟": "10000",
  "clickElementSelector": "-table-footer a.ui-pager-next",
  "clickType": "clickMore",
  "discardInitialElements": false,
  "clickElementUniquenessType": "uniqueHTMLText"
  }
  ]
  }
  2. 然后打开chrome浏览器,在任意页面同时按下Ctrl+Shift+i,在弹出的窗口中找到Web Scraper,如下:
  
  3.如下
  
  4. 如图,粘贴上面的代码:
  
  5. 如图,如果需要自定义URL,注意替换即可。 URL 后面的#comment 是评论的链接,不能删除:
  
  6.如图:
  
  7.如图:
  
  8. 如图,点击Scrape后会自动运行打开需要抓取的页面。不要关闭窗口,安静地等待完成。完成后,右下角会提示完成。一般1000以内的评论不会有问题:
  
  9.最后点击下载到电脑,数据就会保存。
  
  使用此工具的优点是:
  1.无需编程;
  2.京东的评论基本可以用这个脚本,修改对应的url即可;
  3.如果需要抓取的评论少于1000条,这个工具会很好,所有数据都会自动下载;
  使用注意事项:
  1. 抓取一次的数据会被记录下来,如果立即再次抓取,则不会保存。建议关闭浏览器重新打开再试试;
  2.抓取次数:1000以内没有问题,可能是京东直接根据IP屏蔽了更多的抓取;
  如果你的英文水平不错,可以尝试阅读官方文档,进一步学习定制自己的爬虫。
  官方教程:
  以上是本文的全部内容。希望对大家的学习有所帮助,希望大家多多支持。 查看全部

  chrome抓取网页插件(爬取:1.Chrome浏览器;2.插件:WebScraper插件下载地址)
  做电商的时候,消费者对产品的评价很重要,但是如果你不会写代码怎么办?有一个Chrome插件,不用写一行代码,就可以做简单的数据爬取。下面显示了一些捕获的数据:
  
  可以看到抓取到的地址、评论者、评论内容、时间、商品颜色都被抓取了。那么,需要哪些工具来抓取这些数据呢?只有两个:
  1. Chrome 浏览器;
  2. 插件:网络爬虫
  插件下载链接:
  最后,如果你想自己抢,这里是这次抢的详细过程:
  1. 首先复制以下代码。是的,您不需要编写代码,但是为了开始,仍然需要复制代码。以后可以自己自定义选择,不用写代码。
  {
  "_id": "jdreview",
  "startUrl": [
  ""
  ],
  “选择器”:[
  {
  "id": "用户",
  "type": "SelectorText",
  "selector": "div.user-info",
  “父选择器”:[
  “主要”
  ],
  "multiple": false,
  "正则表达式":"",
  “延迟”:0
  },
  {
  "id": "评论",
  "type": "SelectorText",
  "selector": "ment-column> ment-con",
  “父选择器”:[
  “主要”
  ],
  "multiple": false,
  "正则表达式":"",
  “延迟”:0
  },
  {
  "id": "时间",
  "type": "SelectorText",
  "selector": "ment-message:nth-of-type(5)span:nth-of-type(4), div.order-info span:nth-of-type(4)" ,
  “父选择器”:[
  “主要”
  ],
  "multiple": false,
  "正则表达式":"",
  “延迟”:“0”
  },
  {
  "id": "颜色",
  "type": "SelectorText",
  "selector": "div.order-info span:nth-of-type(1)",
  “父选择器”:[
  “主要”
  ],
  "multiple": false,
  "正则表达式":"",
  “延迟”:0
  },
  {
  "id": "main",
  "type": "SelectorElementClick",
  "selector": "ment-item",
  “父选择器”:[
  "_root"
  ],
  "multiple": 真,
  "延迟": "10000",
  "clickElementSelector": "-table-footer a.ui-pager-next",
  "clickType": "clickMore",
  "discardInitialElements": false,
  "clickElementUniquenessType": "uniqueHTMLText"
  }
  ]
  }
  2. 然后打开chrome浏览器,在任意页面同时按下Ctrl+Shift+i,在弹出的窗口中找到Web Scraper,如下:
  
  3.如下
  
  4. 如图,粘贴上面的代码:
  
  5. 如图,如果需要自定义URL,注意替换即可。 URL 后面的#comment 是评论的链接,不能删除:
  
  6.如图:
  
  7.如图:
  
  8. 如图,点击Scrape后会自动运行打开需要抓取的页面。不要关闭窗口,安静地等待完成。完成后,右下角会提示完成。一般1000以内的评论不会有问题:
  
  9.最后点击下载到电脑,数据就会保存。
  
  使用此工具的优点是:
  1.无需编程;
  2.京东的评论基本可以用这个脚本,修改对应的url即可;
  3.如果需要抓取的评论少于1000条,这个工具会很好,所有数据都会自动下载;
  使用注意事项:
  1. 抓取一次的数据会被记录下来,如果立即再次抓取,则不会保存。建议关闭浏览器重新打开再试试;
  2.抓取次数:1000以内没有问题,可能是京东直接根据IP屏蔽了更多的抓取;
  如果你的英文水平不错,可以尝试阅读官方文档,进一步学习定制自己的爬虫。
  官方教程:
  以上是本文的全部内容。希望对大家的学习有所帮助,希望大家多多支持。

官方客服QQ群

微信人工客服

QQ人工客服


线