总结:如何通过百度站长平台快速筛选出垃圾外链?

优采云 发布时间: 2022-10-06 10:18

  总结:如何通过百度站长平台快速筛选出垃圾外链?

  百度站长平台中的外链分析功能可以让我们非常清楚的看到我们的网站的有效外链,同时还提供了垃圾外链的拒绝功能。但是如果有上千条外链数据,我们不可能一一查看。当然,一般情况下,一般企业网站和个人网站不会有那么多外部链接。但是有一种情况,如果你在一些信息平台上提交文章或者视频网站,发外链,然后得到很多采集,被一些垃圾站重复采集,在这一次,你会发现你的反向链接增长了 90 度。所以当外链数量很大的时候,我们如何快速筛选它们?本文将与大家分享小编自己的方法,如果大家有更好的方法,也可以交流!

  1、看一下我的网站外链增长资料。我不可能发布这么多外部链接。大部分都是站群采集我的外链内容。

  2.下载外链数据表,我们可以看到外链的详细信息。

  

  3.在表格中选择“链接到你的网站 url”一栏,复制到一个txt文件,然后用excel打开这个txt文件就可以看到(提示:使用wps,至于office,应该没问题,未经测试):

  这样我们就可以得到一个以“/”分隔的表格,也就是说我们可以得到链接到你的网站的URL的二级域名或者一级域名。

  接下来,我们选择A列,使用excel表的去重功能去除重复表。然后你把剩下的A列下面的网址复制下来,用“索宁工具”中的“百度收录排名查询”功能批量检测这些网址的标题,然后下载表格看看是否标题涉及黄赌毒,复制到另一张表,这样垃圾链就可以快速过滤掉!

  筛选后可以选择批量拒绝外部链接,每次可以添加1000个链接,类别可以选择“站点”!如果要选择“主域”,那么可以用excel替换函数,把“”border="0"width="600"/>

  

  我们假设在A列中,我们放了最新的外链数据,那么此时,在A和B中,已经显示了相同的内容,我们只需要检查A列中不同的URL是否是垃圾外链即可。我们选择A列,单击“自动过滤器”,然后选择“颜色过滤器”。如果您选择过滤白色,那么您可以过滤掉 A 列中未在 B 列中重复的 URL。下一步是过滤这些 URL。批量在奏鸣曲工具中查看!

  好像有点麻烦,不过这是我摸索出来的比较简单的方法。至少会比一一检查要快得多。如果你有更好的方法,可以留言交流!

  上一篇: 加快页面打开速度!WordPress图片实现真正的懒加载下一篇:百度SEO和谷歌SEO的10大区别

  总结:爬取商品列表文章列表的方法(2019)

  在第三课:采集单个数据中,我们学习了如何从单个网页中抓取文本、图像、超链接,以及优采云[自定义配置]任务采集数据的过程。初步经验。本课继续深入探讨如何在多个列表中采集数据。

  列表是最常见的 Web 样式之一。例如:京东产品列表、58同城房产列表、豆瓣书单。简单配置后,优采云可以自动采集列表中的所有数据。

  现在有一个豆瓣书单网页:%E5%B0%8F%E8%AF%B4。网页上有很多结构相同的书单,每个书单都有相同的字段:书名、出版信息、评分、审稿人数、书评等。

  将鼠标放在图像上,单击鼠标右键,然后选择[在新选项卡中打开图像]以查看高分辨率大图

  下面的其他图片也是如此

  我们想采集上述网页上多个列表中的字段,按照网页的顺序,保存为Excel等结构化数据。这个怎么做?以下是具体步骤。

  示例 URL:%E5%B0%8F%E8%AF%B4

  Step 1. 创建[New Task]并输入URL

  在首页的【输入框】输入目标网址,点击【开始采集】。点击【保存设置】,优采云内置浏览器会自动打开网页。该界面现在是一个纯浏览器界面。为了方便观察,我们打开右上角的【处理】按钮。

  步骤 2. 建立 [循环 - 提取数据]

  观察网页。这个页面有很多书单,每一个都有相同的结构,收录书名、出版信息、评分、审稿人数量、书描述等字段。最关键的一点是如何让优采云识别所有的列表,并依次采集每个书单中的数据。

  在优采云中,建立【循环-提取数据】就可以实现这个需求。[Loop-extract data] 将收录所有书单,并依次采集每个书单中的数据。对于列表类型的网页,创建【Loop-Extract Data】需要具体的步骤,具体步骤如下。

  我们先来看一个完整的建立【循环——提取数据】的步骤:

  然后拆分每一步,详细解释:

  1.在页面上选择1本书列表。选中的列表会被一个绿色框框起来,同时会出现一个*敏*感*词*的操作提示框,提示我们找到【子元素】,其中【子元素】就是书单中的具体字段

  特别说明:

  

  一个。只需选择 1 个列表,无论哪个数字,第 1 个、第 2 个、第 3 个都可以。

  湾。选择列表时,要特别注意范围。选定的范围(绿色部分)必须是最大的,包括所有要为 采集 的字段。

  2、在*敏*感*词*操作提示框中,选择【选择子元素】。第一个产品列表中的特定字段被选中。这时,优采云 发现页面上有很多相似的列表具有相同的[子元素]。

  3、在*敏*感*词*的操作提示框中,继续选择【全选】。我们要采集列表中的所有字段,所以选择【全选】,可以看到页面上同一个列表中的所有子元素都被选中并用绿色框框起来。

  4. 在*敏*感*词*的操作提示框中,选择【采集Data】。此时,优采云 提取列表中的所有字段。

  特别说明:

  一个。步骤1-4是连续指令,可以不中断地建立【循环提取数据】。1.在页面上选择一个列表后,2.【选中的子元素】没有出现怎么办?请向下滚动到文章末尾以查看解决方案。

  经过以上4个步骤,【循环-提取数据】就创建好了。如您所见,流程图中自动生成了一个循环步骤。循环中的项目对应于页面上所有项目的列表。循环中提取的数据中的字段对应于每个项目列表中的字段。启动 采集 后,优采云 会依次提取每个列表中的字段,按照它们循环的顺序。

  步骤 3. 编辑字段

  优采云列表中的所有字段都是自动为我们提取出来的,我们可以删除这些字段,修改字段名等。

  1.删​​除不必要的字段。选择该字段并单击垃圾桶图标将其删除。

  2.修改字段名称。字段名相当于excel表头,可以选择默认的字段名,也可以自定义输入。

  步骤 4. 开始 采集

  1. 点击【保存并启动】,选择【本地启动采集】。启动后优采云开始全自动采集数据。(本地采集为采集使用自己的电脑,云端采集为使用优采云提供的云服务器采集)

  2、采集完成后,选择合适的导出方式导出数据。支持导出到 Excel、CSV、HTML。在此处导出到 Excel。

  

  数据示例:

  第2步,在建立【循环提取数据】时, 1.在页面上选择一个列表后,没有 2.【选择子元素】 解决方法:

  示例 URL:%25E8%2583%25A1%25E6%25AD%258C?topnav=1&wvr=6&b=1

  我们先来看一个完整的建立【循环——提取数据】的步骤:

  然后拆分每个步骤,详细说明:

  1. 选择页面上的第一个列表。

  2.继续选择页面上的1个列表(目的是帮助优采云识别页面上所有相似的列表)。

  3. 在*敏*感*词*操作提示框中,选择【采集Data】。列表中的所有字段都被提取到一个单元格中。如果需要单独解压,继续下面的操作。

  4. 手动提取必填字段。确保提取当前选定列表中的字段(红色框)。否则,将重复提取第一个列表中的数据。

  通过以上4个步骤,也可以创建【循环-提取数据】。如您所见,流程图中自动生成了一个循环步骤。循环中的项目对应于页面上所有微博的列表。循环中提取的数据中的字段对应于每个微博列表中的字段。启动 采集 后,优采云 会依次提取每个列表中的字段,按照它们循环的顺序。

  【循环-提取数据】创建完成后,接下来的步骤同上,不再赘述。

  如果要采集列表数据,点击列表中的链接进入详情页,采集详情页中的数据,解决方法:

  1.首先用本课上面学到的方法建立一个【循环-提取数据】步骤,先提取列表数据

  2. 在循环的当前项目中找到链接(红框)并选择它。在弹出的操作提示框中,选择【点击链接】。可以看到过程中生成了一个【点击元素】步骤,优采云自动跳转到详情页,然后提取详情页数据。

  特别说明:

  一个。【点击元素】步骤一定要使用循环当前项的链接(如下图,当前项会用红色框起来),否则会重复点击一个链接。

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线