汇总:URL采集-如何通过关键词快速获取网址，网站信息？

优采云发布时间: 2022-11-01 05:21

　　如何通过关键词获取全网可访问的URL和网站信息

　　有时我们需要对我们的网站或产品进行市场分析，

　　这时候，我们需要获取大量数据进行对比。如果是手动获取的话，会耗费太多时间。

　　于是就有了Msray全网URL采集工具。

　　Msray的主要功能： 1：URL采集根据关键词

　　msray可以根据提供的关键词，通过搜索引擎对关键词的结果进行排序。

　　采集的内容包括：域名、网址、IP地址、IP国家、标题、描述、访问状态

　　2：根据URL采集网站信息

　　msray可以根据提供的url 关键词，采集已经是网站的收录内容

　　采集的内容包括：域名、网址、IP地址、IP国家、标题、描述、访问状态

　　3：*敏*感*词*根据url采集

　　msray 可以根据提供的 url采集网页提供联系信息。

　　如何使用：

　　此示例通过关键词演示采集

　　1：创建一个关键词采集任务

　　您可以根据自己的业务需求填写配置。

　　2：执行后预览结果。

　　msray 支持多种导出方式

　　同时还有消息推送，可以将采集收到的结果推送到目标系统进行统计分析，然后使用

　　使用 msray 可以帮助我们快速组织我们自己业务所需的数据。

　　msray官网：

　　在线文档：

　　获取免费版本：

　　技术文章:Python爬虫一步步抓取房产信息！

　　如上图所示，只要改变关键词后面的参数，就可以获得不同地区的二手房数据。编程时只需要手动编写一个收录每个区域的列表，然后通过循环改变关键字后面的参数，从而启动一个区域，然后爬取其中的链接。这种方法确实可行，而且深圳的区也不多。我已经尝试过这种方法并且它有效。

　　我真正想说的

　　上面的方法是可行的，但不是我要推荐的方法。当你回到主页时，搜索栏旁边有一张地图可以找到房间。点进去可以看到深圳全区的房子。如果你能在这里得到爬行动物，那就容易多了。

　　地图房间位置

　　深圳二手房

　　可以看到截图右侧有所有二手房的链接。我们的任务是下载右边所有二手房的数据。第一步是查看页面的源码（Ctrl+U），可以从右边的链表中复制一些关键字，在源码中查找，在源码中Ctrl+F搜索Mission Hills并尝试，结果是No，多尝试几个关键词s 好像不行，但是通过检查元素（Ctrl+Shift+I），可以定位这些关键词s。这样可以初步判断右边的链表是通过Js加载的，需要确认。

　　关键词源代码中的观澜湖搜索结果

　　关键词页面元素中的 Mission Hills 搜索结果

　　尝试在源码中定位Mission Hills上面的元素，比如no-data-wrapbounce-inup dn，可以在源码中找到。仔细对比两边的上下文，可以看到节点下面的内容差别很大。继续以关键词的身份浏览此 roomList。

　　页眉首页

　　赫拉德第二页

　　基本上到这里，整个页面就比较清晰了，也知道我们的爬虫要怎么写了。

　　开始写代码

　　逻辑理清后，整个代码就很容易写了。首先通过post访问，通过正则表达式提取response中的roomPageSize，或者最大页数。然后爬取每个页面的内容，输出信息。

　　第一部分，加载库，需要requests，bs4，re，time（时间用来生成时间戳）：

　　from bs4 import BeautifulSoupimport requests, re, time

　　第二部分是通过设置合理的post数据和headers来通过post下载数据。payload中收录了地图上显示的经纬度信息（如何获取这些信息，在X房间页面上拖拽鼠标找到合适的位置，到控制台Header查看此时的经纬度即可)，并且headers中收录了访问的基本信息（加上一定的反爬效果）：

　　页面下载完成后，第一次下载，首先需要使用正则表达式获取最大页数。我们真正需要的内容是结合Beautiful的get、find和re抓取它：

　　在控制台中给出一个输出：

　　最终效果

　　最后这篇文章文章给了我写X-room网络爬虫全解析的思路。

0

2022-11-01

wordpress文章采集软件

0 个评论

要回复文章请先登录或注册

AI时代内容工厂

汇总:URL采集-如何通过关键词快速获取网址，网站信息？

0 个评论

发起人

AI时代内容工厂

汇总:URL采集-如何通过关键词快速获取网址，网站信息？

0 个评论

发起人

相关问题