搜狗微信网站，网站如下图。抓取的说明和准备

优采云发布时间: 2021-05-09 04:12

　　请记住，定期并定期捕获微信官方帐户文章的实现

　　爬行之前的说明和准备

　　为此爬网选择的语言是java。文章不会发布整个项目的所有代码，而只会提供核心代码的解释和爬网的想法。

　　数据捕获

　　抢劫来源文章是搜狗微信网站，而网站如下所示。

　　爬行的想法如下

　　通常，抓取微信公众号的文章使用微信公众号的ID作为关键字。我们可以直接跳转到要通过url +关键字捕获官方帐户的页面。微信公众号的名称或ID；

　　// 搜狗微信搜索链接入口

String sogou_search_url = "http://weixin.sogou.com/weixin?type=1&query="

+ keyword + "&ie=utf8&s_from=input&_sug_=n&_sug_type_=";

　　为了避免网站最初对抓取工具的拦截，我们可以使用Selenium（浏览器自动测试框架）来伪装我们的抓取工具。我们使用铬。在这里，我们需要注意我们的chrome版本和所使用的webdriver版本。对应；

　　 ChromeOptions chromeOptions = new ChromeOptions();

// 全屏，为了接下来防抓取做准备

chromeOptions.addArguments("--start-maximized");

System.setProperty("webdriver.chrome.driver", chromedriver);

WebDriver webDriver = new ChromeDriver(chromeOptions);

　　到达微信公众号列表页面，如下图所示，以获取微信公众号链接。

<p> // 获取当前页面的微信公众号列表

List weixin_list = webDriver

.findElements(By.cssSelector("div[class='txt-box']"));

// 获取进入公众号的链接

String weixin_url = "";

for (int i = 0; i

0

2021-05-09

querylist采集微信公众号文章

0 个评论

要回复文章请先登录或注册