搜狗微信网站,网站如下图。抓取的说明和准备

优采云 发布时间: 2021-05-09 04:12

  

搜狗微信网站,网站如下图。抓取的说明和准备

  请记住,定期并定期捕获微信官方帐户文章的实现

  爬行之前的说明和准备

  为此爬网选择的语言是java。 文章不会发布整个项目的所有代码,而只会提供核心代码的解释和爬网的想法。

  数据捕获

  抢劫来源文章是搜狗微信网站,而网站如下所示。

  

  爬行的想法如下

  通常,抓取微信公众号的文章使用微信公众号的ID作为关键字。我们可以直接跳转到要通过url +关键字捕获官方帐户的页面。微信公众号的名称或ID;

  // 搜狗微信搜索链接入口

String sogou_search_url = "http://weixin.sogou.com/weixin?type=1&query="

+ keyword + "&ie=utf8&s_from=input&_sug_=n&_sug_type_=";

  为了避免网站最初对抓取工具的拦截,我们可以使用Selenium(浏览器自动测试框架)来伪装我们的抓取工具。我们使用铬。在这里,我们需要注意我们的chrome版本和所使用的webdriver版本。对应;

   ChromeOptions chromeOptions = new ChromeOptions();

// 全屏,为了接下来防抓取做准备

chromeOptions.addArguments("--start-maximized");

System.setProperty("webdriver.chrome.driver", chromedriver);

WebDriver webDriver = new ChromeDriver(chromeOptions);

  到达微信公众号列表页面,如下图所示,以获取微信公众号链接。

  

<p> // 获取当前页面的微信公众号列表

List weixin_list = webDriver

.findElements(By.cssSelector("div[class=&#39;txt-box&#39;]"));

// 获取进入公众号的链接

String weixin_url = "";

for (int i = 0; i

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线