搜狗微信网站,网站如下图。抓取的说明和准备
优采云 发布时间: 2021-05-09 04:12
搜狗微信网站,网站如下图。抓取的说明和准备
请记住,定期并定期捕获微信官方帐户文章的实现
爬行之前的说明和准备
为此爬网选择的语言是java。 文章不会发布整个项目的所有代码,而只会提供核心代码的解释和爬网的想法。
数据捕获
抢劫来源文章是搜狗微信网站,而网站如下所示。
爬行的想法如下
通常,抓取微信公众号的文章使用微信公众号的ID作为关键字。我们可以直接跳转到要通过url +关键字捕获官方帐户的页面。微信公众号的名称或ID;
// 搜狗微信搜索链接入口
String sogou_search_url = "http://weixin.sogou.com/weixin?type=1&query="
+ keyword + "&ie=utf8&s_from=input&_sug_=n&_sug_type_=";
为了避免网站最初对抓取工具的拦截,我们可以使用Selenium(浏览器自动测试框架)来伪装我们的抓取工具。我们使用铬。在这里,我们需要注意我们的chrome版本和所使用的webdriver版本。对应;
ChromeOptions chromeOptions = new ChromeOptions();
// 全屏,为了接下来防抓取做准备
chromeOptions.addArguments("--start-maximized");
System.setProperty("webdriver.chrome.driver", chromedriver);
WebDriver webDriver = new ChromeDriver(chromeOptions);
到达微信公众号列表页面,如下图所示,以获取微信公众号链接。
<p> // 获取当前页面的微信公众号列表
List weixin_list = webDriver
.findElements(By.cssSelector("div[class='txt-box']"));
// 获取进入公众号的链接
String weixin_url = "";
for (int i = 0; i