南都新闻app自带会话是不支持读取目标网页的链接

优采云 发布时间: 2022-06-01 14:00

  南都新闻app自带会话是不支持读取目标网页的链接

  文章采集一般都是利用socket实现文章的抓取。最近测试了一下南都新闻app,它在页面中自带的会话是不支持读取目标网页的链接。假设有一条新闻标题是“酒店太便宜,房间太不合心意”,这显然是一条标题抓取代码,所以,如果一个抓取代码都抓不到,那应该是个什么目标网页呢?其实,真正的目标网页是因为链接中带有https后缀,而南都新闻app是https可信度较高的,所以它反而看不到我们需要的新闻内容。

  所以,我们需要一个抓取器,让它能够看到我们需要的新闻内容。基本上,个人觉得体积最小、方便实用、自带webkit浏览器浏览速度高(即使是https也会被判定为http的新闻网页,因为它更信任这个https头)的就是网易新闻了。根据楼主实际情况,抓取时还需要注意:。

  1、浏览器对https的支持;

  2、抓取新闻头的时候不要用默认浏览器的浏览器标识查看;

  3、抓取网站页面时请不要保存cookie(很重要),因为ie抓取网站页面时也不会记录这个特征(这里做了个测试,首页抓取时,我手动下载的cookie也不被检查,

  4、浏览器的抓取器右键保存成一个markdown格式,手机抓取更方便,https得以保证。

  5、抓取完了后按win+r并输入cmd并回车会出现如下情况:经过下载和安装,启动抓取器之后,最好先对页面进行一次格式化,否则抓取出来的内容排版和字体就比较乱,这也是为什么没有普通app能够像网易新闻一样加载链接到它的页面,而网易新闻app通过其设置加载我们需要的网页:那么,抓取器是怎么抓到链接和新闻内容呢?使用chrome浏览器,打开网易新闻app,点击左上角的「三点按钮」,弹出菜单选择「抓取网页」。

  出现下图页面,我们可以看到网页右侧有一个链接,点击进入网页url后面的注册页面,即可抓取注册页的内容。点击下图右侧下拉框可以看到了注册页的url:参考网址:网易新闻客户端该页面点开之后是这样的:只要保证网页内容是采集到的,并且浏览器对https的支持是不变的,抓取到的内容通过浏览器打开ie之后也是正常展示的:然后,启动抓取器,点击网页下方的「设置」,然后点击「下载数据」,即可看到第一条新闻的链接了。

  抓取器抓取新闻的速度比浏览器抓取还快:通过浏览器抓取新闻速度最快,但app抓取速度最慢:打开一个app抓取新闻速度最快,但ie抓取速度最慢:以上回答来自talkingdata网站爬虫实测结果。

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线