网页新闻抓取(2016.10.12河北邮币卡电子盘交易所每日一练)

优采云 发布时间: 2021-10-14 04:25

  网页新闻抓取(2016.10.12河北邮币卡电子盘交易所每日一练)

  以这个文章为例,

  抓取文章的内容时,不要抓取【今日直播】的模块内容

  

  抓取文章的内容代码:

  from pyquery import PyQuery as pq

import requests

headers = {

"User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/75.0.3770.100 Safari/537.36",

}

url = 'https://finance.sina.com.cn/money/smjj/smdt/2020-08-12/doc-iivhvpwy0527268.shtml'

res = requests.get(url,headers=headers)

response = pq(bytes(res.text, res.encoding).decode('utf-8', 'ignore')) # 转码

content_1 = response("#artibody p").text() # 获取内容

print(content_1)

  【注意】由于爬取时文章的内容是乱码,需要转码。转码请参考网页抓取时的文字乱码解决方法。

  此时获取的内容收录【今日直播】

  解析网页获取【今日直播】标签

  利用代码

  response("#artibody blockquote").remove()

  删除【今日直播】标签模块

  response("#artibody blockquote").remove()

content_2 = response("#artibody p").text()

print(content_2)

  此时获取的内容中没有【今日直播】

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线