网页新闻抓取(爬取网易新闻,实战出真知,打开网易)

优采云 发布时间: 2021-09-17 02:10

  网页新闻抓取(爬取网易新闻,实战出真知,打开网易)

  PS:如果你需要Python学习材料,你可以点击下面的链接自己获取

  在学习了python的基本语法之后,我对爬虫产生了极大的兴趣。我不怎么胡说八道。今天,我要爬网易新闻,从实战中学习

  当你打开网易新闻,你会发现新闻分为几个部分:

  

  这一次,我们选择国内板块攀登文章

  1.ready

  下载地址

  理解网页

  网页色彩丰富、美丽,就像一幅水彩画。要抓取数据,首先需要知道需要抓取的数据是如何呈现的,就像学习画图一样。在你开始之前,你需要知道画的是什么,铅笔还是水彩笔。。。可能有各种类型,但Web信息只有两种表示方法:

  Html是一种用来描述网页的语言

  JSON是一种轻量级数据交换格式

  抓取网页信息实际上是向网页发出请求,服务器会将数据反馈给您

  2.get动态加载源代码

  导入所需的模块和库:

  1 from bs4 import BeautifulSoup

2 import time

3 import def_text_save as dts

4 import def_get_data as dgd

5 from selenium import webdriver

6 from selenium.webdriver.common.keys import Keys

7 from selenium.webdriver.common.action_chains import ActionChains #引入ActionChains鼠标操作类

  要获取网页信息,我们需要发送请求。请求可以帮助我们很好地做到这一点。然而,仔细观察发现,网易新闻是动态加载的,请求返回即时信息,而随后在网页中加载的数据不会返回。Selenium可以帮助我们获得更多数据,我们理解Selenium是一种自动化测试工具。Selenium测试直接在浏览器中运行,就像真实用户一样

  我使用的浏览器是Firefox

  1 browser = webdriver.Firefox()#根据浏览器切换

2 browser.maximize_window()#最大化窗口

3 browser.get('http://news.163.com/domestic/')

  这样,我们就可以驱动浏览器自动登录到网易新闻页面

  

  当然,我们的目标是爬下国内板块,同时观察网页。当网页继续向下刷时,将加载新新闻。在底部,我们甚至需要单击按钮刷新:

  

  此时,selenium可以展示其优势:鼠标和键盘操作的自动化和模拟:

  1 diver.execute_script("window.scrollBy(0,5000)")

2 #使网页向下拉,括号内为每次下拉数值

  右键单击网页中的“加载更多”按钮,然后单击“查看元素”以查看

  

  通过这个类,我们可以找到按钮。当我们遇到按钮时,单击事件可以帮助我们自动单击按钮以完成页面刷新

   1 # 爬取板块动态加载部分源代码

2 ​

3 info1=[]

4 info_links=[] #存储文章内容链接

5 try:

6 while True :

7 if browser.page_source.find("load_more_btn") != -1 :

8 browser.find_element_by_class_name("load_more_btn").click()

9 browser.execute_script("window.scrollBy(0,5000)")

10 time.sleep(1)

11 except:

12 url = browser.page_source#返回加载完全的网页源码

13 browser.close()#关闭浏览器

  获取有用的信息

  简而言之,BeautifulSoup是一个Python库。它的主要功能是从网页中获取数据,这可以减轻新手的负担。通过beautiful soup解析网页源代码并添加附加函数,我们可以轻松获得所需的信息,例如获取文章标题、标签和文本内容超链接

  

  同样,在文章标题区域中单击鼠标右键可查看元素:

  

  观察网页结构,发现文章是每个div标签class=“news\u title”下的标题和超链接。汤。Find_all()函数可以帮助我们找到所需的所有信息,并且可以一次性提取此级别结构下的内容。最后,通过字典逐一取出标签信息

   1 info_total=[]

2 def get_data(url):

3 soup=BeautifulSoup(url,"html.parser")

4 titles=soup.find_all('div','news_title')

5 labels=soup.find('div','ns_area second2016_main clearfix').find_all('div','keywords')

6 for title, label in zip(titles,labels ):

7 data = {

8 '文章标题': title.get_text().split(),

9 '文章标签':label.get_text().split() ,

10 'link':title.find("a").get('href')

11 }

12 info_total.append(data)

13 return info_total

  4.get新闻内容

  从那时起,新闻链接被取出并存储在列表中。我们现在需要做的是使用链接获取新闻主题内容。新闻主题内容页是静态加载的,可以轻松处理请求:

   1 def get_content(url):

2 info_text = []

3 info=[]

4 adata=requests.get(url)

5 soup=BeautifulSoup(adata.text,'html.parser')

6 try :

7 articles = soup.find("div", 'post_header').find('div', 'post_content_main').find('div', 'post_text').find_all('p')

8 except :

9 articles = soup.find("div", 'post_content post_area clearfix').find('div', 'post_body').find('div', 'post_text').find_all(

10 'p')

11 for a in articles:

12 a=a.get_text()

13 a= ' '.join(a.split())

14 info_text.append(a)

15 return (info_text)

  之所以使用try-except,是因为在不同的情况下,网易新闻文章在某个时间段前后,文本信息的位置标签是不同的

  最后,遍历整个列表并取出所有文本内容:

   1 for i in info1 :

2 info_links.append(i.get('link'))

3 x=0 #控制访问文章目录

4 info_content={}# 存储文章内容

5 for i in info_links:

6 try :

7 info_content['文章内容']=dgd.get_content(i)

8 except:

9 continue

10 s=str(info1[x]["文章标题"]).replace('[','').replace(']','').replace("'",'').replace(',','').replace('《','').replace('》','').replace('/','').replace(',',' ')

11 s= ''.join(s.split())

12 file = '/home/lsgo18/PycharmProjects/网易新闻'+'/'+s

13 print(s)

14 dts.text_save(file,info_content['文章内容'],info1[x]['文章标签'])

15 x = x + 1

  将数据存储到本地TXT文件

  Python提供了一个文件处理函数open()。第一个参数是文件路径,第二个参数是文件处理模式,“W”模式是只写模式(如果没有文件,将创建该文件,如果有,将清空该文件)

  1 def text_save(filename, data,lable): #filename为写入CSV文件的路径

2 file = open(filename,'w')

3 file.write(str(lable).replace('[','').replace(']','')+'\n')

4 for i in range(len(data)):

5 s =str(data[i]).replace('[','').replace(']','')#去除[],这两行按数据不同,可以选择

6 s = s.replace("'",'').replace(',','') +'\n' #去除单引号,逗号,每行末尾追加换行符

7 file.write(s)

8 file.close()

9 print("保存文件成功")

  已成功编写一个简单的爬虫程序:

  

  

  到目前为止,网易新闻的抓取方法已经被引入。我希望它对你有用

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线