c爬虫抓取网页数据(聚焦爬虫使用方法的如下如下|)
优采云 发布时间: 2021-12-03 08:06c爬虫抓取网页数据(聚焦爬虫使用方法的如下如下|)
01 专注爬虫技术
聚焦爬虫(focused crawler)也是主题网络爬虫。聚焦爬虫技术增加了链接评价和内容评价模块。其抓取策略的关键是评估页面内容和链接的重要性。
基于链接评估的爬取策略主要是将网页作为半结构化文档,其中收录大量的结构化信息,可用于评估链接的重要性。还有一种利用Web结构来评估链接价值的方法,即HITS方法,它通过计算每个访问页面的Authority weight和Hub weight来确定链接访问的顺序。
基于内容评价的爬取策略主要应用类似于文本的计算方法,提出以用户输入查询为主题的Fish-Search算法。随着算法的进一步改进,可以通过Shark-Search算法使用。空间向量模型用于计算页面和主题之间的相关性。
面向主题的爬虫,面向需求的爬虫:会针对特定的内容爬取信息,并且会尽可能保证信息和需求的相关性。下面显示了如何使用聚焦爬虫的简单示例。
import urllib.request
# 爬虫专用的包urllib,不同版本的Python需要下载不同的爬虫专用包
import re
# 正则用来规律爬取
keyname=""
# 想要爬取的内容
key=urllib.request.quote(keyname)
# 需要将你输入的keyname解码,从而让计算机读懂
for i in range(0,5): # (0,5)数字可以自己设置,是淘宝某产品的页数
url="https://s.taobao.com/search?q="+key+"&imgfile=&js=1&stats_click=search_radio_all%3A1&initiative_id=staobaoz_20180815&ie=utf8&bcoffset=0&ntoffset=6&p4ppushleft=1%2C48&s="+str(i*44)
# url后面加上你想爬取的网站名,然后你需要多开几个类似的网站以找到其规则
# data是你爬取到的网站所有的内容要解码要读取内容
pat='"pic_url":"//(.*?)"'
# pat使用正则表达式从网页爬取图片
# 将你爬取到的内容放在一个列表里面
print(picturelist)
# 可以不打印,也可以打印下来看看
for j in range(0,len(picturelist)):
picture=picturelist[j]
pictureurl="http://"+picture
# 将列表里的内容遍历出来,并加上http://转到高清图片
file="E:/pycharm/vscode文件/图片/"+str(i)+str(j)+".jpg"
# 再把图片逐张编号,不然重复的名字将会被覆盖掉
urllib.request.urlretrieve(pictureurl,filename=file)
# 最后保存到文件夹
02 通用履带技术
通用网络爬虫技术(general purpose Web crawler)也就是整个网络爬虫。实现过程如下。
通用爬虫技术的应用有不同的爬取策略。广度优先策略和深度优先策略都更为关键。例如,深度优先策略的实现是按照深度从低到高的顺序访问下一级的网页链接。
如何使用通用爬虫的示例如下。
'''
爬取京东商品信息:
请求url:https://www.jd.com/
提取商品信息:
1.商品详情页
2.商品名称
3.商品价格
4.评价人数
5.商品商家
'''
from selenium import webdriver # 引入selenium中的webdriver
from selenium.webdriver.common.keys import Keys
import time
def get_good(driver):
try:
# 通过JS控制滚轮滑动获取所有商品信息
js_code = '''
window.scrollTo(0,5000);
'''
driver.execute_script(js_code) # 执行js代码
# 等待数据加载
time.sleep(2)
# 查找所有商品div
# good_div = driver.find_element_by_id('J_goodsList')
good_list = driver.find_elements_by_class_name('gl-item')
n = 1
for good in good_list:
# 根据属性选择器查找
# 商品链接
good_url = good.find_element_by_css_selector(
'.p-img a').get_attribute('href')
# 商品名称
good_name = good.find_element_by_css_selector(
'.p-name em').text.replace("\n", "--")
# 商品价格
good_price = good.find_element_by_class_name(
'p-price').text.replace("\n", ":")
# 评价人数
good_commit = good.find_element_by_class_name(
'p-commit').text.replace("\n", " ")
good_content = f'''
商品链接: {good_url}
商品名称: {good_name}
商品价格: {good_price}
评价人数: {good_commit}
\n
'''
print(good_content)
with open('jd.txt', 'a', encoding='utf-8') as f:
f.write(good_content)
next_tag = driver.find_element_by_class_name('pn-next')
next_tag.click()
time.sleep(2)
# 递归调用函数
get_good(driver)
time.sleep(10)
finally:
driver.close()
if __name__ == '__main__':
good_name = input('请输入爬取商品信息:').strip()
driver = webdriver.Chrome()
driver.implicitly_wait(10)
# 往京东主页发送请求
driver.get('https://www.jd.com/')
# 输入商品名称,并回车搜索
input_tag = driver.find_element_by_id('key')
input_tag.send_keys(good_name)
input_tag.send_keys(Keys.ENTER)
time.sleep(2)
get_good(driver)
03 增量爬虫技术
有些网站会在原创网页数据的基础上,定期更新一批数据。比如某部电影网站会实时更新一批近期的热门电影,小说网站会根据作者的创作进度实时更新最新的章节数据。遇到类似场景,我们可以使用增量爬虫。
增量网络爬虫技术(incremental Web crawler)就是通过爬虫程序监控某网站数据的更新,从而可以爬取网站更新后的新数据。
关于如何进行增量爬取,下面给出了三种检测重复数据的思路:
发送请求前,判断该URL是否已被爬取;解析内容后,判断这部分内容是否已经被爬取;在写入存储介质时,判断介质中是否已经存在该内容。
不难发现,实现增量爬取的核心是去重。目前有两种重复数据删除方法。
下面显示了如何使用增量爬虫的示例。
import scrapy
from scrapy.linkextractors import LinkExtractor
from scrapy.spiders import CrawlSpider, Rule
from redis import Redis
from incrementPro.items import IncrementproItem
class MovieSpider(CrawlSpider):
name = 'movie'
# allowed_domains = ['www.xxx.com']
start_urls = ['http://www.4567tv.tv/frim/index7-11.html']
rules = (
Rule(LinkExtractor(allow=r'/frim/index7-\d+\.html'), callback='parse_item', follow=True),
)
# 创建Redis链接对象
conn = Redis(host='127.0.0.1', port=6379)
def parse_item(self, response):
li_list = response.xpath('//li[@class="p1 m1"]')
for li in li_list:
# 获取详情页的url
detail_url = 'http://www.4567tv.tv' + li.xpath('./a/@href').extract_first()
# 将详情页的url存入Redis的set中
ex = self.conn.sadd('urls', detail_url)
if ex == 1:
print('该url没有被爬取过,可以进行数据的爬取')
yield scrapy.Request(url=detail_url, callback=self.parst_detail)
else:
print('数据还没有更新,暂无新数据可爬取!')
# 解析详情页中的电影名称和类型,进行持久化存储
def parst_detail(self, response):
item = IncrementproItem()
item['name'] = response.xpath('//dt[@class="name"]/text()').extract_first()
item['kind'] = response.xpath('//div[@class="ct-c"]/dl/dt[4]//text()').extract()
item['kind'] = ''.join(item['kind'])
yield it
管道文件:
from redis import Redis
class IncrementproPipeline(object):
conn = None
def open_spider(self,spider):
self.conn = Redis(host='127.0.0.1',port=6379)
def process_item(self, item, spider):
dic = {
'name':item['name'],
'kind':item['kind']
}
print(dic)
self.conn.push('movieData',dic)
# 如果push不进去,那么dic变成str(dic)或者改变redis版本
pip install -U redis==2.10.6
return item
04 深网爬虫技术
在互联网中,网页按存在方式可分为表面网页和深层网页两种。
所谓地表网页,是指不用提交表单,通过静态链接就可以到达的静态页面;而深层网页隐藏在表单后面,无法通过静态链接直接获取。需要提交一定数量的关键词。后面可以获取的页面中最重要的部分是表单填写部分。
在互联网中,深层网页的数量往往远大于表面网页的数量。因此,我们需要找到一种爬取深层网页的方法。
深网爬虫的基本组成:URL列表、LVS列表(LVS是指标签/值集合,即填写表单的数据源)、爬虫控制器、解析器、LVS控制器、表单分析器、表单处理器、响应分析器。
深度网络爬虫有两种表单填写方式: