网页小说抓取 ios(与抓取预定义好的页面集合不同,抓取一个会带来一个挑战)
优采云 发布时间: 2021-11-02 21:23网页小说抓取 ios(与抓取预定义好的页面集合不同,抓取一个会带来一个挑战)
与抓取一组预定义的页面不同,抓取一个网站的所有内链会带来一个挑战,就是你不知道你会得到什么。幸运的是,有几种基本的方法可以识别页面类型。
按网址
网站 中的所有博客 文章 都可能收录一个 URL(例如)。
传递 网站 中存在或缺失的特定字段
如果页面收录日期但不收录作者姓名,那么您可以将其归类为新闻稿。如果它有标题、主图、价格,但没有主要内容,那么它可能是一个产品页面。
通过出现在页面上的特定标签识别页面
即使您没有捕获某个标签中的数据,您仍然可以使用该标签。你的爬虫可以寻找类似的东西
此类元素用于标识产品页面,即使爬虫对相关产品的内容不感兴趣。
为了跟踪多种页面类型,您需要在 Python 中拥有多种类型的页面对象。这是通过两种方式实现的。
如果页面相似(它们的内容类型基本相同),则可能需要在现有页面对象中添加 pageType 属性:
class Website:
"""所有文章/网页的共同基类"""
def __init__(self, type, name, url, searchUrl, resultListing,
resultUrl, absoluteUrl, titleTag, bodyTag):
self.name = name
self.url = url
self.titleTag = titleTag
self.bodyTag = bodyTag
self.pageType = pageType
如果在类 SQL 的数据库中对这些页面进行排序,则此模式类型意味着这些页面应存储在同一个表中,并添加了一个额外的 pageType 列。
如果您抓取的页面或内容不同(它们收录不同类型的字段),您需要为每种页面类型创建一个新对象。当然,有些东西是所有网页共有的——它们都有一个 URL,它们也可能有一个名称或页面标题。这种情况非常适合子类化:
class Website:
"""所有文章/网页的共同基类"""
def __init__(self, name, url, titleTag):
self.name = name
self.url = url
self.titleTag = titleTag
这不是您的爬虫直接使用的对象,而是您的页面类型将引用的对象:
class Product(Website):
"""产品页面要抓取的信息"""
def __init__(self, name, url, titleTag, productNumber, price):
Website.__init__(self, name, url, TitleTag)
self.productNumberTag = productNumberTag
self.priceTag = priceTag
class Article(Website):
"""文章页面要抓取的信息"""
def __init__(self, name, url, titleTag, bodyTag, dateTag):
Website.__init__(self, name, url, titleTag)
self.bodyTag = bodyTag
self.dateTag = dateTag
该产品页面扩展了Website 基类,增加了仅适用于产品的productNumber 和price 属性,而Article 类增加了不适用于产品的body 和date 属性。
您可以使用这两个类别来抓取商店网站。除了产品,这个 网站 还可能收录博客 文章 或新闻稿。
希望以上知识点对您有所帮助,感谢您的支持。
时间:2019-11-18
Python爬取链接网站详解
在本文 文章 中,您将学习将这些基本方法集成到一个更灵活的 网站 爬虫中,该爬虫可以跟踪任何遵循特定 URL 模式的链接。这个爬虫非常适合从网站抓取所有数据的item,而不是从特定搜索结果或页面列表抓取数据的item。它也非常适合 网站 页面组织不良或非常分散的情况。这些类型的爬虫不需要上一节中使用的定位链接的结构化方法来爬取搜索页面,因此不需要在网站对象中收录描述搜索页面的属性。但是因为爬虫不知道该做什么去寻找链接的位置,所以需要一些规则来告诉它选择哪个页面
Python 50行爬虫爬取处理图灵书目的过程详解
前言使用请求进行爬行。BeautifulSoup 执行数据提取。主要分为两步:第一步是解析图书列表页,解析里面的图书详情页链接。第二步,解析图书详情页,提取感兴趣的Content,在本例中,根据不同的数据情况,采用不同的提取方式。总体感觉BeautifulSoup用起来很方便。下面是几个典型的HTML内容提取Python代码片段1.Extract details page link list page Detail page link snippet in
Python3简单爬虫抓取网页图片代码示例
网上有很多用python2写的爬虫抓取网页图片的例子,但是不适合新手(新手都是用python3环境,不兼容python2),所以写了一个简单的网页图片使用Python3语法抓取示例,希望对大家有帮助,希望大家批评指正 import urllib.request import re import os import urllib #根据给定的URL获取网页的详细信息,得到的html为网页源码 def getHtml(url): page = urllib.request.urlope
Python实*敏*感*词*庸小说】
本文介绍爬虫爬取小说功能在python中的实现。分享出来供大家参考,如下: # -*- coding: utf-8 -*- from bs4 import BeautifulSoup from urllib import request import re import os,time #访问url,返回html页面 def get_html(url): req = request.Request(url) req.add_header('User-Agent','Mozilla/5.0'
Python请求抢一推文字图片代码示例
本文文章主要介绍python请求一推文图片代码示例。文章中介绍的示例代码非常详细。对大家的学习或工作有一定的参考学习价值。有需要的朋友可以参考requests是Python中的第三方库,基于urllib,使用Apache2 Licensed开源协议的HTTP库。它比 urllib 更方便,可以为我们节省很多工作,完全满足 HTTP 测试需求。接下来记录一下requests的使用: from bs4 import BeautifulSoup f
一个用Python程序抓取网页HTML信息的小例子
爬取网页数据的思路有很多,一般是:直接代码请求http。模拟浏览器请求数据(通常需要登录验证)。控制浏览器实现数据抓取等,本文不考虑复杂情况,放一个简单的网页数据小例子:目标数据将所有这些玩家的超链接保存在ittf网站@ >. 数据请求真的很像符合人类思维的库,比如requests,如果你想直接拿网页的话文字就一句话搞定:doc = requests.get(url).text 解析html获取数据
Python实现抓取HTML网页并保存为PDF文件的方法
本文介绍了 Python 如何捕获 HTML 网页并将其保存为 PDF 文件的示例。分享出来供大家参考,如下: 一.前言 今天介绍抓取HTML网页,然后保存成PDF,废话我们不直接进入教程。今天的例子是以廖雪峰老师的Python教程网站为例:二.准备1.PyPDF2的安装和使用(用于合并PDF):PyPDF2版本:1. 2
python数据捕获分析示例代码(python+mongodb)
本文介绍Python数据采集与分析,分享给大家,如下: 编程模块:requests, lxml, pymongo, time, BeautifulSoup 首先获取所有产品的分类URL: def step(): try: headers = {. ... .} r = requests.get(url,headers,timeout=30) html = r.content soup = BeautifulSoup(html,"lxml") url = soup.find_all(正则表达式
Python如何抓取天猫产品的详细信息和交易记录
本文示例分享了Python捕捉天猫产品详细信息和交易记录的具体代码,供大家参考。具体内容如下一.搭建Python环境本帖使用Python2.7个涉及模块:spynner、scrapy、bs4、pymmssql二.要获取的天猫数据三.数据采集过程四.源码#coding:utf-8 import spynner from scrapy.selector import Selector from bs4 import BeautifulSoup import ran
Python爬虫实现爬取京东店铺信息和下载图片功能示例
本文介绍了Python爬虫实现爬取京东店铺信息和下载图片的功能。分享出来供大家参考,如下:这是来自bs4 import BeautifulSoup import requests url ='+%C9%D5%CB% AE&type=p&vmarket=&spm=875.7931836%2FA.a2227oh.d100&from=mal
python定时给微信朋友发消息的例子
如下图: from __future__ import unicode_literals from threading import Timer from wxpy import * import requests #bot = Bot() #bot = Bot(console_qr=2,cache_path="botoo.pkl")#这里的二维码使用像素如果你在 win 环境中运行,将其替换为 bot=Bot() bot = Bot(cache_path=True) de
python如何抓取网页中的文本
用Python爬取网页文本的代码:#!/usr/bin/python # -*- coding: UTF-8 -*- import requests import re #下载一个网页url ='' #模拟浏览器发送http请求 response = requests .get(url) # 编码方式 response.encoding='utf-8' # 目标小说首页的网页源码 html = re
抓取网易新闻的方法的python正则示例
本文介绍了Python常规抓取网易新闻的方法示例。分享出来供大家参考,如下: 我写了一些爬取网易新闻的爬虫,发现其网页源码和网页评论根本不对。因此,使用抓包工具来获取其评论的隐藏地址(每个浏览器都有自己的抓包工具,可以用来分析网站)如果仔细看,会发现有一个特别,那么这就是我想要的,然后打开链接找到相关的评论内容。(下图为第一页内容)接下来是代码(也是按照大神写的)。#coding= utf-8 导入 urllib2 导入
Python常规抓取新闻标题和链接方法示例
本文介绍了Python定时抓取新闻标题和链接的方法。分享给大家参考,如下: #-*-coding:utf-8-*- import re from urllib import urlretrieve from urllib import urlopen #获取网页信息 doc = urlopen("").read() #找大data news by自己网站 #抓取新闻标题和链接 def extract_title(info):