网站内容采集系统( 1.互联网媒体网站广告监控方法,本发明涉及的方法有哪些?)

优采云 发布时间: 2022-01-18 06:13

  网站内容采集系统(

1.互联网媒体网站广告监控方法,本发明涉及的方法有哪些?)

  互联网第三方媒体网站广告监控方法及系统

  阅读:401 发布:2020-10-20

  IPRDB可提供互联网第三方媒体网站专利检索、专利查询、专利分析服务的广告监测方法和系统。本发明涉及一种互联网第三方媒体网站的广告监控方法及系统。该方法包括以下步骤: 步骤A,对媒体网站的页面内容执行采集;步骤B,根据广告内容特征模型提取页面内容,提取与广告内容特征模型匹配的页面内容。 步骤C,分离广告识别内容。步骤D,将广告数据与广告投放信息进行比较;和步骤 E,将广告数据与广告投放信息进行比较后,输出广告投放状态结果。该系统是用于实现上述方法的系统。本发明通过对第三方媒体网站的页面内容进行采集实现广告投放自动化,利用广告内容特征模型识别广告内容,无需经过第三方媒体界面。监视器。,以下是互联网第三方媒体网站广告监测方法及系统专利的具体信息内容。在第三方媒体网站的页面内容上,利用广告内容特征模型识别广告内容,无需经过第三方媒体接口。监视器。,以下是互联网第三方媒体网站广告监测方法及系统专利的具体信息内容。在第三方媒体网站的页面内容上,利用广告内容特征模型识别广告内容,无需经过第三方媒体接口。监视器。,以下是互联网第三方媒体网站广告监测方法及系统专利的具体信息内容。

  权利请求

  1.互联网第三方媒体网站广告监测方法,其特征在于包括以下步骤: 步骤A,对媒体网站的页面内容执行采集,媒体网站@网站的页面内容的URL是广告空间所在的URL,媒体网站的信息和媒体下的广告空间的信息< @网站 存储在媒体管理数据库中;

  步骤B、根据广告内容特征模型提取页面内容,提取与广告内容特征模型匹配的页面内容,并将提取的页面内容记录为广告识别内容,将广告内容特征模型存储在广告中特征数据库。中间;

  步骤C、分离广告标识内容,分离内容包括广告投放思路、广告投放地址、广告位权重、广告位所在媒体网站的页面地址、广告投放时间表,将分离的内容记录为广告数据;

  步骤D、将广告数据与广告投放信息进行对比,将广告投放信息存储在广告信息管理数据库中,广告投放信息包括原创广告投放思路、原创广告投放地址、原创广告位置权重,原创广告投放位所在媒体网站的页面地址和原创广告投放时间表;

  步骤E,将广告数据与广告投放信息进行比较后,输出广告投放状态结果。

  2.如权利要求1所述的互联网第三方媒体网站的广告监控方法,其特征在于,在步骤C中,进一步访问广告投放地址,识别301跳转和302跳转. 转,采集每次跳转的地址,直到页面跳转到最后一页,所有采集到的跳转地址都属于广告投放地址。

  3.互联网第三方媒体网站广告监控系统,其特点是包括以下组件,一个广告采集模块:对页面内容执行采集 media 网站 , 媒体 网站 的页面内容的 URL 是广告空间所在的 URL,媒体 网站 的信息和广告空间的信息在媒体 网站 存储在媒体管理数据库中;

  广告提取模块:根据广告内容特征模型提取页面内容,提取与广告内容特征模型匹配的页面内容,并将提取的页面内容记录为广告识别内容,将广告内容特征模型存储在广告功能。在数据库中;

  广告分离模块:分离广告标识的内容。分离的内容包括广告投放创意、广告投放地址、广告位权重、广告位所在媒体网站的页面地址、广告投放时间表。分离的内容被记录为广告数据;

  广告比对模块:将广告数据与广告投放信息进行对比,广告投放信息存储在广告信息管理数据库中,广告投放信息包括原创广告投放思路、原创广告投放地址、原创广告位置权重, 原广告位所在媒体网站的页面地址和原广告投放时间表;

  结果展示模块:将广告数据与广告投放信息进行对比后,输出广告投放状态结果。

  4.根据权利要求1所述的互联网第三方媒体网站的广告监控方法,其特征在于,在广告分离模块中,进一步访问广告投放地址,301跳转和302 跳转被识别。跳转,采集每次跳转的地址,直到页面跳转到最后一页,所有采集到的跳转地址都属于广告投放地址。

  手册全文

  互联网第三方媒体网站广告监控方法及系统

  [0001]

  技术领域

  本发明涉及广告监测技术,具体涉及互联网第三方媒体网站广告监测方法及其系统。

  [0003]

  背景技术

  [0004] 如果某公司拥有或代理大量互联网媒体网站的广告资源,但只有使用权而没有经营权,那么对这些广告资源的监管能力很弱. 在现有技术中,没有第三种

  在方媒网站提供接口的情况下,由于广告抓取和识别的问题,无法实现广告投放的情况。

  情况的自动监控,也就是说目前对广告的监控还处于人工监控的阶段。

  [0005]

  发明内容

  [0006] 本发明的目的在于提供一种互联网第三方媒体网站的广告监控方法及系统,能够解决现有技术无法自动监控第三方广告的问题。媒体 网站。

  为实现上述目的,本发明采用的技术方案如下:互联网第三方媒体网站广告监控方法,还包括以下步骤:

  步骤A,对媒体网站的页面内容执行采集,媒体网站的页面内容的网址为广告位的位置。

  在网站中,媒体网站的信息和媒体网站下的广告位信息都存储在媒体管理数据库中;

  步骤B,根据广告内容特征模型提取页面内容,提取与广告内容特征模型匹配的页面内容。

  提取页面内容,将提取的页面内容记录为广告识别内容,存储广告内容特征模型

  在广告特征数据库中;

  步骤C,分离广告标识内容,分离内容包括广告投放创意、广告投放地址、广告投放

  位置权重,广告空间所在媒体网站的页面地址,以及广告投放时间表,将分离出来的内容记录为广告数据;

  步骤D,将广告数据与广告投放信息进行比较,将广告投放信息存储在广告信息管理系统中。

  数据库中的广告投放信息包括原创广告投放思路、原创广告投放地址、原创广告位置权重、原创广告投放

  帖子所在媒体网站的页面地址及原广告投放时间;

  步骤E,将广告数据与广告投放信息进行比较后,输出广告投放状态结果。

  作为优选,为了能够获取广告链接集合,对广告投放地址进行进一步访问,识别301跳转和302跳转,每次跳转的地址全部采集,直到页面跳转到最后一页, 采集到的

  您到达的所有跳转地址都属于广告投放地址。

  本发明还提供一种互联网第三方媒体网站广告监控系统,它包括以下部分,广告采集模块:对媒体网站的页面内容进行采集@>,媒体网站的页面内容的URL是

  广告空间所在的URL、媒体网站的信息和媒体网站下的广告空间信息都保存在媒体管理数据中。

  数据库;

  广告提取模块:根据广告内容特征模型提取页面内容,并与广告内容特征模型进行比较。

  提取匹配的页面内容,并将提取的页面内容记录为广告识别内容。广告内容特点

  模型存储在广告特征数据库中;

  广告分离模块:分离广告标识的内容,分离的内容包括广告投放创意、广告投放位置

  地址,广告位权重,广告位所在媒体网站的页面地址,以及广告投放时间表,将分离出来的内容记录为广告

  数据;

  广告比对模块:将广告数据与广告投放信息进行对比,广告投放信息存储在广告中

  在信息管理数据库中,广告投放信息包括原创广告投放构思、原创广告投放地址、原创广告投放权。

  re,原广告位所在媒体网站的页面地址,原广告投放时间;

  结果展示模块:将广告数据与广告投放信息进行对比后,输出广告投放状态结果。

  作为优选,为了能够获取广告链接集合,在广告分离模块中,进一步访问广告投放地址,识别301跳转和302跳转,将每次跳转的地址全部采集到页面跳转

  在最后一页,采集到的所有跳转地址都属于广告投放地址。

  本发明的有益效果是:对第三方媒体网站的页面内容进行采集,利用广告内容特征模型,不经过第三方媒体网站 @>

  方形媒体界面可识别广告内容,自动监控广告情况,并显示

  广告状态结果可以更直观地了解代理广告资源状态,为管理层提供决策依据,并提供资金支持

  为媒体和销售的业务和资源使用提供结算依据。

  [0012]

  图纸说明

  图1为本发明优选实施例的互联网第三方媒体网站广告监控方法的流程图;图2为本发明优选实施例的互联网第三方媒体网站广告监控系统的示意框图。

  [0014]

  详细说明

  [0015] 下面,结合附图和具体实施例,对本发明作进一步的说明,以更清楚地理解本发明所主张的技术思想。

  为了便于理解本发明,描述以下技术术语:媒体网站,管理其所属的多个广告位,相当于对广告位进行分类管理,本身包括自增加

  唯一ID,媒体网站名称,媒体网站URL,一个媒体网站可以收录多个广告位。

  [0017] 广告位,由媒体网站管理,一个广告位只对应一个媒体网站,其本身收录自增唯一ID,关联媒体网站ID,广告位名称、广告位权重、广告位状态以及广告位所在的媒体。

  正文 网站 的页面的 URL。

  [0018] 广告信息管理数据库包括广告商信息和广告投放信息。广告主信息包括:广告主唯一标识、广告主姓名、广告主*敏*感*词*。广告信息包括:自增唯一ID、关联广告

  位置 ID、关联的广告客户 ID、广告投放计划、广告投放创意、广告投放地址、广告投放表格、广告得分

  种类。

  通过广告位、广告主、广告投放信息之间的关联,就可以形成一个完整的广告投放,其具体内容包括:广告主、广告分类、媒体网站、广告空间、广告创意、广告链接、广告形式,

  开始和结束时间、具体的广告投放时间表和天数。

  [0020] 广告内容特征模型,通过前期对广告内容、广告链接等的采集和分析,找出其特征,并对其进行分类归纳,建立数据模型。

  如图1所示,联网第三方媒体网站广告监控方法,包括以下步骤: S01、定时对媒体网站的页面内容进行采集 @>(如每1小时或每2小时等),通过

  通过广告空间所在媒体网站的页面地址信息,定位到需要采集的目标页面,页面

  内容被爬取,爬取的信息中也收录了广告的相关信息,也就是媒体的页面网站

  页面内容的URL就是广告空间所在的URL;存储媒体网站的信息和媒体网站下的广告空间信息

  存储在媒体管理数据库中,媒体管理数据库中的数据可以传输到第三方系统(如媒体

  body 网站) 要导入的数据;

  S02、根据广告内容特征模型提取页面内容,找出页面内容中的广告,即

  提取与广告内容的特征模型相匹配的页面内容,并将提取的页面内容记录为广告标识的内容。

  内容,广告内容特征模型存储在广告特征数据库中,其中广告特征数据库中的数据为

  通过软件接口从第三方系统(如拥有广告特征数据库的公司)导入数据;

  其中,广告内容特征模型包括广告信息采集和广告内容特征分析;

  具体地,广告信息采集(即提取页面内容)经过以下步骤:

  页面内容爬取,先采集媒体URL,利用爬虫方式(如爬虫程序)海量采集媒体页面

  内容,其中采集的内容为文本超链接,包括文本内容、链接地址、链接在页面上出现的位置(即

  广告位权重);

  广告内容特征分析(即找出页面内容中的广告)执行以下步骤:

  E1、对于广告的链接地址,包括跳转的链接地址,找出它的常用关键字,比如链接出现的时候

  “ad”、“link”、“count”、“tongji”等字符,则该记录可以判断为广告(以链接为

  判断数据是做广告的第一依据);E2、通常情况下,根据链接判断是否是广告,比根据文字判断要好

  通过内容来判断更简单更准确,但是当根据链接还不能确定是否是广告时,

  需要根据文字内容判断是否为广告,例如找出广告标语的常用关键词,将关键词记录在

  标语出现的位置,例如标语的头部、标语的中间、标语的末尾

  例如,如果slogan是“特价酒店预订,秘密工具”,那么“特价”就是slogan中的关键词,它的位置

  设置是广告的头部,然后是关键词“特价”,出现在广告头部的是一个广告

  特征,如果文本内容符合该特征,则可以判断为广告;

  存储链接关键词和广告标语特征,以链接关键词为第一判断依据,以广告标语特征为补充。

  根据判断依据,可以建立广告内容特征分析模型;

  S03、分离广告标识的内容,分离的内容包括广告投放创意、广告投放地址、广告空间。

  权重、广告空间所在媒体网站的页面地址、广告投放时间表、分离内容作为广告数据记录;

  ,对广告投放地址进行进一步访问,识别301跳转和302跳转,并把每个跳转的地址

  一直采集到页面跳转到最后一页,采集到的所有跳转地址都属于广告

  广告链接的集合(包括起始地址、跳转地址和最终地址,如果广告投放地址尚未

  跳转,则只有一个起始地址);

  广告数据的最终数据记录如表1所示;

  广告数据的表示广告数据

  标语广告创意

  广告链接的聚合广告投放地址

  广告位在媒体网站页面的位置,广告页的大小(加权后),广告位的权重

  媒体网站页面URL 广告位所在媒体网站的URL

  时间广告投放时间表

  表格1

  S04、将广告数据与广告投放信息进行比较,广告投放信息存储在广告信息管理数据中

  数据库中的广告投放信息包括原创广告投放思路、原创广告投放地址、原创广告位置权重、原创广告投放

  位置所在媒体网站的页面地址及原广告投放时间;即广告数据中的具体表述与对应的项一一对应。

  对比广告信息的具体表达方式,如广告数据的广告创意与广告信息的原创广告

  放广告素材对比看看有没有变化;

  其中,广告信息管理数据库中的数据为第三方系统(如广告所有者

  发布信息的公司的数据)被导入;

  具体地,将广告数据与广告投放信息进行对比的过程如下:

  1)爬虫没有爬取当前广告位的广告数据,是异常,异常类型:无监控反馈数据;

  2)第一次匹配,根据爬回来的广告数据,找出与当前广告位置匹配的广告数据,并根据广告数据

  计算广告位所在行数与广告位页面总行数的比值,作为广告位权重的初始值;爬虫已经爬到

  当前广告位的广告数据,但广告数据的比例值与广告位权重不匹配,异常,异常类型

  类型:预定但未交付;

  3)爬虫已经爬取了当前广告位的广告数据,收录与当前广告位权重匹配的广告数量

  根据数据,匹配广告创意(去掉特殊符号,如*[][]等),如果广告创意与原广告相同

  如果广告创意不匹配,则为异常,异常类型:广告标语不匹配;

  4)如果广告口号符合原广告投放思路,则匹配广告最终投放地址。

  如果地址不匹配,则为异常,异常类型:广告链接不匹配;

  5)如果没有排程,但是爬虫有广告位的反馈记录,则异常,异常类型:没有排程,广告位被占用;

  6)好的。除上述5例外,其余情况正常。

  7) 匹配结束;S05、 输出广告数据和广告投放信息比较后的广告投放状态结果,公司经理就可以很直观了

  最重要的是看最终的广告投放时间表的时间。这

  这样,公司管理者就可以清楚地知道广告是否过期,是否需要续订,是否被媒体网站妥善管理等。

  广告状态结果如下表: 匹配结果说明

  无监控反馈数据 爬虫没有爬取当前广告位的广告数据

  有爬虫已经抓取到当前广告位的广告数据,但是广告数据的比例值与广告位的权重不匹配。

  广告标语与爬虫抓取到当前广告位的广告数据不匹配,当前广告位权重中收录的广告数据与广告标语匹配(去掉特殊符号,如*[][ ]等),如果广告标语与日程不符

  广告链接不匹配。如果广告口号与日程匹配,则匹配广告的最终链接地址。如果链接地址不匹配

  没有投放调度,如果广告位没有调度,但是爬虫有广告位的反馈记录

  占据

  正常 除上述5例外,其余情况正常。

  为了实现上述方法,本实施例还提供了一种互联网第三方媒体网站广告监控系统10,包括

  包括以下部分,

  广告采集模块100:对媒体网站的页面内容执行采集,以及

  地址是广告空间所在的网站。媒体网站的信息和媒体网站下的广告空间信息存储在媒体管理中

  在管理数据库600中;

  广告提取模块200:根据广告内容特征模型提取页面内容,并与广告内容特征进行比较。

  提取与模型匹配的页面内容,并将提取的页面内容记录为广告识别内容。

  特征模型存储在广告特征数据库700中;

  广告分离模块300:分离广告标识内容,分离的内容包括广告投放创意、广告投放

  投放地址、广告位权重、广告位所在媒体网站的页面地址、广告投放时间,分离后的内容记为

  广告数据;其中,需要进一步访问广告投放地址,识别301跳转和302跳转,并将

  采集每次跳转的地址,直到页面跳转到最后一页,采集到的所有跳转地址都属于宽

  发出通知的地址;

  广告比对模块400:将广告数据与广告投放信息进行比较,广告投放信息存储在

  在广告信息管理数据库800中,广告投放信息包括原创广告投放创意、原创广告投放地址、原创广告投放

  广告位权重、原广告位所在媒体网站的页面地址、原广告投放时间表;

  结果显示模块500:将广告数据与广告投放信息进行比较后,输出广告投放状态结果。

  本实施例具有以下技术效果:1.在第三方媒体网站不提供数据接口的情况下,第三方媒体网站可以广泛地使用被采集。

  广告信息,采用页面广告识别技术、广告链接跳转分析技术、广告链接页面内容分析技术。

  2.广告内容特征模型,采集大量广告数据,通过数据挖掘和数据分析,建立(手机)互联网媒体网站广告特征库,对这些广告特征进行进一步分类。类和分析,形成一个广泛的

  广告内容特征匹配模型用于通过该模型识别网页内容上的广告。

  [0026]3.广告内容比对,通过内容匹配技术,将采集到的信息与广告投放信息进行对比筛选,判断广告投放状况,实现广告投放情况的自动监控结果展示.

  对于本领域的技术人员来说,根据上述技术方案和设计,还可以进行其他各种相应的变化和变形,所有这些变化和变形均应属于本发明权利要求的保护范围。

  周界之内。

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线