软文采集系统( 本发明基于人工智能自动屏蔽或提示软文广告的方法和系统)
优采云 发布时间: 2021-09-05 06:09软文采集系统(
本发明基于人工智能自动屏蔽或提示软文广告的方法和系统)
本发明涉及网络应用和人工智能技术领域,具体涉及一种基于人工智能自动屏蔽或提示软文广告的方法及系统。
背景技术:
软文 广义的广告通常是指企业计划在报纸、杂志或互联网等上发布的一些宣传和说明性的文章,可以提升企业品牌形象和知名度,或者可以促进企业销售。包括具体的新闻报道、深度文章、付费短文广告、案例分析等。软文泛指所有含有软广告的文字内容。与硬广告相比,“文字广告”是由公司的营销策划人员或广告公司的文案撰写的。与硬广告相比,软文被称为软文。精妙之处在于“柔软”二字,犹如藏在棉花中的针。 ,你突然掉进了精心设计的“软文广告”陷阱。
在目前的网络环境下,网络软文正逐渐成为网络广告的主流载体。同时,由于其强大的效果和传播能力,对消费群体的影响是巨大的,而目前网络媒体为了保护自身利益,对软文广告基本上采取了放任自流的态度。消费者群体迫切需要通过技术手段对软文网络进行有效过滤和屏蔽。
技术实现要素:
本发明的技术任务是针对上述不足,提供一种基于人工智能自动屏蔽或提示软文广告的方法和系统,能够有效区分和屏蔽软文广告,减少用户上网时接触软文。软文广告干扰,节省时间。
本发明解决其技术问题所采用的技术方案是:
一种基于人工智能自动屏蔽或提示软文广告的方法。该方法通过设置分块软件获取网页正文的文本内容,并通过自然语言分析卷积神经网络对获取的文本内容进行分类;
通过自然语言分析和卷积神经网络分类预测,将文本中收录广告内容的网页定义为软文文章;
根据设置,定义为软文文章的网页无法打开或打开时在明显位置标记为软文。
其中描述的自然语言分析卷积神经网络在使用前进行了训练,并设置了判别软文文章标准。在使用时,根据用户的评分进行训练和更新。
具体来说,该方法的实现步骤如下:
所述拦截软件在用户点击链接后预先扫描网页内容,通过html标签获取网页正文内容,包括文字内容和图片内容;
将获取到的网页主要内容的文本部分保存到待处理的数据中,网页的图片部分通过图片转换软件进行转换,图片转换后的文字也保存在数据中待处理;
对需要处理的数据进行预处理以满足卷积神经网络的输入要求,并将预处理后的数据作为输入数据进入卷积神经网络进行自然语言分析;
通过卷积神经网络进行自然语言分析,判断网页内容是否为软文广告;
如果判断为软文advertisement,将根据用户的设置对该网页进行屏蔽或在网页加载时添加软文advertisement标识提醒用户注意。
优选地,数据预处理使用正则表达式从待处理数据中去除不符合神经网络输入要求的数据,将数据展平,并重新分配权重。
另外,不满足神经网络输入要求的数据包括数字、符号和英文。
数据处理最好还包括分词和词频计算。
具体来说,自然语言分析卷积神经网络在分析数据时,设置广告成分阈值,卷积神经网络进行自然语言分析,得到广告成分在数据中的占比。当比例超过所有阈值时,确定该网页内容为软文advertisement。
本发明还公开了一种基于人工智能自动屏蔽或提示软文广告的系统,包括数据采集模块、数据分析模块、数据处理模块和自然语言分析模块,
data采集模块用于获取网页的body内容,包括文字内容和图片内容;
数据分析模块用于对data采集module采集的网页内容进行分析,并将文本内容直接发送到数据处理模块;将图像内容转换为文本发送至数据处理模块;
数据处理模块用于去除待处理数据中不符合自然语言分析模块的元素,将数据扁平化,重新分配权重;
自然语言分析模块通过卷积神经网络获取数据中广告成分的比例,并将比例与阈值进行比较。当广告成分的比例超过阈值时,确定网页内容为软文广告并进行处理。
具体来说,数据处理模块使用正则表达式去除待处理数据中的数字、符号和英文。
此外,数据处理模块的数据处理还包括分词和词频计算。
此外,系统还收录一个自定义模块,用于设置判断为软文advertisement的网页,屏蔽该网页或在页面上添加醒目的标志,解释和提醒软文advertisement的性质。
与现有技术相比,本发明的基于人工智能的软文广告自动屏蔽或提示的方法及系统具有以下有益效果:
这种方式可以让用户有效区分或屏蔽软文广告,降低广告干扰程度,提醒用户浏览含有广告成分的文章,防止心理战术和消费导向灌输广告主,并可以维护用户的自由选择权和信息获取的公平性原则。
通过使用本系统,用户的网络环境得到保障,网页中软文广告被识别,软文被有效识别和判断,用户设置被屏蔽或标记在显着位置,有效保护消费者权益.
图纸说明
图1为本发明基于人工智能自动屏蔽或提示软文advertisement的系统*敏*感*词*。
具体实现方法
下面结合具体实施例对本发明作进一步说明。
一种基于人工智能自动屏蔽或提示软文广告的方法。该方法设置分块软件,在用户浏览网页之前预先获取网页主体的文本内容,并将获取的文本内容通过自然语言分析卷积神经网络进行分类;
通过自然语言分析和卷积神经网络分类预测,将文本中收录广告内容的网页定义为软文文章;
根据设置,定义为软文文章的网页无法打开或打开时在明显位置标记为软文。这样可以保证用户上网质量,减少软文广告的干扰,为用户节省时间,保证用户的网络环境。
其中描述的自然语言分析卷积神经网络在使用前经过训练,并设定了判别标准软文文章。在使用时,它会根据用户的标记不断训练和更新。通过使用卷积神经网络,随着软文advertisement的不断创新,实时优化软文advertisement的识别,不断优化网络环境,保障用户权益。
具体来说,该方法的实现步骤如下:
用户点击链接后,网页内容首先由拦截软件加载,预先扫描网页内容,拦截软件通过html标签获取网页的主要内容,包括文字内容和图片内容。
将获取到的网页主体内容的文本部分保存到待处理数据中,通过图片转文本软件将网页主体的图片部分进行转换。图片转文字软件的选择不限于此,可以实现这个功能。所有软件都可以使用,图片转换成的文字也存储在待处理的数据中。
之后,通过各种技术手段对要处理的数据进行预处理,使其满足卷积神经网络的输入要求。预处理后的数据作为输入数据进入卷积神经网络进行自然语言分析;预处理包括但不限于通过正则表达式去除待处理数据中不符合神经网络输入要求的数据、对数据进行展平、重新分配权重、分词、计算词频等。 ,不满足神经网络输入要求的数据包括数字、符号和英文。
预处理后的数据将作为输入数据进入卷积神经网络进行自然语言分析。通过卷积神经网络的自然语言分析,判断网页内容是否为软文advertisement。这里需要注意的是,卷积神经网络只是一种自然语言分析和结论的方法。这是众所周知的技术,为此卷积神经网络的详细建模方法不脱离本发明的保护范围。
自然语言分析卷积神经网络在分析数据时,设置广告成分阈值,卷积神经网络进行的自然语言分析得到广告成分在数据中的比例。当比例超过阈值时,确定网页内容为软文advertisement。
如果判断为软文advertisement,根据用户设置,阻止访问该网页,或者在加载网页时添加醒目的软文advertisement logo,并说明和提醒其软文advertisement的性质.
在本发明的另一个实施例中,一种基于人工智能自动屏蔽或提示软文广告的系统,该系统包括data采集模块、数据分析模块、数据处理模块和自然语言分析模块,哪里
data采集模块用于获取网页的body内容,包括文字内容和图片内容;
数据分析模块用于对data采集module采集的网页内容进行分析,并将文本内容直接发送到数据处理模块;将图像内容转换为文本发送至数据处理模块;
数据处理模块用于去除待处理数据中不符合自然语言分析模块的元素,将数据扁平化,重新分配权重;数据处理模块包括但不限于通过正则表达式去除需要处理的数据,对数据中的数字、符号和英文进行处理;数据处理模块的数据处理还包括分词和词频计算;
自然语言分析模块通过卷积神经网络获取数据中广告成分的比例,并将比例与阈值进行比较。当广告成分的比例超过阈值时,确定网页内容为软文广告并进行处理。
用户点击网页链接后,数据采集模块首先通过html标签获取网页的主题内容,数据分析模块将主要内容的文本部分保存到待处理的数据中, 并且将网页主页面的图片部分通过图片转换为文字由软件进行转换,网页正文中从图片中提取的文字也存储在待处理的数据中;
完成待处理的数据集后,数据处理模块首先对数据进行预处理,包括但不限于通过正则表达式去除待处理数据中不符合输入要求的数字、符号和英文神经网络,对数据进行扁平化,重新分配权重等,然后将处理后的数据当做处理后的数据;
将预处理后的数据输入卷积神经网络进行自然语言分析。通过自然语言分析模块,可以发现数据中收录广告成分。如果文本部分收录的广告成分高于阈值,则将文章和网页判断为软文advertisement。
该系统还可以收录一个用户定义的模块,用于设置判断为软文广告的网页。用户可以选择独立设置。对于文章和被判定为软文广告的网页,请屏蔽该网页或在页面上添加醒目的标志,以说明和提醒软文广告的性质。
通过上述具体实施例,本领域技术人员可以很容易地实现本发明。然而,应当理解,本发明不限于上述具体实施例。基于所公开的实施例,本领域技术人员可以任意组合不同的技术特征,实现不同的技术方案。
除手册中描述的技术特征外,均为专业技术人员已知技术。