干货内容:SEO如何处理采集内容
优采云 发布时间: 2022-10-18 06:09干货内容:SEO如何处理采集内容
额外的:
这么久才开通留言功能,好丢人,这篇是本渣渣图新鲜试试留言功能用的,没有干货
采集内容对 SEO 有效吗?
有人说采集的内容对搜索引擎不太友好,也不容易获得排名。这是确定的和不可避免的。
对于大多数网站来说,采集 的内容一定不如 UGC,精心编辑的内容。但是,搜索引擎能够获取到的原创内容的数量已经没有以前那么多了。毕竟内容制作平台已经转移,早就不再专注于网站了。其他几个搜索引擎也互相捕捉,更不用说小型网站了。
所以 采集 的内容仍然有效,但是对 采集 的内容进行后处理的成本越来越高。
采集内容后处理
担心采集内容效果不好,或者容易被K,主要看如何对内容进行后期处理。例如:
比如你从沃尔玛拿一篮猕猴桃原封不动的放在家乐福,最多就是原价,因为猕猴桃还是猕猴桃,货还是一样的。但是把猕猴桃挤成汁(改变形状),装瓶加点水(改变颗粒大小),在711卖(换平台),价格可以翻倍(增值)
为什么?
如果将“采集 content”比作“kiwi fruit”,“采集 content”的后处理策略如下:
采集内容全流程
关于“采集内容处理”,从爬取到启动的整个过程,必须解决以下问题:
采集内容从何而来?
对于认真认真的人,更适合定位采集,购买专业资料。
针对采集,只捕获了网站的几个特定范围,与本站内容的漏洞高度相关。
对于那些不是认真的站的人来说,有更多的选择可供选择。你可以抓取所有触及边缘的内容,并且需要注意大音量,因此无需限制某些站点的抓取。有人叫它Pan采集
设置几个主题,直接抓取各大平台的搜索结果。大平台是什么意思?海量内容集中的地方:各种搜索引擎、各种门户、今日头条、微信微博、优酷土豆等。
采集如何抓取内容?方向 采集:
算了吧,像往常一样抓住它。
潘采集:
定向爬虫仅限于网页模板,在此基础上增加了几种内容分析算法,将内容提取出来,变成一个通用的爬虫。
很多浏览器插件,比如印象笔记,都有很多类似“只看文字”的功能。点击只显示当前浏览网页的文字信息。很多人将这样的算法移植到python、php、java等编程中。从语言上来说,只是搜索。
采集内容是如何处理的?
两个顺序过程:
原创内容的处理
百度专利称,搜索引擎除了根据文本判断内容的相似度外,还会根据 HTML 的 DOM 节点的位置和顺序进行判断。如果两个网页的 HTML 结构相似,也可能被视为重复内容。
所以采集的内容不能直接上传,必须清理源码。每个人都有不同的方法,但通常会执行以下操作:
删除汉字<100个字符
text = re.sub("[\s+\.\!\/_,$%^*(+\"\']+|[+——!,::。?、~@#¥%……&*()“”《》]+".decode("utf8"), "".decode("utf8"),newcontent)
text2 = re.sub(']*?>','',text)
words_number = len(text2)
删除垃圾邮件
如“XXX网络编辑器:XXX”、邮箱地址等。.
组织处理的内容
其实只是形式上的改变。我之前写过一篇文章,介绍了几种“组织内容”的方法,见:
核心方法:一种采集动态网页完整数据内容的方法技术
本发明专利技术涉及网络网页信息采集领域,旨在提供一种采集动态网页完整数据内容的方法。采集动态网页完整数据内容的方法包括:通过模拟浏览器打开需要采集的动态网页,获取真实环境中的页面状态;遍历页面的DOM树结构,或者将带有点击事件和鼠标悬停事件的标签对应的DOM元素节点标记为排队,同时将超链接标签和按钮标签对应的DOM元素节点进行标记,标记的DOM元素节点存储在处理队列中;循环处理处理队列中的标签。当处理队列为空时,维护动态页面的完整页面数据。本发明专利技术采用模拟用户行为的方法,通过触发网页的各种事件,并对原有的事件处理函数进行监控和修改,从而全面获取和改进网页的整体内容。
下载所有详细的技术数据
【技术实现步骤总结】
采集动态网页完整数据内容的一种方法
本专利技术涉及网络网页信息采集领域,具体涉及一种采集动态网页完整数据内容的方法。
技术介绍
随着互联网技术的飞速发展,互联网已经成为海量信息的载体。通过对数据的分析,可以提取出大量有价值的信息,而数据量的多少直接决定了能否获取信息以及获取信息的准确性。在网页仍以静态页面为主的时期,采集网页数据只需要获取服务器的响应内容即可。如何通过一个或部分页面找到更多相关页面是网页信息采集的关键。传统的网络爬虫就是这样一种数据采集工具。网络爬虫是一种程序或脚本,可以自动爬取具有固定规则的网页。网络爬虫通常以一个或多个 URL(UniformResourceLocator、Uniform Resource Locator)、请求、获取并分析该URL对应的初始网页的内容并提取该URL,然后对这些新获取的URL重复前面的处理。在爬取网页的过程中,爬虫会不断的获取当前页面的URL,并将这些URL加入到队列中。爬虫会定期检查队列,如果队列不为空,则爬取队列中的 URL。当满足一定的停止条件时,爬虫会自动停止。对于静态网页,爬虫通常只需要通过HTTP(HyperTextTransferProtocol,超文本传输协议)请求获取网页的完整数据,然后对内容进行一次分析(例如通过正则匹配提取URL)。然而,随着web 2.0的出现,这种分析 URL 请求结果的方法降低了信息获取的可能性和完整性。这主要是因为web 2.0的动态网页技术使得对网页URL的一次请求无法获得完整的网页内容,有时甚至没有有用的信息。通常,动态页面与HTTP请求对应的页面数据非常少。经常需要在页面中执行 JavaScript 脚本来动态生成一些页面内容,有时甚至在一些用户操作后会在页面中添加一些数据。这一点在使用AJAX(Asynchronous JavaScript And XML,异步JavaScript和XML)技术的网页中尤为突出,很多信息需要后续的一个或多个异步请求才能获取。
技术实现思路
该专利技术的主要目的是克服现有技术的不足,提供一种可以完成采集动态页面数据内容的方法。为了解决上述技术问题,本专利技术的解决方案是:提供一种采集动态网页完整数据内容的方法,具体包括以下步骤: 步骤(1) : 打开需要的 采集
在专利技术中,在步骤(1)中,不能按要求加载图片和视频资源,从而提高采集的速度。该专利技术的工作原理:通过模拟浏览器环境,完全加载一个动态生成的页面,然后模拟用户的使用行为,如点击页面上的按钮、鼠标移动到图标上等,触发动态网页脚本。执行、异步请求等过程,最后重写并记录脚本执行过程中修改页面数据信息结构的操作,通过广度优先搜索维护完整的页面结构,获取完整的网页信息。与现有技术相比,本专利技术的有益效果是:对于只请求一次然后处理HTTP响应的方法,这种方法的优点在于采用加载完整网页的方法,可以获得更完整的页面数据。此外,该专利技术采用模拟用户行为的方法,通过触发网页的各种事件,并对原有的事件处理函数进行监控和修改,从而全面获取和改进网页的整体内容。另一方面,现有的动态页面采集技术也存在缺陷。大部分只是通过触发一些设定的用户行为来获取新生成的页面数据,比如点击一些特定的按钮,提交一些表单来获取链接等信息,而没有维护和更新页面的DOM结构。它不会通过广度优先搜索的方式不断处理展开页面的DOM结构。虽然比静态采集好很多,但采集到的数据还是不完整的。
有些方法主要是针对如何获取动态页面中的动态链接而设计的,并不通用。但是,该方法不限于采集链接或某些类型的网站,是一种获取和采集动态网页完整数据内容的方法。附图说明图。图1是根据专利技术的动态网页内容采集的流程图。具体实施方式首先需要说明的是,本专利技术是计算机技术在网络网页信息采集领域的应用。在专利技术的实施过程中,会涉及到多种算法的应用。申请人认为,在仔细阅读申请文件后,准确理解专利技术的实现原理和专利技术的目的,并结合现有的已知技术,本领域技术人员可以利用所掌握的软件编程技能来实现发明。专利技术。本专利技术申请文件中提及的均属于此类,申请人不再一一列举。下面结合附图和具体实施例对本专利技术作进一步详细说明:一种图1所示的采集动态网页的完整数据内容的方法,通过模拟浏览器,模拟用户点击、悬停等行为,触发动态网页的动态过程,通过*敏*感*词*和修改原生HTTP请求,添加,删除、修改DOM节点的行为处理函数,尽可能多地获取动态网页的信息,最终获得比初始页面更完整的页面,并且一个网页的信息总量更接近于内容网页结构。步骤如下: 1.1)设置需要采集的内容的URL,在模拟浏览器中请求初始内容;1.2) 加载页面的JavaScript;1.3) 遍历页面的DOM节点,会有点击等事件 1.4) 判断处理队列是否为空,如果不是,执行1.5),如果为空,执行1.6);1.5)取出队列的第一个元素节点并触发其事件;1.6) 对最终页面内容进行静态分析,获取所需信息,流程结束。下面是在另一个线程中并发执行的过程。2.1)*敏*感*词*事件的发生,根据不同的事件进行不同的处理,H
【技术保护点】
一种采集动态网页完整数据内容的方法,其特征在于,具体包括以下步骤: 步骤(1):模拟浏览器打开需要采集的动态网页,执行JavaScript脚本,获取真实环境中的页面状态;步骤(2):遍历步骤(1)得到的页面的DOM树结构,比较标签对应的DOM元素节点或添加点击事件和鼠标悬停事件标记排队标记,并标记对应的DOM元素节点同时到超链接标签和按钮标签;将标记的DOM元素节点保存到处理队列中;步骤(3):循环处理队列中的标签,触发点击事件或悬停事件;监控生成的 HTTP 请求,以及添加,删除和修改DOM元素节点,禁止网页的页面跳转行为;步骤(4):根据步骤(3)中不同的行为,进行不同的处理如下: a)如果生成的行为是HTTP请求,则发送请求,并回调网页的响应处理过程获得响应时的脚本;b) 如果生成的行为是添加 DOM 元素节点,则执行请求。行为,将DOM元素节点添加到网页的DOM树结构中对应的DOM元素节点中,对添加的DOM元素节点进行遍历分析,对于网页标签对应的DOM元素节点具有步骤( 2) 标记排队并加入处理队列;c) 如果结果行为是删除 DOM 元素节点,则不会删除原来的 DOM 元素节点,只会修改 DOM 元素节点的 id 和 name,修改后的 DOM 元素节点会被修改。将节点标记为删除;d) 如果产生的行为是修改DOM元素节点,复制原DOM元素节点,修改原DOM元素节点的id和name,用修改标记标记修改后的原DOM元素节点,然后把受监控的修改应用于复制后的新 DOM 元素节点;最后,对复制的应用修改的DOM元素节点进行分析,如果是具有步骤(2)中描述的特征的网页标签对应的DOM元素,则将该节点标记并添加到处理队列中;步骤(5):
【技术特点总结】
1.一种采集动态网页完整数据内容的方法,其特征在于,具体包括以下步骤: 步骤(1):通过模拟浏览器打开需要采集的动态网页,以及执行网页中的JavaScript脚本,获取真实环境中的页面状态;步骤(2):遍历步骤(1)中得到的页面的DOM树形结构,比较标签对应的DOM或添加点击事件和鼠标悬停事件。元素节点打上排队标记,同时标记超链接标签和按钮标签对应的DOM元素节点;标记的DOM元素节点存储在处理队列中;步骤(3):循环处理队列中的标签,并触发点击事件或悬停事件一一发生;监控生成的 HTTP 请求,以及DOM元素节点的添加、删除和修改,禁止网页的页面跳转行为;步骤(4):根据步骤(3)中的不同行为,进行不同的处理,如下: a) 如果生成的行为是HTTP请求,则发送请求,并回调网页脚本的响应处理过程当得到响应时;b) 如果生成的行为是添加DOM元素节点,则执行该行为,将DOM元素节点添加到对应的D... 并在获得响应时回调网页脚本的响应处理过程;b) 如果生成的行为是添加DOM元素节点,则执行该行为,将DOM元素节点添加到对应的D... 并在获得响应时回调网页脚本的响应处理过程;b) 如果生成的行为是添加DOM元素节点,则执行该行为,将DOM元素节点添加到对应的D...
【专利技术性质】
技术研发人员:陈高祥、范远、
申请人(专利权)持有人:杭州安恒信息技术*敏*感*词*,
类型:发明
国家省份:浙江,33
下载所有详细的技术数据 我是该专利的所有者