干货内容:SEO如何处理采集内容

优采云发布时间: 2022-10-18 06:09

　　干货内容:SEO如何处理采集内容

　　额外的：

　　这么久才开通留言功能，好丢人，这篇是本渣渣图新鲜试试留言功能用的，没有干货

　　采集内容对 SEO 有效吗？

　　有人说采集的内容对搜索引擎不太友好，也不容易获得排名。这是确定的和不可避免的。

　　对于大多数网站来说，采集的内容一定不如 UGC，精心编辑的内容。但是，搜索引擎能够获取到的原创内容的数量已经没有以前那么多了。毕竟内容制作平台已经转移，早就不再专注于网站了。其他几个搜索引擎也互相捕捉，更不用说小型网站了。

　　所以采集的内容仍然有效，但是对采集的内容进行后处理的成本越来越高。

　　采集内容后处理

　　担心采集内容效果不好，或者容易被K，主要看如何对内容进行后期处理。例如：

　　比如你从沃尔玛拿一篮猕猴桃原封不动的放在家乐福，最多就是原价，因为猕猴桃还是猕猴桃，货还是一样的。但是把猕猴桃挤成汁（改变形状），装瓶加点水（改变颗粒大小），在711卖（换平台），价格可以翻倍（增值）

　　为什么？

　　如果将“采集 content”比作“kiwi fruit”，“采集 content”的后处理策略如下：

　　采集内容全流程

　　关于“采集内容处理”，从爬取到启动的整个过程，必须解决以下问题：

　　采集内容从何而来？

　　对于认真认真的人，更适合定位采集，购买专业资料。

　　针对采集，只捕获了网站的几个特定范围，与本站内容的漏洞高度相关。

　　对于那些不是认真的站的人来说，有更多的选择可供选择。你可以抓取所有触及边缘的内容，并且需要注意大音量，因此无需限制某些站点的抓取。有人叫它Pan采集

　　设置几个主题，直接抓取各大平台的搜索结果。大平台是什么意思？海量内容集中的地方：各种搜索引擎、各种门户、今日头条、微信微博、优酷土豆等。

　　采集如何抓取内容？方向采集：

　　算了吧，像往常一样抓住它。

　　潘采集:

　　定向爬虫仅限于网页模板，在此基础上增加了几种内容分析算法，将内容提取出来，变成一个通用的爬虫。

　　很多浏览器插件，比如印象笔记，都有很多类似“只看文字”的功能。点击只显示当前浏览网页的文字信息。很多人将这样的算法移植到python、php、java等编程中。从语言上来说，只是搜索。

　　采集内容是如何处理的？

　　两个顺序过程：

　　原创内容的处理

　　百度专利称，搜索引擎除了根据文本判断内容的相似度外，还会根据 HTML 的 DOM 节点的位置和顺序进行判断。如果两个网页的 HTML 结构相似，也可能被视为重复内容。

　　所以采集的内容不能直接上传，必须清理源码。每个人都有不同的方法，但通常会执行以下操作：

　　删除汉字<100个字符

　　 text = re.sub("[\s+\.\!\/_,$%^*(+\"\']+|[+——！，:：。？、~@#￥%……&*（）“”《》]+".decode("utf8"), "".decode("utf8"),newcontent)

text2 = re.sub(']*?>','',text)

words_number = len(text2)

　　删除垃圾邮件

　　如“XXX网络编辑器：XXX”、邮箱地址等。.

　　组织处理的内容

　　其实只是形式上的改变。我之前写过一篇文章，介绍了几种“组织内容”的方法，见：

　　核心方法:一种采集动态网页完整数据内容的方法技术

　　本发明专利技术涉及网络网页信息采集领域，旨在提供一种采集动态网页完整数据内容的方法。采集动态网页完整数据内容的方法包括：通过模拟浏览器打开需要采集的动态网页，获取真实环境中的页面状态；遍历页面的DOM树结构，或者将带有点击事件和鼠标悬停事件的标签对应的DOM元素节点标记为排队，同时将超链接标签和按钮标签对应的DOM元素节点进行标记，标记的DOM元素节点存储在处理队列中；循环处理处理队列中的标签。当处理队列为空时，维护动态页面的完整页面数据。本发明专利技术采用模拟用户行为的方法，通过触发网页的各种事件，并对原有的事件处理函数进行监控和修改，从而全面获取和改进网页的整体内容。

　　下载所有详细的技术数据

　　【技术实现步骤总结】

　　采集动态网页完整数据内容的一种方法

　　本专利技术涉及网络网页信息采集领域，具体涉及一种采集动态网页完整数据内容的方法。

　　技术介绍

　　随着互联网技术的飞速发展，互联网已经成为海量信息的载体。通过对数据的分析，可以提取出大量有价值的信息，而数据量的多少直接决定了能否获取信息以及获取信息的准确性。在网页仍以静态页面为主的时期，采集网页数据只需要获取服务器的响应内容即可。如何通过一个或部分页面找到更多相关页面是网页信息采集的关键。传统的网络爬虫就是这样一种数据采集工具。网络爬虫是一种程序或脚本，可以自动爬取具有固定规则的网页。网络爬虫通常以一个或多个 URL（UniformResourceLocator、Uniform Resource Locator）、请求、获取并分析该URL对应的初始网页的内容并提取该URL，然后对这些新获取的URL重复前面的处理。在爬取网页的过程中，爬虫会不断的获取当前页面的URL，并将这些URL加入到队列中。爬虫会定期检查队列，如果队列不为空，则爬取队列中的 URL。当满足一定的停止条件时，爬虫会自动停止。对于静态网页，爬虫通常只需要通过HTTP（HyperTextTransferProtocol，超文本传输协议）请求获取网页的完整数据，然后对内容进行一次分析（例如通过正则匹配提取URL）。然而，随着web 2.0的出现，这种分析 URL 请求结果的方法降低了信息获取的可能性和完整性。这主要是因为web 2.0的动态网页技术使得对网页URL的一次请求无法获得完整的网页内容，有时甚至没有有用的信息。通常，动态页面与HTTP请求对应的页面数据非常少。经常需要在页面中执行 JavaScript 脚本来动态生成一些页面内容，有时甚至在一些用户操作后会在页面中添加一些数据。这一点在使用AJAX（Asynchronous JavaScript And XML，异步JavaScript和XML）技术的网页中尤为突出，很多信息需要后续的一个或多个异步请求才能获取。

　　技术实现思路

　　该专利技术的主要目的是克服现有技术的不足，提供一种可以完成采集动态页面数据内容的方法。为了解决上述技术问题，本专利技术的解决方案是：提供一种采集动态网页完整数据内容的方法，具体包括以下步骤：步骤（1） : 打开需要的采集

　　在专利技术中，在步骤（1）中，不能按要求加载图片和视频资源，从而提高采集的速度。该专利技术的工作原理：通过模拟浏览器环境，完全加载一个动态生成的页面，然后模拟用户的使用行为，如点击页面上的按钮、鼠标移动到图标上等，触发动态网页脚本。执行、异步请求等过程，最后重写并记录脚本执行过程中修改页面数据信息结构的操作，通过广度优先搜索维护完整的页面结构，获取完整的网页信息。与现有技术相比，本专利技术的有益效果是：对于只请求一次然后处理HTTP响应的方法，这种方法的优点在于采用加载完整网页的方法，可以获得更完整的页面数据。此外，该专利技术采用模拟用户行为的方法，通过触发网页的各种事件，并对原有的事件处理函数进行监控和修改，从而全面获取和改进网页的整体内容。另一方面，现有的动态页面采集技术也存在缺陷。大部分只是通过触发一些设定的用户行为来获取新生成的页面数据，比如点击一些特定的按钮，提交一些表单来获取链接等信息，而没有维护和更新页面的DOM结构。它不会通过广度优先搜索的方式不断处理展开页面的DOM结构。虽然比静态采集好很多，但采集到的数据还是不完整的。

　　有些方法主要是针对如何获取动态页面中的动态链接而设计的，并不通用。但是，该方法不限于采集链接或某些类型的网站，是一种获取和采集动态网页完整数据内容的方法。附图说明图。图1是根据专利技术的动态网页内容采集的流程图。具体实施方式首先需要说明的是，本专利技术是计算机技术在网络网页信息采集领域的应用。在专利技术的实施过程中，会涉及到多种算法的应用。申请人认为，在仔细阅读申请文件后，准确理解专利技术的实现原理和专利技术的目的，并结合现有的已知技术，本领域技术人员可以利用所掌握的软件编程技能来实现发明。专利技术。本专利技术申请文件中提及的均属于此类，申请人不再一一列举。下面结合附图和具体实施例对本专利技术作进一步详细说明：一种图1所示的采集动态网页的完整数据内容的方法，通过模拟浏览器，模拟用户点击、悬停等行为，触发动态网页的动态过程，通过*敏*感*词*和修改原生HTTP请求，添加，删除、修改DOM节点的行为处理函数，尽可能多地获取动态网页的信息，最终获得比初始页面更完整的页面，并且一个网页的信息总量更接近于内容网页结构。步骤如下： 1.1）设置需要采集的内容的URL，在模拟浏览器中请求初始内容；1.2) 加载页面的JavaScript；1.3) 遍历页面的DOM节点，会有点击等事件 1.4) 判断处理队列是否为空，如果不是，执行1.5)，如果为空，执行1.6)；1.5）取出队列的第一个元素节点并触发其事件；1.6) 对最终页面内容进行静态分析，获取所需信息，流程结束。下面是在另一个线程中并发执行的过程。2.1）*敏*感*词*事件的发生，根据不同的事件进行不同的处理，H

　　【技术保护点】

　　一种采集动态网页完整数据内容的方法，其特征在于，具体包括以下步骤：步骤(1)：模拟浏览器打开需要采集的动态网页，执行JavaScript脚本，获取真实环境中的页面状态；步骤（2）：遍历步骤（1）得到的页面的DOM树结构，比较标签对应的DOM元素节点或添加点击事件和鼠标悬停事件标记排队标记，并标记对应的DOM元素节点同时到超链接标签和按钮标签；将标记的DOM元素节点保存到处理队列中；步骤（3）：循环处理队列中的标签，触发点击事件或悬停事件；监控生成的 HTTP 请求，以及添加，删除和修改DOM元素节点，禁止网页的页面跳转行为；步骤(4)：根据步骤(3)中不同的行为，进行不同的处理如下： a)如果生成的行为是HTTP请求，则发送请求，并回调网页的响应处理过程获得响应时的脚本；b) 如果生成的行为是添加 DOM 元素节点，则执行请求。行为，将DOM元素节点添加到网页的DOM树结构中对应的DOM元素节点中，对添加的DOM元素节点进行遍历分析，对于网页标签对应的DOM元素节点具有步骤( 2) 标记排队并加入处理队列；c) 如果结果行为是删除 DOM 元素节点，则不会删除原来的 DOM 元素节点，只会修改 DOM 元素节点的 id 和 name，修改后的 DOM 元素节点会被修改。将节点标记为删除；d) 如果产生的行为是修改DOM元素节点，复制原DOM元素节点，修改原DOM元素节点的id和name，用修改标记标记修改后的原DOM元素节点，然后把受监控的修改应用于复制后的新 DOM 元素节点；最后，对复制的应用修改的DOM元素节点进行分析，如果是具有步骤(2)中描述的特征的网页标签对应的DOM元素，则将该节点标记并添加到处理队列中；步骤（5）：

　　【技术特点总结】

　　1.一种采集动态网页完整数据内容的方法，其特征在于，具体包括以下步骤：步骤(1)：通过模拟浏览器打开需要采集的动态网页，以及执行网页中的JavaScript脚本，获取真实环境中的页面状态；步骤(2)：遍历步骤(1)中得到的页面的DOM树形结构，比较标签对应的DOM或添加点击事件和鼠标悬停事件。元素节点打上排队标记，同时标记超链接标签和按钮标签对应的DOM元素节点；标记的DOM元素节点存储在处理队列中；步骤（3）：循环处理队列中的标签，并触发点击事件或悬停事件一一发生；监控生成的 HTTP 请求，以及DOM元素节点的添加、删除和修改，禁止网页的页面跳转行为；步骤(4)：根据步骤(3)中的不同行为，进行不同的处理，如下： a) 如果生成的行为是HTTP请求，则发送请求，并回调网页脚本的响应处理过程当得到响应时；b) 如果生成的行为是添加DOM元素节点，则执行该行为，将DOM元素节点添加到对应的D... 并在获得响应时回调网页脚本的响应处理过程；b) 如果生成的行为是添加DOM元素节点，则执行该行为，将DOM元素节点添加到对应的D... 并在获得响应时回调网页脚本的响应处理过程；b) 如果生成的行为是添加DOM元素节点，则执行该行为，将DOM元素节点添加到对应的D...

　　【专利技术性质】

　　技术研发人员：陈高祥、范远、

　　申请人（专利权）持有人：杭州安恒信息技术*敏*感*词*，

　　类型：发明

　　国家省份：浙江，33

　　下载所有详细的技术数据我是该专利的所有者

0

2022-10-18

内容采集

0 个评论

要回复文章请先登录或注册

AI时代内容工厂

干货内容:SEO如何处理采集内容

0 个评论

发起人

AI时代内容工厂

干货内容:SEO如何处理采集内容

0 个评论

发起人

相关问题