干货教程:黑帽seo教程，如何从零开始学习黑帽SEO？

优采云发布时间: 2022-09-26 03:07

　　1.文章内容采集

　　说到内容采集相信大家都太熟悉了。基本上，所有 SEOers 都有“采集”一些内容。采集内容可以与 cms 程序一起使用。或者是软件的采集功能，充斥着大量低质量的网站内容和垃圾邮件。当然，采集网络里有很多重复的内容，我想最终的结果应该让所有SEO人都清楚。

　　“黑帽SEO”如何从零开始学习黑帽SEO？ “第三部分”

　　网络文章内容采集

　　常见的应用方法包括：使用采集器软件和伪原创工具来制造垃圾。

　　1、采集器

　　部分采集器具有内容采集和数据导入功能，可以将你采集的任意网页数据发布到远程服务器。业界对采集的内容嗤之以鼻，虽然大部分站长反对通过采集更新网站内容，但还是有不少站长通过各种手段更新内容采集一直都是。

　　利用采集程序抓取别人的网站内容，放到自己的网站上，这是一种很不公平的获取内容的方式，因为这种方式方便性有成为许多网站更新的手段和渠道，这可以被视为行业内不公平竞争的一种方式。

　　“黑帽SEO”如何从零开始学习黑帽SEO？ “第三部分”

　　另外，采集内容质量控制的难度也是抵制采集的另一个重要原因。现在很多站长使用程序来处理采集内容，而现有的技术对文章中不利于网站开发的内容，比如坏屏句子等无法安全过滤。即使你从权威的网站上传采集内容，其他网站内容也未必适合你的网站内容更新，网站本身的开发有差异。现在搜索引擎的人性化水平逐渐提高，作弊的手段很容易对搜索引擎不友好。发展后果是完全值得的。无论如何，采集的内容不能让网站长期存活，也不适合网站的长期运营，所以灯塔seo不推荐大家用这个方法。

　　“黑帽SEO”如何从零开始学习黑帽SEO？ “第三部分”

　　2、伪原创工具

　　所谓伪原创就是对文章的一篇文章进行再处理，让搜索引擎认为是原创文章的一篇文章，从而增加权重网站的。随着seo的发展，出现了“伪原创”这个产品，被很多SEOer迷住了，不能自拔。运营站群的站长还是很多的，网站从几百到上千不等。网站的阵容如果用原创更新*敏*感*词*是个无底洞，而采集是最简洁方便的方法。

　　“黑帽SEO”如何从零开始学习黑帽SEO？ “第三部分”

　　可能有人会问：“采集的目的是什么？”很简单，当然就是获取大量的内容信息，然后自己集成一个高质量的伪原创。这种方法比在那里思考要好一百万倍。当然，坚持原创是好的，但是由于种种原因，不要随意填写垃圾内容。

　　我们知道搜索引擎喜欢原创*敏*感*词*内容，它会认为它对于重复内容没有收录价值。如果网站上的大量内容被转载，搜索引擎会觉得整个网站价值不大，从而降低网站的权重。网站排名自然不会很高。因为伪原创工具是机械的、死板的，这些工具无非是替换词，比如同义词，甚至是反义词，与原意完全相反，没有观点或错误观点，对网站长远发展无害。

　　“黑帽SEO”如何从零开始学习黑帽SEO？ “第三部分”

　　同时，这些伪原创工具还具有打乱文章的段落和句型的“能力”，使得文章看起来与序言不一致，使听起来有点刺耳。这样的文章胡说八道，仅适用于搜索引擎。网站的最终目的是向用户展示。网站的大量文章看不懂，句子没意思。如果你看到别人的网站是这样的，也一定要马上点击屏幕右上角的红叉。今年，搜索引擎对内容的重视程度有目共睹，所以 Lighthouse SEO 建议大家不要使用这种方式。

　　2.买卖链接

　　网站的外部优质单向链接推荐功能灯塔seo不用多说，做seo的都知道。这也是人们一直在寻找各种平台发布外部链接的原因之一。主页上一个好的单向链接比那些平台上的链接要好得多。很多人通过链接交易平台买卖链接，也就是pr高的外部链接或者友情链接。这种作弊方式现在也很流行。

　　好的，文章的这个内容营销圈就分享到这里。对线上推广创业感兴趣的可以加微信：Dao8484 备注：营销圈引流学习，我拉你进直播课程学习群，每周135晚，有实用干货推广引流免费分享技术课程！

　　看过这篇文章的人还看过以下内容：黑帽SEO学习，如何从零开始学习黑帽SEO？黑帽seo教程，黑帽seo优化详解？黑帽seo方法有哪些，常见的黑帽seo技巧揭晓-？重庆seo论坛，常见的黑帽seo技巧揭晓？ seo黑帽优化怎么做，SEO优化中黑帽seo优化的4种方法？

　　教程:图解Word2vec，读这一篇就够了

　　此时我们已经生成了数据集中的第一个样本，将用于我们后续的语言模型训练。

　　接下来，我们将窗口滑动到下一个位置并生成第二个样本：

　　此时也生成了第二个样本。

　　不久之后我们就会拥有一个更大的数据集，我们可以在其中看到出现在不同单词组之后的单词：

　　在实际应用中，模型通常在我们滑动窗口时进行训练。但我认为将生成数据集和训练模型分成两个阶段会更清晰易懂。除了使用神经网络建模外，一种称为 N-gams 的技术通常用于模型训练。

　　如果您想了解实际产品中从使用 N-gams 模型到神经模型的转变，请查看 Swiftkey（我最喜欢的 Android 输入法）在 2015 年发表的一篇关于他们的自然语言模型及其与之前的比较的博文N-游戏模型。我喜欢这个示例，因为它向您展示了如何在营销宣传中解释嵌入的算法属性。

　　注意两端

　　根据前面的信息填空：

　　在空白前面，我提供的背景是五个字（如果事先提到“巴士”），我相信大多数人都会将巴士放在空白处。但如果我再给你一条信息——比如空格后面的一个词，答案会改变吗？

　　填空的内容完全变了。在这一点上，“红色”这个词最有可能适合这个位置。从这个例子中，我们可以了解到单词前后的单词带有信息值。事实证明，我们需要考虑两个方向的单词（目标单词左侧的单词和右侧的单词）。那么我们如何调整训练方式来满足这个要求，继续往下看。

　　Skipgram 模型

　　我们不仅要考虑目标词的前两个词，还要考虑后面的两个词。

　　如果我们这样做，我们实际构建和训练的模型将如下所示：

　　上述架构称为连续词袋 (CBOW)，在 word2vec 上的一篇论文中进行了描述。

　　还有另一种架构，它不根据上下文（前后的词）猜测目标词，而是猜测当前词前后可能出现的词。我们假设训练数据时滑动窗口如下图所示：

　　绿色方框中的词是输入词，粉色方框是可能的输出结果

　　这里粉色框的颜色深度不同，因为滑动窗口为训练集生成了4个独立样本：

　　这种方法称为 Skipgram 架构。我们可以如下图显示滑动窗口的内容。

　　这为数据集提供了 4 个样本：

　　然后我们将滑动窗口移动到下一个位置：

　　这样我们生成接下来的 4 个样本：

　　移动几组位置后，我们得到一批样本：

　　重温训练过程

　　现在我们已经从现有文本中获得了 Skipgram 模型的训练数据集，让我们看看如何使用它来训练预测相邻单词的自然语言模型。

　　从数据集中的第一个样本开始。我们将这些特征输入到一个未经训练的模型中，并让它预测一个可能的相邻单词。

　　模型执行三个步骤并输入一个预测向量（对应于词汇表中每个单词的概率）。因为模型没有经过训练，所以这个阶段的预测肯定是错误的。不过没关系，我们知道应该猜哪个词——那个词是我的训练集数据中的输出标签：

　　目标词的概率为1，其他所有词的概率为0，所以values的向量就是“目标向量”。

　　模型有多少偏差？两个向量相减得到偏置向量：

　　现在这个误差向量可以用来更新模型，所以在下一轮预测中，如果我们使用not作为输入，我们更有可能得到thou作为输出。

　　这实际上是训练的第一步。然后我们继续对数据集中的下一个样本做同样的事情，直到我们遍历了所有样本。这是一个时代。我们再做几个 epoch 来获得一个经过训练的模型，我们可以从中提取嵌入矩阵用于其他应用程序。

　　以上确实帮助我们理解了整个过程，但它仍然不是 word2vec 真正训练的方式。我们错过了一些关键的想法。

　　负采样

　　回想一下这个神经语言模型用来计算其预测的三个步骤：

　　从计算的角度来看，第三步非常昂贵 - 尤其是当我们需要对数据集中的每个训练示例都执行此操作时（很容易多达数千万次）。我们需要找到一些方法来提高性能。

　　一种方法是将目标分为两个步骤：

　　1.生成高质量的词嵌入（不用担心下一个词的预测）。

　　2.使用这些高质量的嵌入来训练语言模型（用于下一个词的预测）。

　　在本文中，我们将专注于第 1 步（因为这个文章专注于嵌入）。为了使用高性能模型生成高质量的嵌入，我们可以改变预测相邻单词的任务：

　　将其切换到一个模型，该模型接受输入和输出单词，并输出一个分数，表明它们是否是邻居（0 表示“不是邻居”，1 表示“邻居”）。

　　这种简单的转换将我们需要的模型从神经网络更改为逻辑回归模型 - 因此计算更简单、更快。

　　这个切换需要我们切换数据集的结构——标签值现在是一个值为 0 或 1 的新列。它们都将为 1，因为我们添加的所有单词都是邻居。

　　计算速度快得惊人 - 在几分钟内处理数百万个示例。但我们仍然需要解决一个漏洞。如果所有示例都是邻居（目标：1），我们的“天才模型”可能会被训练为始终返回 1 - 100% 的准确率，但它什么也没学到，只会产生垃圾嵌入结果。

　　为了解决这个问题，我们需要在数据集中引入负样本——非邻居词的样本。我们的模型需要为这些样本返回 0。模型必须应对这一挑战，并且仍然必须保持高速。

　　对于我们数据集中的每个样本，我们都会添加负样本。它们具有相同的输入词，标签为 0。

　　但是我们要填写什么作为输出词呢？我们从词汇表中随机抽取单词

　　这个想法的灵感来自噪声对比度估计。我们将实际信号（相邻词的正例）与噪声（随机选择的非相邻词）进行比较。这导致计算和统计效率的巨大权衡。

　　噪声对比度估计

　　基于负采样的 Skipgram (SGNS)

　　我们现在介绍了word2vec中的两个（一对）核心思想：负采样和skipgram。

　　Word2vec 训练过程

　　现在我们了解了 skipgram 和负采样的两个中心思想，我们可以继续深入了解实际的 word2vec 训练过程。

　　在训练过程开始之前，我们会对用于训练模型的文本进行预处理。在这一步中，我们确定字典的大小（我们称之为 vocab_size，比如 10,000）以及其中收录哪些单词。

　　在训练阶段开始时，我们创建了两个矩阵——嵌入矩阵和上下文矩阵。这两个矩阵将每个单词嵌入到我们的词汇表中（因此 vocab_size 是它们的维度之一一）。第二个维度是我们希望每个嵌入的长度（embedding_size - 300 是一个常见值），但我们也看到了前面 50 个的例子）。

　　在训练过程开始时，我们用随机值初始化这些矩阵。然后我们开始训练过程。在每个训练步骤中，我们采用相邻示例及其相关的非相邻示例。让我们看看我们的第一组：

　　现在我们有四个词：输入词 not 和输出/上下文词：thou（实际相邻词）、aaron 和 taco（反例）。我们继续查找它们的嵌入——对于输入词，我们查看嵌入矩阵。对于上下文词，我们查看上下文矩阵（即使两个矩阵都将每个词嵌入到我们的词汇表中）。

　　然后我们计算输入嵌入与每个上下文嵌入的点积。在每种情况下，结果都是一个数字，表示输入和上下文嵌入的相似性。

　　现在我们需要一种方法将这些分数转换成看起来像概率的东西——我们需要它们都是正数并且介于 0 和 1 之间。逻辑函数转换 sigmoid 适合这种事情。

　　现在我们可以将 sigmoid 运算的输出视为这些示例的模型输出。可以看到，在 sigmoid 操作之前和之后，taco 得分最高，而 aaron 得分最低。

　　既然未经训练的模型已经做出了预测，而且我们确实有真实的目标标签要比较，那么让我们计算模型预测中的误差。为此，我们只需从目标标签中减去 sigmoid 分数。

　　错误 = 目标 - sigmoid_scores

　　这是“机器学习”的“学习”部分。我们现在可以使用这个错误分数来调整 not、thou、aaron 和 taco 的嵌入，以便下次我们进行这个计算时，结果会更接近目标分数。

　　训练步骤到此结束。我们为这一步中使用的单词（不是，thou，aaron 和 taco）获得了更好的嵌入。我们现在进入下一步（下一个相邻样本及其相关的非相邻样本）并再次执行相同的过程。

　　随着我们多次循环遍历整个数据集，嵌入会不断改进。然后我们可以停止训练过程，丢弃 Context 矩阵，并使用 Embeddings 矩阵作为下一个任务的训练嵌入。

　　窗口大小和负样本数

　　word2vec 训练过程中的两个关键超参数是窗口大小和负样本数。

　　不同的任务适合不同的窗口大小。一种启发式方法是，使用较小的窗口大小 (2-15）会导致嵌入使得两个嵌入之间的高相似度得分表明单词是可互换的（请注意，如果我们只查看靠近的单词）接近，反义词通常是可互换的 - 例如，好的和坏的经常出现在相似的上下文中）。使用更大的窗口大小（15-50，甚至更大）将获得相似性更能指示词相关性的嵌入。在实践中，您通常需要引导嵌入过程，帮助读者获得类似的“语言感”。Gensim 默认的窗口大小为 5（其中包括输入除了输入词本身之外的词前后两个词）。

　　负样本的数量是训练过程中的另一个因素。原创论文认为 5-20 个负样本是一个理想的数字。它还指出，当您有足够大的数据集时，2-5 似乎就足够了。 Gensim 默认为 5 个负样本。

　　送 10 本书 |免费送货 |你还在等什么

0

2022-09-26

采集文章内容

0 个评论

要回复文章请先登录或注册

AI时代内容工厂

干货教程:黑帽seo教程，如何从零开始学习黑帽SEO？

0 个评论

发起人

AI时代内容工厂

干货教程:黑帽seo教程，如何从零开始学习黑帽SEO？

0 个评论

发起人

相关问题