最新版本:thinkcmf插件

　　为什么要使用 thinkcmf 插件？如何使用 thinkcmf 插件对网站收录和关键词进行排名。一个网站应该在优化前保持网站的代码、路径、标签、服务器状态等处于有利于优化的状态。否则，在以后的网站优化过程中，可能会事半功倍，很难达到预期的效果，如果上线前做站内优化，可能在优化过程中更容易，更容易产生效果。

　　1.描述优化

　　1）标题标题优化。一般情况下，标题下方的描述中也会收录一两个关键词，也就是网页和关键词的关联，而这个关键词出现在标题和描述中网页>，表示这个页面的内容和这个关键词有关，加上这个网站的内外优化，所以搜索引擎会给这个网站一个很好的排名，这显示在我们面前。

　　2) 关键词部署。关键词通常我们会设置用户搜索的词。设置好这样的词后，我们会通过优化行为来提升我们的页面排名靠前。正常情况下，标题应该说收录关键词。如果关键词太多，则将核心关键词放入。

　　3) 说明。描述是对这个网站最简洁的介绍。在这个介绍中，除了嵌入你的关键词，还应该尽可能的收录你能提供的服务信息，你的关键词@网站特征信息，足够的描述内容就是合格的描述，不是纯粹的积累关键词。

　　网站更新得越频繁，搜索引擎蜘蛛就会越频繁地出现。因此，我们可以通过thinkcmf采集实现采集伪原创自动发布，主动推送给搜索引擎，增加搜索引擎的爬取频率，从而增加网站收录和关键词排名。

　　1. 免费thinkcmf采集插件

　　免费thinkcmf采集插件的特点：

　　1、只需将关键词导入到采集相关的关键词文章，同时创建几十个或几百个采集任务（一个任务可以支持上传1000个）关键词)，支持过滤关键词。

　　2. 支持多消息源：问答和各种消息源（可同时设置多个采集消息源采集/采集消息源稍后添加）

　　3.过滤其他促销信息

　　4. 图片定位/图片水印/图片第三方存储

　　5.文章互译+翻译（简体中文繁体翻译+百度翻译+有道翻译+谷歌翻译+翻译）

　　6.自动批量挂机采集，与各大cms发布者无缝对接，采集后自动发布——实现采集发布全自动挂机。

　　2.跨平台发布插件

　　全平台cms发布者的特点：

　　1、cms发布：目前市面上唯一支持Empirecms、易友、ZBLOG、dedecms、WordPress、PBoot、Applecms、迅锐cms、PHPcms、Applecms、人人网cms、美图cms、云游cms、Cyclone站群、THINKCMF、建站ABC 、凡客cms、一骑cms、Oceancms、飞飞cms、Local Release、搜外等各大cms，以及一个工具可同时管理和批量发布

　　2.全网推送（百度/360/搜狗/神马）

　　3. 伪原创（标题+内容）

　　4.更换图片，防止侵权

　　5. 强大的SEO功能（自动图片放置/插入内外链接/标题和文章前后插入内容/标题关键词与内容一致关键词/随机插入图片/添加随机属性的页面原创degree)

　　6.对应栏目：对应文章可以发布对应栏目/支持多栏目发布

　　7、定时发布：可控发布间隔/每天发布总数

　　8、监控数据：直接监控已经发布、待发布的软件，是否为伪原创、发布状态、网站、程序、发布时间等。

　　2.代码优化

　　在建站非常方便的今天，任何人都可以通过建站程序快速建立自己的网站。在构建了我们自己的网站之后，我们需要优化站点中的代码。建站时，尽量使用 HTML+DIV 格式来建站。编写代码时，尽量简化代码格式，避免使用多个应用程序，会导致路径过深，对搜索引擎爬取网页非常不友好。

　　其实不懂代码的商家朋友可以直接使用H5自助建站系统搭建建站宝箱。无需编写程序和编码，操作会更简单。

　　3.路径优化

　　网站搜索引擎爬取的最优层数为3层路径，即首页-二级栏目页-内容页，是最优化友好的路径层，因为如果你的内容页路王超过3层，达到4、5层甚至更深。搜索引擎的爬虫机器人会很难抢到你的网站，爬取效果会很不理想。

　　4. 网站地图制作

　　制作网站的地图可以让搜索引擎在每次爬取一个页面的时候，对整个站点进行深度爬取，从而增加产生文章内容的概率，但是不要过分依赖网站地图，要内容是收录，质量第一。另外，记得在网站的底部添加网站地图标签，并记得将网站地图文件放入机器人中。

　　我们可以认为站内优化是一种刻意迎合搜索引擎的行为，但这种刻意迎合搜索引擎的行为实际上是迎合真实用户。如果我们的网站对搜索引擎友好，就意味着为了对真实用户友好，在搜索引擎强调用户体验的今天，我们优化从业者必须明白，迎合搜索引擎就是迎合用户。

　　1.一些标签的使用不能忽视。关键字标签不要想太多，加3-4个关键词就行了，堆起来会适得其反。描述标签是描述标签，它不允许你列出XX、XXX关键词，组织一个合理流畅的陈述来介绍你自己的网站。不妨加一点关键词。标签保证出现一次，可以多次使用，但请评分以强调重要内容。粗体和斜体都有强调。强调主要的关键词并避免滥用。所有粗体或斜体都没有意义。

　　2、页面标题一直被视为最重要的优化重点。事实也证明，写正确的标题确实有非常大的优势。合理的标题要注意以下几个问题：从网站整体来看，网站的标题是否相似，很多cms模板使用分层的标题标签来组合标题，如果一个title标签的比例比较大，很容易造成title的相似性。

　　3.页面布局页面的位置很重要。上比下重要，做比正确更重要。目的一，把最重要的内容放在重要的位置，吸引用户和搜索引擎。

　　4. 内容分发关键词。可能你还没有注意到这个问题。例如，合理的内容布局可以让人一目了然。使用渐变字体和粗体字体来补充强调关键词、标题（粗体）、次要标题（粗体）或斜体）、文本。这样用户才能理解和查看重要的内容，这也是用户体验的问题。

　　5.网站导航导航要放在重要位置。需要注意的是，如果分类比较多，不要把所有网站分类都放在首页导航位置。应突出显示。

　　6、内链建设网站内链流通方式：首页-分类-小分类-内容-小分类-分类-首页。这样就形成了一个循环，目的是让用户在某个页面网站上找到到其他页面的路，当然这个“距离”不能太长，最好是点击以下三遍。

　　看完这篇文章，如果觉得不错，不妨采集一下，或者发给需要的朋友同事。关注博主，每天给你展示各种SEO经验，让你的网站也能快速获得收录和关键词的排名！

　　汇总:如何进行 SEO 日志文件分析 [包含模板]

　　在过去的五年中，日志文件越来越受到技术 SEO 的认可，这是有充分理由的。

　　它们是有关搜索引擎已抓取的 URL 的最值得信赖的信息来源，这可能是帮助诊断技术 SEO 问题的关键信息。

　　Google 本身已经认识到它们的重要性，在 Google Search Console 中发布了新功能，并且可以轻松查看以前只能通过分析日志才能获得的数据样本。

　　此外，Google 搜索倡导者 John Mueller 公开声明了日志文件收录多少好的信息。

　　由于围绕日志文件中的数据大肆宣传，您可能希望更好地了解日志、如何分析它们以及您正在处理的站点是否会从中受益。

　　首先，什么是服务器日志文件？

　　服务器日志文件是由服务器创建和更新的文件，用于记录其执行的活动。一个流行的服务器日志文件是访问日志文件，它保存了对服务器的 HTTP 请求（用户和机器人）的历史记录。

　　当非开发人员引用日志文件时，他们通常会引用访问日志。

　　然而，开发人员发现自己花费更多时间查看错误日志，这些日志报告了服务器遇到的问题。

　　以上很重要：如果您向开发人员索要日志，他们会首先问：“哪个？”

　　因此，始终指定日志文件请求。如需日志分析和爬取，请索取访问日志。

　　访问日志文件收录有关向服务器发出的每个请求的大量信息，例如：

　　访问日志中收录的服务器因服务器类型而异，有时开发人员已将服务器配置为存储在日志文件中。日志文件的常见格式包括：

　　存在其他形式，但这些是您将遇到的主要形式。

　　日志文件如何使 SEO 受益

　　现在我们对日志文件有了基本的了解，让我们看看它们如何使 SEO 受益。

　　以下是一些关键方法：

　　所有站点都将在一定程度上受益于日志文件分析，但收益量因站点大小而异。

　　这是因为日志文件主要通过帮助您更好地管理爬网来使您的站点受益。谷歌自己表示，管理较大或频繁变化的抓取预算网站会受益。

　　日志文件分析也是如此。

　　例如，较小的网站可能会使用 Google Search Console 中可用的“爬网统计”数据，并在不访问日志文件的情况下获得上述所有好处。

　　是的，Google 不会为您提供所有被抓取的网址（例如日志文件），并且趋势分析仅限于三个月的数据。

　　但是，不经常更改的较小站点也需要较少的持续技术 SEO。让现场审核员识别和诊断问题可能就足够了。

　　例如，来自站点爬虫、XML 站点地图、Google Analytics 和 Google Search Console 的交叉分析可能会发现所有孤立页面。

　　您还可以使用 Site Auditor 从内部链接中发现错误状态代码。

　　我指出这有几个关键原因：

　　如何访问您的日志文件

　　在大多数情况下，要分析日志文件，您首先必须向开发人员请求访问日志文件。

　　然后开发人员可能会遇到一些问题，他们会引起您的注意。这些包括：

　　这些问题让人质疑存储、合并、过滤和传输日志文件是否值得开发人员的努力，特别是如果开发人员已经有很长的优先级列表（通常是这种情况）。

　　开发人员可能会将责任放在 SEO 上来解释/建立一个案例，说明为什么开发人员应该在这方面投入时间，并且您需要在其他 SEO 优先事项中优先考虑这一点。

　　这些问题正是日志文件分析不经常发生的原因。

　　您从开发人员那里收到的日志文件也经常被流行的日志文件分析工具以不支持的方式格式化，使得分析更加困难。

　　值得庆幸的是，有一些软件解决方案可以简化这个过程。我最喜欢的是 Logflare，这是一个 Cloudflare 应用程序，可将日志文件存储在您拥有的 BigQuery 数据库中。

　　如何分析您的日志文件

　　现在是开始分析日志的时候了。

　　我将专门向您展示如何在 Logflare 的上下文中执行此操作；但是，有关如何使用日志数据的提示适用于任何日志。

　　我将很快分享的模板也适用于任何日志。您只需要确保数据表中的列匹配。

　　1.先设置Logflare（可选）

　　Logflare 易于设置。通过 BigQuery 集成，它可以长期存储数据。您将拥有数据并让每个人都可以轻松访问它。

　　有一个困难。您需要更改您的域名服务器以使用 Cloudflare 并在那里管理您的 DNS。

　　对于大多数人来说，这很好。但是，如果您使用的是企业级站点，则不太可能说服服务器基础架构团队更改名称服务器以简化日志分析。

　　我不会详细介绍如何让 Logflare 正常工作的每一步。但要开始使用，您需要做的就是前往仪表板的 Cloudflare 应用程序部分。

　　然后搜索 Logflare。

　　此后的设置是不言自明的（创建一个帐户、命名您的项目、选择要发送的数据等）。我推荐的唯一额外部分是 Logflare 的 BigQuery 设置指南。

　　但请记住，BigQuery 的成本取决于您执行的查询和存储的数据量。

　　边注。

　　值得注意的是，BigQuery 后端的一个显着优势是您拥有数据。这意味着您可以通过将 Logflare 配置为不发送类似 IP 地址的 PII 并使用 SQL 查询从 BigQuery 中删除 PII 来规避 PII 问题。

　　2. 验证 Googlebot

　　我们现在存储了日志文件（通过 Logflare 或其他方法）。接下来，我们需要从我们要分析的用户代理中精确地提取日志。对于大多数人来说，这将是 Googlebot。

　　在我们能做到这一点之前，我们还有另一个障碍要跳过。

　　许多机器人伪装成 Googlebots 来绕过防火墙（如果有的话）。此外，一些审核工具这样做是为了准确反映您的网站为用户代理返回的内容，如果您的服务器为 Googlebot（例如，如果您设置了动态呈现设置）返回不同的 HTML，这可能很有用。

　　我没有使用 Logflare

　　如果您没有使用 Logflare，识别 Googlebot 将需要反向 DNS 查找来验证请求是否来自 Google。

　　Google 有一个手动验证 Googlebot 的便捷指南。

　　您可以一次完成所有操作，使用反向 IP 查找工具并检查返回的域名。

　　但是，我们需要对日志文件中的所有行分批执行此操作。这还要求您匹配 Google 提供的列表中的 IP 地址。

　　最简单的方法是使用由第 3 方维护的服务器防火墙规则集来阻止假机器人（导致日志文件中的假 Googlebot 更少/没有）。Nginx 的一个流行是“Nginx Ultimate Bad Bot Blocker”。

　　或者，您会在 Googlebot IP 列表中注意到 IPV4 地址都以“66”开头。

　　虽然它不会 100% 准确，但您也可以在分析日志中的数据时通过过滤以“6”开头的 IP 地址来检查 Googlebot。

　　我正在使用 Cloudflare/Logflare

　　Cloudflare 的专业计划（目前每月 20 美元）具有内置防火墙，可阻止虚假 Googlebot 请求访问您的网站。

　　Cloudflare 默认禁用这些功能，但您可以通过转到防火墙 > 托管规则 > 启用“Cloudflare Specials”> 选择“高级”来找到它们：

　　接下来，将搜索类型从“描述”更改为“ID”并搜索“100035”。

　　Cloudflare 现在将为您提供阻止虚假搜索机器人的选项列表。将相关请求设置为“阻止”，Cloudflare 将通过检查来自搜索机器人用户代理的所有请求是否合法来保持您的日志文件干净。

　　3.从日志文件中提取数据

　　最后，我们现在可以访问日志文件，并且我们知道日志文件准确地反映了真实的 Googlebot 请求。

　　我建议您首先在 Google 表格/Excel 中分析您的日志文件，因为您可能习惯于使用电子表格，并且可以轻松地交叉分析其他来源的日志文件，例如网站crawls。

　　没有一种正确的方法可以做到这一点。您可以使用以下内容：

　　您也可以在 Data Studio 报告中执行此操作。我发现 Data Studio 有助于随着时间的推移监控数据，而 Google Sheets/Excel 更适合在技术审计期间进行一次性分析。

　　打开 BigQuery 并转到您的项目/数据集。

　　选择查询下拉菜单并在新选项卡中打开它。

　　接下来，您需要编写一些 SQL 来提取您将分析的数据。为了使这更容易，首先复制查询的 FROM 部分的内容。

　　然后您可以将其添加到我在下面为您编写的查询中：

　　SELECT DATE(timestamp) AS Date, req.url AS URL, req_headers.cf_connecting_ip AS IP, req_headers.user_agent AS User_Agent, resp.status_code AS Status_Code, resp.origin_time AS Origin_Time, resp_headers.cf_cache_status AS Cache_Status, resp_headers.content_type AS Content_Type

　　FROM `[在此处添加您的发件人地址]`，

　　UNNEST(元数据) m,

　　UNNEST(m.request) 请求，

　　UNNEST(req.headers) req_headers,

　　UNNEST（m.response）响应，

　　UNNEST(resp.headers) resp_headers

　　WHERE DATE(timestamp) >= "2022-01-03" AND (req_headers.user_agent LIKE '%Googlebot%' OR req_headers.user_agent LIKE '%bingbot%')

　　ORDER BY 时间戳 DESC

　　此查询选择所有用于 SEO 目的的日志文件分析有用的数据列。它也只为 Googlebot 和 Bingbot 提取数据。

　　边注。

　　如果您想分析其他机器人，只需在 WHERE 语句中添加另一个 OR req_headers.user_agent LIKE '%bot_name%'。您还可以通过更新行 WHERE DATE(timestamp) >= “2022–03-03” 轻松更改开始日期。

　　选择顶部的“运行”。然后选择保存结果。

　　接下来，将数据保存到 Google Drive 中的 CSV（由于文件很大，这是最好的选择）。

　　然后，在 BigQuery 运行作业并保存文件后，使用 Google 表格打开文件。

　　4. 添加到 Google 表格

　　现在让我们开始一些分析。我建议使用我的 Google 表格模板。但我会解释我在做什么，如果你愿意，你可以自己构建报告。

　　这是我的模板。

　　该模板收录两个用于复制和粘贴数据的数据选项卡，然后我将其用于使用 Google 表格查询功能的所有其他选项卡。

　　边注。

　　如果您想查看我完成设置后报告将如何运行，请选择每个表格中的第一个单元格。

　　首先，将 BigQuery 导出输出复制并粘贴到数据 - 日志文件选项卡中。

　　请注意，在表格末尾添加了几列（深灰色）以使分析更容易一些（如机器人名称和第一个 URL 目录）。

　　5.添加Ahrefs数据

　　如果您有现场审核员，我建议您向 Google 表格添加更多数据。主要是，你应该添加这些：

　　要从 Ahrefs 的站点审核中获取此数据，请转到页面资源管理器并选择管理列。

　　然后我建议添加这样的列：

　　然后导出所有这些数据。

　　并复制并粘贴到“数据 - Ahrefs”表中。

　　6.查看状态码

　　我们首先要分析的是状态码。该数据将回答搜索机器人是否将其抓取预算浪费在少于 200 个 URL 上。

　　请注意，他并不总是指出问题所在。

　　有时，谷歌可以抓取多年前的 301。但是，如果您在内部链接到许多非 200 状态代码，则可能会突出问题。

　　Status Codes - Overview 选项卡有一个 QUERY 函数，它聚合日志文件数据并在图表中显示结果。

　　还有一个下拉菜单可按机器人类型进行过滤，以查看哪些机器人最常遇到非 200 状态代码。

　　当然，仅凭此报告并不能帮助我们解决问题，因此我添加了另一个选项卡“URL - 概述”。

　　您可以使用它来过滤返回非 200 状态代码的 URL。由于我还收录了来自 Ahrefs 的站点审核的数据，因此如果您在内部链接到任何非 200 个 URL，则可以在“链接”列中看到。

　　如果您看到许多指向此 URL 的内部链接，您可以使用内部链接机会报告来发现这些不正确的内部链接，只需将 URL 复制并粘贴到搜索栏中并选择“目标页面”即可。

　　7.检测抓取预算浪费

　　突出显示不是由于爬取非 200 状态代码而浪费的日志文件爬取预算的最佳方法是查找经常爬取的不可索引 URL（例如，它们已规范化或未编入索引）。

　　发现这些 URL 很简单，因为我们添加了来自日志文件和 Ahrefs 站点审计的数据。

　　转到“Wasted Crawl Budget”选项卡，您会发现高度抓取的 HTML 文件返回 200 但不可索引。

　　既然您有了这些数据，就需要调查机器人抓取 URL 的原因。以下是一些常见的原因：

　　对于较大的网站，尤其是那些带有分面导航的网站，通常会在内部链接到许多不可索引的 URL。

　　如果此报告中的命中数非常高，并且您认为自己在浪费抓取预算，则可能需要删除指向网址的内部链接或使用 robots.txt 阻止抓取。

　　8. 监控重要的 URL

　　如果您的网站上有对您很重要的特定 URL，您可能需要检查搜索引擎抓取它们的频率。

　　URL Monitor 选项卡就是这样做的，它绘制了最多添加五个 URL 的每日点击趋势图。

　　您还可以按机器人类型进行过滤，从而轻松监控 Bing 或 Google 抓取 URL 的频率。

　　边注。

　　您还可以使用此报告检查您最近重定向的 URL。只需在下拉列表中添加旧网址和新网址，即可查看 Googlebot 注意到更改的速度。

　　一般来说，这里的建议是，如果 Google 不经常抓取 URL，那是一件坏事。但事实上，并非如此。

　　虽然 Google 倾向于更频繁地抓取热门网址，但如果网址不经常更改，它可能会抓取更少的网址。

　　尽管如此，如果您需要快速获取内容更改，例如在新闻首页网站上，监视此类 URL 会很有帮助。

　　事实上，如果您注意到 Google 过于频繁地重新抓取 URL，我建议您尝试通过添加到 XML 站点地图之类的操作来帮助它更好地管理抓取率。这是它的样子：

　　2022-10-04

　　然后，您可以在页面内容发生更改时更新该属性，以向 Google 发出重新抓取的信号。

　　暗示

　　请注意，Google 对此属性提供了不同的反馈。2015 年，Gary Ilysses 说它大多被忽略了。2017 年，约翰说它被使用了。最近，在 2022 年，加里说：“我们只是不打算使用它。” Google 的 XML 站点地图文档建议使用此属性。但如果不准确，就会被忽略。

　　9. 查找孤儿 URL

　　使用日志文件的另一种方法是发现孤立 URL，它们是您希望搜索引擎抓取和索引但不内部链接的 URL。

　　我们可以通过检查 Ahrefs 的站点审核发现的没有内部链接的 200 个状态代码 HTML URL 来做到这一点。

　　您可以看到我为此创建的名为“孤立 URL”的报告。

　　这里有一个警告。由于 Ahrefs 没有发现这些 URL，但 Googlebot 发现了，因此这些 URL 可能不是我们想要链接的 URL，因为它们不可索引。

　　在为您的 Ahrefs 项目设置爬网源时，我建议使用自定义 URL 列表功能来复制和粘贴这些 URL。

　　这样，Ahrefs 现在将考虑在您的日志文件中找到的这些孤立 URL，并在您下次抓取时向您报告任何问题：

　　10、监控按目录爬取

　　假设您已经实现了结构化 URL，指示您如何组织网站（例如，/features/feature-page/）。

　　在这种情况下，您还可以按目录分析日志文件，以查看 Googlebot 是否比其他人更多地抓取网站的某些部分。

　　我已经在 Google 表格的“目录 - 概览”标签中实现了这个分析。

　　您可以看到，我还包括了指向目录的内部链接数量以及总有机流量的数据。

　　您可以使用它来查看 Googlebot 是否花费更多时间来抓取低流量目录而不是高价值目录。

　　但同样，请记住，这可能会发生，因为特定目录中的某些 URL 比其他 URL 更频繁地更改。不过，如果您发现了一个奇怪的趋势，则值得进一步调查。

　　除此报告外，如果您想查看每个网站目录的抓取趋势，还有一个“目录 - 抓取趋势”报告。

　　11. 检查 Cloudflare 缓存比率

　　前往 CF 缓存状态选项卡，您将看到 Cloudflare 在边缘服务器上缓存文件的频率摘要。

　　当 Cloudflare 缓存内容（上图中的 HIT）时，请求不再发送到您的源服务器，而是直接从其全球 CDN 提供。这会产生更好的 Core Web Vital，尤其是对于全球站点。

　　边注。

　　在源服务器上设置缓存（例如 Varnish、Nginx FastCGI 或 Redis 全页缓存）也是值得的。这样，即使 Cloudflare 不缓存 URL，您仍然可以从一些缓存中受益。

　　如果您看到很多“未命中”或“动态”响应，我建议您进一步调查以了解 Cloudflare 不缓存内容的原因。常见的原因可能是：

　　边注。

　　我强烈建议通过 Cloudflare 设置 HTML 边缘缓存，这将显着降低 TTFB。您可以使用 WordPress 和 Cloudflare 的自动平台优化轻松做到这一点。

　　12. 检查哪些机器人最常抓取您的网站

　　最终报告（可在“机器人 - 概览”选项卡中获得）显示哪些机器人最常抓取您网站：

　　在机器人 - 抓取趋势报告中，您可以看到趋势随时间的变化情况。

　　此报告可以帮助检查您的网站上的机器人活动是否增加。当您最近进行了重大更改（例如 URL 迁移）并想查看您的机器人是否增加了抓取以采集新数据时，它也很有帮助。

AI时代内容工厂

最新版本:thinkcmf插件

0 个评论

发起人