电子商务实验室如何对自己的搜索引擎规则有详细的介绍

优采云发布时间: 2021-05-08 02:05

　　如今，网络信息正以爆炸性的方式增长。一个企业网站或任何新生的人网站就像被淹没在广阔的海洋中。如果希望用户或企业找到自己，一种有效的方法是通过搜索引擎，许多朋友将搜索引擎登录和搜索引擎视为圣经。有些人对此有一点了解，并认为这似乎很神奇，但是没有相关信息可供参考。实际上，每个搜索引擎网站都可以详细介绍其自己的搜索引擎规则。只要我们参考这些规则并合理地优化和改进网站，我们就能取得良好的效果。以下文章来自Google官方网站。我们只是对其进行了简单的整理，希望对您的网站有所帮助，欢迎大家在电子商务实验室中共同讨论它。 1.向访问者提供他们正在寻找的信息在网页（尤其是主页）上提供高质量的内容。这是您要做的最重要的工作。如果您的Web软件包收录有用的信息，则其内容可以吸引许多访问者，并使网站管理员高兴地链接到您的网站。为了创建有用且内容丰富的网站，网页上的文字应清晰准确地描述要传达的主题。考虑用户将使用哪些词来查找您的网页，然后尝试在网站上使用这些词。 2.确保存在指向网站的网站链接。该链接将帮助Google的抓取工具找到您的网站，并提高您网站在Google搜索结果中的可见性。

　　返回搜索结果时，Google会将PageRank（Google对网页重要性的评估）与高级文本匹配技术结合起来，以显示与每个搜索结果均重要且相关的网页。 Google将计算网页收到的投票数，以确定页面的PageRank。计算方法是从网页上投票一票。具有自己的“权重”的网页所进行的投票将具有更大的权重，这将有助于增加其他网页的“重要性”。请注意，网站在Google搜索结果中的排名是完全自动的，并且Google不会人为地为网站分配关键字。请注意，Google的算法可以区分自然链接和非自然链接。当其他网站认为您的内容有价值并认为可能对访问者有所帮助时，会动态生成网络，从而形成与网站的自然链接。指向网站的不自然链接是专门放置在其中的链接，以使您的网站在搜索引擎中更受欢迎。 3.使网站易于访问使用合理的链接结构构建网站。每个网页都应至少通过一个静态文本链接打开。考虑创建动态网页的静态副本。尽管动态网页收录在Google索引中，但它们仅占索引的一小部分。如果您怀疑动态生成的网页（例如收录问号的URL）给Google的抓取工具带来了麻烦，则可以为这些网页创建静态副本。

　　如果您要创建静态副本，请不要忘记将动态页面添加到robots.txt文件中，以防止Google将其视为重复内容。 4.应避免的事情请勿使用关键字填充网页，“阴影”网页或创建“仅爬网”网页。如果您的网站收录您不希望访问者看到的网页，链接或文本，则Google会认为这些内容是欺诈性的，可能会忽略您的网站。请勿使用图片显示重要的名称，内容或链接。 Google的采集器无法识别图形中收录的文本。如果页面上的重要内容和关键字无法以正常的HTML格式显示，请使用ALT标签。将其他相关的网站链接到您的网站。提交给Google，网址为：。作为Google 网站管理员工具的一部分提交站点地图。 Google Sitemaps使用您的Sitemap来了解您的网站结构，并提高Google对您网页的利用率。确保所有应该了解您的网页的网站都知道您的网站已经在线。将您的网站提交到相关目录，例如Open Directory Project Yahoo !，以及特定行业的其他专业网站。 2.设计和内容指南网站应具有清晰的层次结构和文本链接。每个网页都应该至少可以打开一个静态文本链接，为用户提供网站地图，并列出指向网站中重要位置的链接。

　　如果网站映射上有超过或大约100个链接，则需要将网站映射拆分为多个网页。网站它应该是实用且内容丰富的，并且网页上的文本应清晰准确地表达要传达的内容。考虑用户将使用哪些词来查找您的网页，并确保这些词实际上收录在网站中。尝试使用文本而不是图像来显示重要的名称，内容或链接，因为Google的采集器无法识别图像中收录的文本。确保TITLE ALT标签是描述性的和准确的。检查链接是否断开，并确保HTML格式正确。如果您使用动态网页（即URL收录“？”字符），请注意，并非每个搜索引擎蜘蛛都可以对动态网页和静态网页进行爬网。动态网页有助于缩短参数长度并减少参数数量。将给定网页上的链接数限制为合理的数量（小于10 0）。）3.技术准则由于大多数搜索引擎的蜘蛛视图网站与Lynx相同，因此可以使用Lynx To这样的文本浏览器检查您的网站。如果由于Javascript，Cookie，会话ID，框架，DHTML Flash和其他复杂技术的应用而无法在文本浏览器中看到网站的所有网页，则搜索引擎Spider正在抓取您可能无法获取您的网站。允许搜索机器人获取您的网站，而无需使用会话ID或参数来跟踪其在网站上的浏览路径。

　　这些技术对于跟踪单个用户的行为非常有用，但是漫游器具有完全不同的访问模式。如果采用这些技术，则网站的检索可能会不完整，因为机器人可能无法排除看起来不同但实际上指向同一网页的URL。确保您的Web服务器支持If-Modified-Since HTTP标头。借助此功能，您的网络服务器可以告诉Google自上次抓取您的网站以来，内容是否已更改。此功能可以节省您的带宽和开销。使用网络服务器上的robots.txt文件。该文件告诉采集器可以搜寻哪些目录。确保该文件是网站的最新版本，以避免意外阻止Googlebot采集器。请访问以了解如何指导机器人浏览您的网站。您可以使用Google Sitemaps robots.txt分析工具来测试robots.txt文件，以确保其使用正确。如果您的公司购买了内容管理系统，请确保该系统可以导出您的内容，以便搜索引擎Spider可以抓取您的网站。 1.基本原理设计网页时，应考虑用户而不是搜索引擎。不要欺骗用户，也不要向搜索引擎提交一种类型的内容，而向用户显示另一种类型的内容。这种做法通常称为“隐藏”。请不要伪造以提高搜索引擎排名。

　　一种区分是非的简单方法是：您可以坦白向竞争对手解释您对网站所做的事情。另一个有用的测试是问自己：“这可以帮助我的用户吗？如果不存在搜索引擎，我还会这样做吗？”请不要参与旨在提高网站排名或PageRank计划的链接。特别是，避免链接到禁止的网站或“坏邻居”，因为这些链接可能会对您自己的排名产生负面影响。请不要使用未经授权的计算机程序来提交网页，检查排名等。这些程序会消耗计算机资源，并违反Google的服务条款。 Google不建议使用WebPosition Gold之类的产品向Google发送自动查询或编程查询。 2.具体准则请不要使用隐藏的文本或隐藏的链接。请不要使用隐藏的真实内容或欺骗性重定向。请不要将自动查询发送给Google。请不要加载无关紧要的网页。请不要创建多个页面，子域或收录大量重复内容的域。请不要创建安装病毒（例如*敏*感*词*木马）或其他有害软件的网页。请不要使用专门为搜索引擎设计的“桥接页面”，也不要使用“千篇一律”的方法，例如几乎没有原创内容的会员程序。如果您的网站参加了会员计划，请确保您的网站可以为其增值。

　　请提供独特且相关的内容，以便用户有理由首先访问您的网站。如果网站不符合Google的质量准则，则可能会将其排除在索引之外。 Google是一个完全自动化的搜索引擎，它使用名为“ Spider”的软件定期搜索网络并查找可以添加到Google索引中的网站网站。实际上，大多数索引网站并不是手动提交的，而是在Spider抓取网络时找到并自动添加的。要确定您的网站当前是否收录在Google索引中，只需在网站 URL上进行搜索。例如，搜索[site：]将返回相应的结果。尽管Google可以抓取超过数十亿个网页，但不可避免地会丢失一些网页网站。导致Spider丢失网站的常见原因是：网站没有通过多条链路牢固地连接到网络上的其他网站。网站仅在Google最近一次抓取之后才开始。网站的设计使Google很难有效地抓取其内容。 Google抓取网站时，网站暂时不可用，或者Google抓取时收到错误消息。您可以使用Google 网站管理员工具查看Google抓取网站时是否收到错误。请考虑使用Google Sitemaps创建并提交页面的详细网站地图。 Google Sitemaps Google索引是一种快捷方式，用于提交所有URL并详细了解您的页面在Google中的可见性。

　　使用Google Sitemaps，Google可以随时自动获取有关您当前网页及其更新的所有信息。请注意，提交站点地图并不能保证网站上的所有页面都会被抓取或收录在Google的搜索结果中。有关googe网站地图的文章，请参阅电子商务实验的简介。 1.我的网站不再出现在Google搜索结果中。有时，某些网站可能偶尔会从搜索结果中消失。 Google Spider会定期抓取网站来重建索引，但是跟踪数十亿个网页是一项艰巨的任务，并且不可避免地会丢失一些。由于添加了新的网站和现有网页内容的更新，某些网页可能不再针对某些关键字返回。在这种情况下，Google通常不会完全丢失该网页，但是对于特定的关键字，其他网页的排名高于该网页。不用担心，这些更改是自动执行的，并且Google的抓取工具不会有意识地对特定的网站进行不同的处理。 Google的目标是尽可能公平，准确地在Internet上展示内容。此外，数据中心的差异将导致不同的搜索结果。当您执行Google搜索时，查询将被发送到Google数据中心以检索搜索结果。 Google有许多数据中心，许多因素（例如地理位置和搜索流量）决定了将查询发送到哪个数据中心。

　　由于Google的数据中心不是同时更新的，因此处理您的查询的不同数据中心可能会产生略有不同的搜索结果。 2.我如何知道网站是否收录在Google的搜索结果中？要检查您的网站是否收录在Google的索引中，只需对Google 网站的完整网址进行搜索即可。例如：网站：Google 网站执行URL搜索并发现您的网站已列在搜索结果中，然后网站将收录在Google的索引中。 3.如何使网站的更新内容进入Google？ Google机器人会定期抓取网络，对数十亿个网页进行索引。下一次爬网（稍后完成）将注意到新的网站，对现有网站的更改以及断开的链接。由于每个爬网都会采集大量信息，因此更新过程是完全自动的。 Google无法对单个网站进行手动更改。 4. Google多久抓一次网？ Google Spider会定期抓取网络来重建索引。爬网基于许多因素，例如PageRank，网页链接以及爬网限制（例如URL中的参数数量）。许多因素可能会影响特定爬网的频率网站。 5.执行“ 网站”搜索查询时，Google索引中有多少页，结果有时会有所不同。原因可能是数据中心的差异。

　　当您执行Google搜索时，查询将发送到Google数据中心以检索您的结果。 Google有许多数据中心，许多因素（例如地理位置和搜索流量）决定了将查询发送到哪个数据中心。由于Google的数据中心不会同时更新，因此处理您的查询的不同数据中心可能会产生略有不同的搜索结果。 6.为什么网站应该被禁止从Google索引中删除？网站被阻止进入索引的原因可能是它不符合分配准确的PageRank所需的质量标准。 Google无法评论删除该页面的具体原因。但是，某些操作（例如以搜索引擎可以找到但用户无法找到的方式隐藏和编写文本，或者仅仅为了欺骗搜索引擎而设置网页/链接）可能会导致网页从Google的索引中删除。 7. 网站域名已更改，我如何让Google将新的网站添加到其索引中？尽管Google无法手动更改搜索结果中的URL，但是您仍然可以采取一些措施来确保转换过程顺利进行。首先，您可以将每个网站重定向到新的网站。如果您通过HTTP 301（永久）重定向将旧的URL重定向到新的网站，则Google的抓取工具将发现新的URL。 8.什么是301重定向？当用户尝试通过HTTP或文件传输协议（FTP）访问运行Internet信息服务（IIS）的服务器上的内容时，IIS返回指示请求状态的数字代码。

　　并执行相关操作。例如，101 2xx成功以1xx开头，例如201202203 3xx-redirect。客户端浏览器必须采取更多措施来满足请求。例如，浏览器可能必须在服务器上请求其他页面，或通过代理服务器重复该请求。例如，301 302 304 4xx客户端错误，例如我们非常常见的404错误（未找到）。 5xx服务器错误例如，我们常见的500错误（内部服务器错误）301重定向（或301重定向，301重定向）意味着该网页已永久转移到另一个地址。请记住，最好不要采用其他指导，因为Google可能会认为网站在作弊。 Header（“ HTTP / 1. 1301永久移动” Header（“ Location：” Response.Status =“ 301Moved Permanently” Response.AddHeader“ Location”，9。如果更改域名，为什么要使用301重定向，google Spider-爬网您先前的域名将导致错误。如果Google认为您的网站不再存在，则您先前的域名下的所有网页都将被删除。网站的pr值也将消失。

　　如果您使用301重定向，则googel Spider会在访问您之前的域名时自动将其重定向到新域，然后将先前的pr值和网页重定向到新域名。 10. Google会使用ASP索引网站吗？除了少数例外，Google可以为大多数网页和文件类型建立索引。 Google可以索引的文件扩展名是：pdf，asp，jsp，html，shtml，xml，doc，xls，ppt，rtf，wks，lwp，wri，swf，cfm php。 11. 网站框架的使用会影响Google搜索吗？ Google在其能力的前提下，尽可能地支持该框架。该框架可能会导致搜索引擎出错，因为该框架不符合网络的概念模型。在网络模式下，页面上只能显示一个URL。另一方面，使用框架的网页在单个页面上显示多个URL（每个框架一个）。如果Google确定用户的查询内容与整个页面匹配，则Google将返回所有框架组。但是，如果用户的查询内容与大框架组中的框架匹配，则Google仅返回此相关框架。但是您可以使用无框架标签来定义框架页面。 12.为什么网站的PageRank如果Google仅抓取到该网页网站的链接数量很少，则分配给该网页的排名可能不是这种情况。最近添加到Google索引中的网页的PageRank值也可能为0，因为Googlebot无法抓取这些页面，因此它们没有排名。

　　网页的PageRank值自然会随着随后的爬网而增加，所以不用担心。 13.我担心我的竞争对手会损害我在Google上的排名。我应该怎么办？竞争对手几乎不可能采取任何措施破坏您的排名，也无法从Google的索引中删除您的网站。如果您担心另一个链接到网站的网站，则Google建议您直接与相关网站的网站管理员联系。 Google汇总并整理网络上显示的信息； Google不会控制这些页面的内容。 14.更改托管公司或更改IP地址是否会影响网站在Google中的列表？只要您的URL保持不变，在更改托管公司或更改IP地址之后，您在Google表格中的网站不会受到影响。 Google建议您按照以下步骤将网站迁移到新的IP地址：该IP地址会打开您的网站副本。更新您的名称服务器以指向新的IP地址。看到搜索引擎Spider从新IP地址（通常在24-48小时内）获取网页后，您可以安全地从旧IP地址中删除网站副本。 15.可以将移动网站添加到Google的移动索引中吗？您可以使用Google 网站管理员工具创建和提交网页的详细移动地图网站。使用网站管理员工具的Google Sitemaps组件，您可以轻松地将所有URL提交到Google索引，并详细报告您的页面在Google上的可见性。

　　使用Google Sitemaps，Google可以随时自动获取有关您当前网页及其更新的所有信息。了解有关移动站点地图的更多信息。每次Google执行网络抓取时，Google都会向移动网站索引中添加新的网站。但是请注意，Google不会将所有提交的URL添加到索引中，并且不能保证将其添加到您的网站中。 16.如何防止google抓取网站内容或抓取指定的内容您可以使用漫游器协议指定google。 robots.txt是业界遵守的蜘蛛侠协议。它可以指定搜索引擎蜘蛛可以抓取哪些内容。 obots.txt文件必须位于域的根目录下，并命名为“ robots.txt”。协议17.如何编写机器人协议“ robots.txt”文件收录一个或多个记录，这些记录用空行分隔（以CR，CR / NL，NL作为终止符），每条记录的格式如下：“：”。您可以在该文件中使用＃进行注释，具体用法与UNIX中的约定相同。该文件中的记录通常以一行或多行User-agent开始，后跟几行Disallow行，详细信息如下：该文件可以用＃注释，具体用法与UNIX中的约定相同。

　　此文件中的记录通常以一行或多行User-agent开始，后跟几行Disallow行，详细信息如下：User-agent：此项的值用于描述搜索的名称引擎机器人，在“ .txt”文件中的“ robots”中，如果有多个用户代理记录，则意味着该协议将限制多个机械手，对于此文件，必须至少有一个“用户代理”记录。如果此项的值设置为*，则该协议对任何机械手均有效。在“ robots.txt”文件中，只能存在一条记录，例如“ User-agent：*”。使用Disallow的值来描述您不想访问的URL。该URL可以是完整路径或其中的一部分。任何以Disallow开头的URL都不会被机器人访问。例如，“ Disallow：/ help”不会允许搜索引擎访问/help.html和/help/index.html，而“ Disallow：/ help /”则允许机器人访问/help.html，但不能访问/ help / index。.html。 rd为空，表示允许访问网站的所有部分。 “ /robots.txt”文件中必须至少有一个Disallow记录。

　　如果“ /robots.txt”为空文件，则此网站对所有搜索引擎机器人均处于打开状态。禁止所有搜索引擎访问网站用户代理的任何部分：允许所有机器人访问用户代理：禁止：示例3.禁止访问特定搜索引擎的用户代理：BadBot不允许：允许特定搜索引擎访问用户代理：baiduspider不允许：用户代理：18.为什么Googlebot不遵守robots.txt文件？为了节省带宽，Googlebot每天或Google从服务器获取许多网页时只会下载robots.txt文件。因此，Googlebot可能需要一些时间来获取对robots.txt文件的更改。此外，Googlebot分布在多台计算机上。这些计算机各自记录您的robots.txt文件。

0

2021-05-08

google搜索引擎优化指南

0 个评论

要回复文章请先登录或注册

AI时代内容工厂

电子商务实验室如何对自己的搜索引擎规则有详细的介绍

0 个评论

发起人