最佳实践:一个纯采集站长的SEO、采集、运维总结

　　我是一个纯粹的采集网站管理员。以下总结，有的是关于SEO的，有的是关于采集和运维的，都是很基础的个人观点，仅供分享，请明辨是非，实践出真知。

　　原创好还是采集好？

　　当然是原创好，因为百度是这么说的，谁叫别人就是裁判。

　　为什么我原创很多文章，还是没有收录？收录没有排名？

　　一个搜索引擎，其核心价值是为用户提供他/她最需要的结果。搜索引擎对网民的需求进行了统计。对于网民需求很少或没有需求的内容，即使你是原创，也可能会被搜索引擎忽略，因为它不想把资源浪费在无意义的内容上。

　　收录对于网民需求量大的内容应该越来越快。不过因为收录这么多，就算你是原创，可能也很难挤进排名。

　　搜索引擎用什么来识别网民的需求？

　　关键词。当每个人搜索关键词时，他/她都需要与该词相关的内容。此外，使用搜索引擎的人通常有问题和答案和搜索查询。当然，搜索引擎内部必须有一个非常庞大的分析系统，才能准确定位这些需求，详见百度索引。例如，搜索到的关键词是“手机”，很有可能你是想买一部手机或查看某个型号的价格，或者你可能只是想下载漂亮的壁纸。但是，如果你想要壁纸，会有一个更精确的关键词“手机壁纸”，会以下拉框或相关搜索的形式呈现。

　　既然原创很好，为什么要采集？

　　1.虽然原创不错，但只要方法得当，采集的效果并不比原创差多少，甚至比没掌握方法的人原创好多了。

　　2.精力有限，原创很难保证大量长期更新。如果邀请编辑，投入产出比可能为负数。

　　市场上有这么多采集器，我应该用哪一个？

　　每一个采集器都有其独特性，存在是合理的。请根据您的需要进行选择。我的采集器是自己开发的，开发过程中考虑了以下几个方面，其他的采集器也可以参考：

　　1.直接提供大量分类关键词，这些关键词都是百度统计过的有网友需要的词（有百度索引），或者长这些词的尾部词，来自百度下拉框或相关搜索。

　　2.直接按关键词采集智能分析网页正文进行爬取，无需编写采集规则。

　　3.截取的文字已经用标准标签进行了清理，所有段落都以

　　开头

　　标签显示，乱码会被去除。

　　4. 根据采集收到的内容，图片与内容的关联度一定很高。以这种方式替换伪原创不会影响可读性，但也可以让文章比原创提供的信息更丰富。

　　5.正文内容中的关键词自动加粗，也可以自定义插入的关键词。但是没有所谓的“伪原创”功能影响可读性，比如句子重排、段落重排。

　　6. 可以直接使用关键词及其相关词组合作为标题，或者抓取登陆页面的标题。

　　7.微信文章采集可用。

　　8. 不要触发或挂断。

　　9.整合百度站长平台主动推送提速收录.

　　不同的网站程序，例如织梦、WordPress、dz、zblog、empirecms 或其他程序如何影响 SEO？

　　理论上它没有效果。因为搜索引擎不知道你是什么程序，或者可以通过一些规则来识别，所以不可能因为程序本身的不同而影响它的判断。

　　那么什么会影响 SEO？答案是模板。因为基本上这些程序都有模板机制，同一个程序可以输出不同的页面，不同的程序也可以输出同一个页面，这就是模板。模板确定后，你的每一个页面都会按照这个框架输出，也就是整个html结构已经确定了。而这些html，是搜索引擎关注的重点，它要从这些html中获取它想要的信息。因此，一套好的模板非常重要。

　　模板设计要注意哪些细节？

　　1. 权重结构顺序。在整个页面的html中（注意是html，不是显示的布局），位置越高，权重越高。由此衍生出“title”、keyword、description这三个标签是最高级、权重最高的。第二个通常是导航，基本都是顶，权重也很高。同样，文章标题和正文。这是按照html的前后排序的。

　　2. 因为搜索引擎首先要遵循W3C标准，所以W3C定义的一些标签本来就是用来表示重要信息的，其权重自然很高。比如特别是h1，用来表示当前页面最重要的信息。重要信息，一般每页只能有一个，其权重估计相当于标题，通常用来放当前页的标题。当然，为了提高首页的权重，可以使用h1来放置logo或者首页链接。的。此外还有em、strong等标签，用于表示强调。一般认为strong的权重高于tags，也是加粗的，但我们认为从SEO的角度来看，并没有权重增强。

　　3. CSS 或 js 代码通常对搜索引擎没有意义，尝试使用单独的文件存储，如果允许的话放在 html 的末尾

　　网站结构规划要注意什么？

　　1. 网址设计。 URL 还可以收录关键词。例如，如果您的网站是关于计算机的，那么您的 URL 可以收录“PC”，因为在搜索引擎眼中它通常是“计算机”的同义词。 URL不要太长，层级尽量不要超过4层。

　　2. 栏目设计。列通常与导航相关联。设计要考虑网站的整体主题，用户可能感兴趣的内容，列名最好是网站的几个主要的关键词，这样也方便导航权重的使用.

　　3. 关键词布局。理论上，每个内容页面都应该有它的核心关键词，同一个栏目下的文章应该尽可能的围绕关键词栏目转。一个简单粗暴的方法是直接使用关键词列的长尾关键字。

　　动态、伪静态或静态，哪个更好？

　　这不能一概而论，建议使用伪静态或静态。三者的区别在于是否生成静态文件以及URL格式是否为动态。生成静态文件本质上是为了加快访问速度，减少数据库查询，但是会不断增加占用的空间；伪静态仅通过 URL 重写来修改 URL。对于加速访问完全无效。动态和伪静态的区别仅在于网址，带有问号和参数。

　　所以只要注意两点：网站打开速度够快吗？您需要节省服务器空间吗？

　　不同的网站程序可能有不同的数据库操作效率。一般来说，如果内容页数小于10000，页面打开速度比较快，数据量较大，达到50000、100000甚至更多，通常需要考虑静态。

　　提高访问速度的方法有哪些？

　　1. 如上所述的静态。

　　2. 通常很多网站模板都有随机调用文章或类似的部分。其实对于数据库来说，随机是一个比较重的负担，在模板中随机文章的调用应该尽量减少。如果无法避免，可以考虑从数据库优化。对有索引的字段进行排序通常比没有索引要快得多。

　　3. 将图片、js、css等不经常修改的文件放在专用的静态服务器上。多个js或者多个css可以尽量合并到一个文件中，减少http连接数。

　　4. 使用各种云加速产品。对于普通的网站，免费的百度云加速或者360云加速也可以。

　　文章有很多，网站静态已经开启，但是每次更新全站都需要很长时间怎么办？

　　我的方法是使用缓存机制。这里只是一个想法，可能需要自己二次开发。

　　网站设置为伪静态。当每个请求到达时，程序会检查是否有对应的缓存html文件。如果文件是几小时或几天前生成的，我们确定它需要更新。此时，执行正常处理。程序查询数据库，生成html，写入缓存文件，然后输出到客户端。

　　下次访问到来时，比如1分钟后再次访问同一页面，再次查看缓存文件时间。从时间上可以判断文件很新，根本不需要更新，直接读取文件内容输出到客户端。这样每个页面都可以自动生成，只有第一个访问者会觉得速度慢。后面的访问者相当于静态访问，速度很快。

　　如果是独立服务器，也可以考虑自动检测服务器负载。如果负载已经很高，即使判断需要更新，也暂时不更新，直接输出。

　　引用远程 URL 还是放在我自己的服务器上更好？

　　这也有它自己的优点和缺点。引用远程URL可以节省自己的带宽，但是很有可能由于对方服务器速度慢、删除资源、防盗链等原因导致图片无法显示。如果下载到自己的服务器，当然一切都在自己的掌控之中，但是图片会占用很大的空间，可能会比一般静态生成的占用空间更大，而且如果访问量很大，图片会占用最多的带宽。

　　网站内部链接应该如何优化？

　　内链是百度官方推荐的优化方式之一，一定要做。通常的表达形式是文本中出现了某个关键词，在这个关键词上加了一个链接，指向另一个页面恰好是这个关键词的相关内容于是就诞生了一些所谓的优化技术，在文本中强行插入一些关键词和链接，进行类似相互推送的操作。其他人为了增加首页的权重，到处放网站的名字，并做一个指向首页的链接，认为这样可以增加目标页面的权重。但这些很可能会适得其反，因为搜索引擎会计算每个链接的点击率。如果您点击了一个位于显眼位置但很少被点击的链接，则可能会被判定为作弊。因此，请只在文本中已有的关键词上进行内部链接，仅此而已。

　　段落重排、句子重排和同义词替换有用吗？

　　不好。因为搜索引擎已经智能化，不再是简单的数据库检索，它会分析自然语义（详情请搜索“NLP”），任何语义分析困难的句子或段落都可以判断为可读性差，所以我认为这些“伪原创”可能是自命不凡的。

　　评论模块基本不用，该用还是不用？

　　是的。评论模块最麻烦的就是垃圾评论。通常，真正说话的访客很少，垃圾评论很多。他们整天都在与营销软件竞争。这是我实现的一个解决方案，可能对收录有帮助（没有依据，只是猜测）：

　　保留评论框，但禁用评论。所有评论均由自己的网站程序生成。如前所述，搜索引擎会分析自然语义，其中重要的能力之一就是情感判断。搜索引擎会计算每条评论的情绪值，无论是正面（positive）还是负面（negative），具体倾向是10%还是90%。如果评论的内容表达了积极的情绪，你可以给你的文字加分，否则你可能会失分。至于如何自动生成好评，就让八仙渡海大展神通吧。

　　这是社交网络发展后的必然趋势，用这种方式来体现一个页面的用户体验。同理，还有分享、点赞等，原理大同小异。

　　绿萝卜算法之后，外链还有用吗？

　　有用。请参阅搜索引擎三定律的相关性定律。既然是法律，就不会改变。谁的内容被引用的多，谁的权威。在主动推送出现之前，外部链接应该是蜘蛛知道页面内容的第一通道。

　　外部链接必须是锚文本还是裸链接？

　　没有。搜索引擎有很大的责任去尝试找到真正有价值的东西并排除那些没有价值的东西。所以，有可能是你直接提交的链接没有收录，而你在别人的地方发了一个纯文本的URL，结果被发现了，加分计算了。

　　除了锚文本和裸链接外，还可以发送关键词+URL形式的纯文本。这样，URL前面的关键词就会自动和URL关联起来了。

　　另外，虽然有些链接有nofollow属性，但是在百度计算外链的时候还是会计算出来的。

　　收录和索引是什么关系？

　　收录表示蜘蛛已经爬过并分析了它。该索引表明该内容经过蜘蛛分析后具有一定的价值。只有输入到索引中的内容才会出现在搜索结果中并显示给用户。也就是说，只有被收录的内容才有机会带来流量。

　　专业知识:商业银行信息系统数据采集实践与经验

　　1 简介

　　近年来，随着我国信息技术的蓬勃发展，各行业信息化水平都有不同程度的提高。在一些领域，特别是国有商业银行，大型信息系统的应用日趋成熟。这些信息系统的后台一般都是大型数据库（如Oracle、DB2等），存储着海量的数据。如何快速高效地采集审计大型信息系统所需的电子数据，成为审计人员必须面对的问题。笔者曾参与过几类大型信息系统的计算机审计，并通过实践总结了一些经验。希望通过这篇文章与广大审计前线的同仁交流，共同进步。

　　2 商业银行信息系统的特点和数据采集难点

　　一般来说，商业银行信息系统复杂，数据量大。在系统升级改造过程中，往往会涉及到系统前后版本、新旧模块的连接和切换。这一切都导致了计算机审计过程中数据所涉及的对象极其复杂采集。

　　2.1 系统结构复杂

　　(1)企业组织结构复杂，各个子单位的应用系统数据比较分散。

　　一般大型商业银行在各个地区都有分行，很多分行都自建了相对独立于总行的信息系统。目前，大量的业务数据仍然存储在各个分支机构中，而相对完整的数据只能通过各个分支机构的汇总和上报得到。

　　(2)系统原创数据丢失，部分系统缺少文档。

　　银行信息系统开发周期长，早期项目管理大多不规范。缺少一些系统 ER 图和软件开发文档。在审计过程中，很难对这部分系统架构和业务流程有一个清晰的概念，导致在数据采集过程中很难准确定位到需要的业务数据。

　　2.2 信息系统有很多版本

　　系统开发多年，应用版本众多，多个版本并存。

　　商业银行信息系统包括以下主要组成部分：核心会计系统、信用管理系统、国际业务处理系统、客户综合信息系统等。在整个信息系统升级过程中，不同系统运行不同版本的应用程序模块，给业务数据的采集带来很大的困难。

　　(1)数据集中升级过程中不同子系统上线和下线时间不一致。

　　在推进新版商业银行信息系统的过程中，由于地域差异等原因，各分行的系统上线和废止时间往往不一致。在data采集的过程中，如果需要在各个分支的系统升级过程中扩展业务数据的审计，很有可能同时面对新旧版本的系统，这也对数据集成提出了更高的要求。

　　2.3 数据复杂，工作密集，难度大

　　(1)审计涉及面轻，数据量大，服务器负担重。

　　在商业银行的审计中，审计涉及的业务数据往往超过数百G。但是，由于处理能力的限制，搭建在审计站点上的数据服务器往往硬盘容量不足，数据转换速度太慢。针对这种情况，一方面需要不断完善数据服务器的软硬件配置；另一方面，通过及时删除中间表，利用机器空闲时间进行操作，提高数据采集和排序的效率。

　　(2)数据来源众多，不同口径的数据往往存在差异。

　　在审计过程中，不同分支机构和相应职能部门提交的数据往往存在一些差异。这些差异通常是由于统计口径的差异。在这种情况下，审计人员会花费大量时间寻找数据中的差异并分析原因，从而拖慢了整个审计进度。

　　(3)系统流程复杂，数据验证困难

　　商业银行提供的一些汇总报表，如资产负债表、损益表等，往往是从整个系统中抽取的数字统计出来的，过程非常复杂。审计人员很难核实这些数据。

　　3 商业银行信息系统数据采集实践

　　针对商业银行信息系统的特点和审计过程中数据采集的难点，笔者在实践中总结了一些海量数据采集的方法，可以有效克服业务实际工作中的问题。数据中的常见问题采集，从而大大提高审计工作的效率。

　　3.1 审前调查

　　在传统的审计模式下，无论审计项目规模大小，都需要在审计前了解审计对象的基本情况，从而制定切实可行的审计计划，以合理的方式开展审计工作。有序推进。信息系统数据的采集工作也是如此，需要审计人员进行审前调查，审前调查的内容不仅包括常规审计方式下的一些内容，还包括更多内容与计算机审计有关。具体来说：

　　(1)业务流程

　　要详细了解商业银行各业务环节的具体操作方法和目的，根据了解绘制业务流程图。目的是让审计人员有初步的审计思路，更好地设计可行的审计方案，初步确定数据的范围采集。

　　(2)组织

　　对被审计单位的整体组织结构有详细的了解。根据知识绘制被审计单位的组织*敏*感*词*。因此，审计人员可以了解被审计单位的结构，从而对业务流程有更清晰的认识。

　　(3)计算机系统

　　了解商业银行电脑的软硬件配置，包括操作系统、常用软件、主要服务器的硬件配置。目的是为了方便采集和数据的传输。

　　(4)业务系统

　　了解商业银行业务系统的名称、版本、开发者、功能等，以及业务操作系统中的关键表，业务系统之间的关系，以及各个系统在业务中的重要性过程。

　　(5)数据库系统

　　了解被审计单位业务系统使用的各个数据库系统的基本信息，包括数据库系统的名称和版本、数据库系统本身的格式、可以通过系统。

　　通过审前调查，审计人员需要进一步明确相关业务数据的具体格式。数据格式满足审计员的需求或审计软件的采集要求。如果不能满足以上要求，需要通过源数据处理等方法转换成需要的数据格式。

　　在审前调查阶段结束时，审计人员需要向被审计的商业银行提交电子数据申请表，同时要求对方提供相应的数据字典。数据字典中应包括数据表之间的关系、字段的含义、数据流图。

　　3.2 个数据采集

　　(1)数据采集具体方法

　　首先是利用商业银行后台数据库管理系统的数据导出功能，将需要的业务数据以固定格式导出，形成txt等格式的数据文件，然后导入到数据中审计站点上的服务器。

　　二是复制信息系统的备份文件，然后在类似的系统环境中重建数据系统，或者建立审计中间表。审计员对重建的系统或中间表进行审计分析。

　　三是使用审计软件自带的数据传输工具。比如“现场审核实施系统”自带的数据转换接口工具。

　　第四是使用通用的数据传输工具。例如：某商业银行的后台数据库是DB2，我们可以直接使用ODBC将DB2中需要的数据导入到数据服务器的SQL Server数据库中。

　　审计人员需要根据被审计商业银行的数据特点，灵活选择具体的数据采集方法。例如，在数据密集型部门，由于数据量通常超过一般审计软件的处理能力，目前常用的数据采集方法是重建模拟系统，然后进行数据筛选等操作。仿真系统。内部财务等数据量不大的部门，可以使用SQL Server等中小型数据库软件在台式机上进行数据采集和分析。

　　(2)数据采集点选择

　　根据被审计商业银行的数据存储方式，可以采用不同的数据采集策略。对于数据集中存储的银行，采集点最好选择数据集点。对于数据以去中心化方式存储的银行来说，有两种方式来进行数据采集。一是与各个数据存储点建立数据连接路径，将采集数据分离，聚合到数据中心整合；另一种是供审计银行在数据之前使用采集自有网络集中数据供审计人员集中采集。

　　(3)数据采集频率选择

　　在线审计数据的频率采集是由被审计单位数据在生产系统中的保留时间、被审计系统的业务特点、审计周期等因素综合决定的。采集频率也应该根据审计的需要轻松设置，一般以系统参数的形式给出。另外，采集期的选择还要考虑审计期的长短。

　　3.3 数据验证

　　数据验证是对采集收到的商业银行电子数据的真实性和完整性进行校验，保证审计数据和审计工作的质量，防止“假账验证”。

　　由于银行信息系统的复杂性，要验证采集的所有数据显然是困难的。因此，必须选择关键系统和关键数据表并验证其内容。同时，根据系统内部的业务逻辑，可以通过不同业务数据之间的链接关系对数据进行交叉验证，从侧面验证业务数据的真实性和完整性。

　　4 数据经验采集

　　4.1 单独审计

　　在现场审计过程中，审计人员不应直接对被审计软件系统的数据库进行分析和测试，而应先将业务数据迁移到审计人员搭建的数据平台，以免损坏被审计数据。软件系统。销毁。

　　4.2 确保审计软件的效率

　　无论采用何种数据采集方法，从审计软件最初接受数据到确认数据保存的过程中，都可能会产生一些临时数据表。长此以往，势必会影响审计软件的运行速度。为了防止临时数据占用计算机磁盘和内存空间，提高审计软件的运行效率，可以在数据后集中清理临时数据采集。

　　4.3 增强的安全性和保密性

　　对已采集的业务数据进行加密，确保其安全。审计软件应确认关闭其数据导出，防止无关人员随意调用、修改，造成数据损坏或泄露，损害被审计商业银行的利益。

　　4.4 灵活使用第三方辅助软件

　　数据中采集可以灵活使用第三方辅助软件，提高工作效率。比如在采集过程中，需要创建、导出、导入很多数据表文件。操作复杂，但同时大部分工作具有高度的相似性。这时可以使用UltraEdit等文本处理软件，通过其列模式、文本快速定位、文本比较等功能，简化操作流程，进一步减少数据采集阶段的工作时间。

　　【关闭】【打印】

AI时代内容工厂

最佳实践:一个纯采集站长的SEO、采集、运维总结

0 个评论

发起人

AI时代内容工厂

最佳实践:一个纯采集站长的SEO、采集、运维总结

0 个评论

发起人

相关问题