知识和经验:网络竞争情报主题采集技术研究

优采云发布时间: 2022-10-13 14:24

　　可用的信息很少。一般 URL 的锚文本的平均长度只有一个词。如果使用 URL 的上下文，必然会引入噪声数据；(2)在预测文本内容时，多采用基于关键词的向量空间模型方法，准确率不高。

　　针对这两个问题，本文提出了一种基于主题爬虫的竞争情报采集新方法。在链接预测中，采用基于规则和锚文本主题相似度结合的算法来避免短URL锚文本和噪声问题；在主题预测中，使用了改进的朴素贝叶斯分类算法，可以有效提高主题判断的准确率。引言网络信息资源日益成为企业和政府部门最重要的竞争情报来源。如何有效、快速地从海量的网络信息资源中获取有价值的情报是一个严峻的问题。目前，很多企业和政府部门都采用了竞争情报采集系统，所使用的智能采集技术主要包括基于搜索引擎的智能采集、基于网络爬虫的智能采集和基于主题的智能采集。基于搜索引擎的情报采集通过关键词硬匹配的方式，借助搜索引擎获取情报资源。虽然实现简单，但智能采集的准确率不高；基于网络爬虫的情报采集更适用于行业网站、专题网站、知名竞争对手网站等范围内的情报采集。准确率高，但也会漏掉很多零散的情报信息和未知相关的网站，采集召回率差；基于主题的智能采集通过预先确定的主题模型，只需要采集与特定主题相关的网页，即可获得全网需要的信息页面，采集准确率和召回率高，这种方法也是网络竞争情报的主流技术采集，本文也提出了这种方法。基于链接和内容预测的主题采集技术。

　　链接预测和文本内容预测是话题爬虫技术的核心。相关工作主题爬虫最早由 Chakrabarti 等人提出。开源信息分析和搜索引擎信息的核心技术采集。关于话题爬虫的学术研究主要集中在两个热点：一是话题的呈现方式，即用户如何表达自己想要的话题；另一个是页面的采集策略，即如何高效地采集高质量的页面。第一个问题的研究主要使用文本分类，收稿日期：2014-05-20；主编：wei 1322014 知识表示等技术，这里不再赘述；第二个问题的本质是主题相关性的判断目前，主要有基于内容评价的爬取策略、基于链接关系的爬取策略和基于分类器的爬取策略。基于内容的爬取算法使用网页内容、URL、锚文本等网页文本信息来评估链接的等级。决定它的爬取策略。此类搜索算法主要包括 Bestfirstsearc 方法、Fishsearc 方法和 Shar 方法。这样的爬虫容易出现主题漂移。基于链接关系的主题爬虫算法分析Web的链接关系，并利用页面之间的链接关系来预测要爬取的URL，这代表了PageRank的计算或其改进HITS或其改进。由于算法的复杂性，这种爬虫需要大量的计算，

　　基于分类器的主题爬虫算法从分类的角度描述采集的主题，判断待挖掘URL的主题相关性。基于主题相关程度的网页链接预测方法大致有两种。一种是根据链接的锚文本内容与主题的相关性来预测链接；预测链接的相关性。两种方法都有缺点。基于链接锚文本的链接预测会导致一些与主题相关的网页链接被识别为主题无关链接，而基于网页全部内容的链接预测会导致大量主题无关链接。下载的链接[10]主要包括：网页内容特征、URL锚文本特征、页面块特征、和 URL 链接关系。基于内容评价的话题爬虫算法只利用网页内容的特征，忽略了URL链接关系；基于链接关系的主题爬虫算法只利用链接关系的特征，而忽略了网页内容和锚文本的特征。此外，在链接预测中，由于锚文本的长度普遍较短，因此仅使用单链接锚文本特征会产生较大的错误率。本文综合考虑了网页和URL的特点：在网页内容的主题预测中，先对网页类型进行分类，再对主题类型页面的内容进行分类；在链接预测中，首先将与主题相关的网页分页，使用页面规则做第一次过滤，

　　“礼貌” 采集到网站。（2）采集器：通过Http协议、ftp协议等连接到采集URL指向的页面。（3）网页类型分析器：负责判断采集到的网页的类型页。网页分为链接型（或目录型）页面和主题型页面。对于链接类页面，需要提取相关链接和链接类页面的链接；对于主题类型的页面，需要进一步判断页面的主题相关性，提取相关链接。(4)页面分析器：利用HTMLag标签特征、视觉特征和文本内容特征，对页面进行分块，使同一块中的内容在语义上相关。(5)页面过滤：预测块文本的主题，去除与采集的主题无关的页面。(6) URL解析器：对分段链接进行链接提取、标准化和锚文本提取。(7) URL过滤器：预测从页面解析出来的链接，去除与采集主题无关的链接，避免采集过程中出现“主题漂移”问题[11]（ 8）主题分类模型：存储竞争情报主题的特征模型需要预先提供一定数量的主题样本，通过NaveBayes分类器训练得到。(9) URL库：存储在爬取过程中提取的初始URL*敏*感*词*和相关链接，由URL管理器维护。其中，初始 URL *敏*感*词*由用户指定。3.2 采集展示：（1）离线训练页面过滤。提前采集竞争情报主题的训练样本（通常为数百个）进行训练；（2）指定初始URL*敏*感*词*并注入URL （3）采集器从URL管理器中获取要爬取的URL，连接下载该URL对应的网页，并将该URL放入采集队列。

　　从这一步开始，系统进入在线爬取阶段，在线爬取阶段会循环执行步骤3-7。一般来说，爬虫永远不会停止。在实际应用中，可以根据需要设置一定的停止条件；新网页的类型标识。如果是主题类型的页面，执行步骤5。如果是链接类型的页面，执行步骤(5)。如果小于预设阈值，页面将被丢弃；否则，转到步骤（6）提取网页中的URL和对应的锚文本，如果基于主题的网络竞争情报采集Model 3.1系统显示：（1）URL管理器： URL管理器是保证同一网站同时在一个采集主机上只有一个线程采集，从而实现133 URL；在 URL 上执行相关性计算。如果与主题相关或URL指向链接类型的页面，则存储在URL库中；否则，该 URL 将被丢弃。主题相关性判断算法主题相关性判断是最重要的部分。它负责判断页面内容和页面链接的相关性，这决定了主题采集的准确性和竞争情报的可用性。4.1 网页网页分为话题型页面和链接型页面：话题型页面是指具有一个或多个主题的页面，描述一些有意义的事件，如新闻页面；链接类型页面也称为目录类型页面。它本身没有实际意义，但收录指向其他网页的链接。比如网站的首页就是一个典型的链接型网页。

　　这两类页面的主题相关性判断方式不同：（1）基于主题的页面，一般认为主题相关的页面会收录主题相关的链接，而与主题无关的页面会不收录与主题相关的链接。关联。因此，需要对主题页面进行文本提取和页面过滤，如果与主题相关，则进一步提取相关链接，否则可以直接丢弃该页面。(2)对于链接类型的页面，本身没有文字，只需要在页面中找到与主题相关的链接即可。此外，还需要提取页面中收录的一些指向链接类型页面的URL。这些URL一般是主题类页面的入口，可以直接看作相关链接。链接型页面和主题型页面的特点非常明显，如表[11]所示。因此本文使用标点符号（如句号、逗号等）的数量、URL的长度、文件名、链接数与字符数的比值等作为区分特征，并设置相应的阈值来判断页面类型。4.2 页面竞争情报采集策略本系统使用改进的朴素贝叶斯算法来预测采集页面内容的主题。在朴素贝叶斯分类算法中，文本向量的主题相关公式为：|Topic´)P(rTopic´) Topi 1342014 个主题主题预设阈值TH，如果H(D)小于TH，则认为该网页没有与采集主题列表相关的，将被过滤掉。

　　首先，在新浪和搜狐二级栏目网站下的采集网页上，经过人工筛选，最终确定了10个类别作为训练集和测试集。其中，每个类别的训练集收录 800 个网页，每个类别的测试集收录 500 个网页。测试结果如表所示。4.3 链接链接预测与页面主题预测相比非常困难。原因是可用的判断功能很少。目前主要使用的特征有：URL之间的关系（如父子关系、兄弟关系等）；锚文本和锚文本周围的文本；URL所在页面的屏蔽功能。因为url之间的关系需要存储很多相关信息，噪声现象严重。利用后两个特征，本文设计了一种基于页面规则和锚文本主题相似度相结合的算法。对与主题相关的网页进行分割，首先利用页面规则进行第一次过滤，然后利用锚文本的相似度进行二次过滤，最后提取相关链接。4.3.1 页面块规则过滤根据文献[12]发现，页面中与主题相关的链接通常具有以下特点：（1）相关链接经常出现在块中，包括多个链接；两类页面的特征其中，{Topic}是系统需要的采集的主题集，F是特征集，

　　可以看出，D的相关性只体现在词频上，但是对于一些相似的类别，比如“football”和“basketball”，可能有很多相似的特征，而某些特征出现在这两者中的概率categories 还可以反映fi Topicj的贡献大小，同时可以反映该特征的其他特征对Topicj的分类贡献。为此，将特征作为加权因子引入分类公式，我们得到： H(D)=argmax |Topic´)P(rTopic´) TopicjTopic fiF Topic fi, Topic)j 50096% 10486 50097.20% 50093.80 % 50091.00% 50096.80% 50098.00% 50092.00% 50098.20% 50099% 480500 96% 互联网竞争情报专题采集技术研究所以，相关链接中锚文本的长度一般较长（20~30Byte）；而无关链接的锚文本长度一般较短（4~10Bytes） (3) 相关链接的地址一般是站内地址，而无关链接的地址通常是场外地址； (4) 链接的锚文本相关链接和网页随笔标题一般具有相同的意义词，因此，基于上述特点，制定如下规则过滤不相关链接：（1）如果链接锚文本的平均长度小于10、链接块是不相关的链接块；（2）如果链接块中的链接锚文本与文本标题中相同词（必须是真实词）的平均数小于集合阈值，链接块是无关链接块；

　　选取 4.2 节中的 100 个网页中的每一个作为测试数据，并使用上述规则从这 1000 个网页中提取相关链接。精度和召回率用于评估，其中精度是过滤后的不相关链接的正确数量与所有过滤的不相关链接的数量之比，召回率是过滤的不相关链接的正确数量与过滤的不相关链接数量的比值页面中收录的不相关链接。因为竞争情报系统希望获取尽可能多的情报信息，所以过滤的主要目标是在保证过滤精度的同时尽可能提高过滤召回率。最终的统计分析表明，当阈值为 0.6 时效果最好。测试结果如表规则过滤测试结果2.8GHZ，内置Myeclipse，开发语言为Java，数据库为Mysql。采收率作为评价指标。其中，收获率是指抓取到的与主题相关的网页数量与抓取到的网页总数的比值。当收获率高时，说明主题爬虫的过滤性能较好，可以有效过滤与主题无关的网页。为了实现学科智能采集技术的实验，我们选择了中国（）、新网（http://）、搜狐（ht tp：//www.s）、网易()等：//)为*敏*感*词*URL，以“食品安全”为主题，每采集一定数量的网页统计收获率，

　　在4.2节的页面主题预测公式中，TH是一个预设的阈值，用于判断一个页面是否为无关页面。为了确定最佳阈值，对于 TH 0.01, 0.02, 0.03, 0.04, 0.05, 0.06, 0.07, 0.08, 0.09 1, 使用本文算法在不同值下采集5000个网页,网页收获率从图中可以看出，在 TH 0.06 时，该算法的话题收获率最高。在随后的实验中，TH 取为 0.06。为了比较本系统的性能，与传统网络采集（广度优先算法）、基于内容评价的话题爬虫算法（Best first search algorithm）、基于链接关系的话题爬虫算法（PageRank algorithm） ), 标准采集关键词算法已经过实验比较。从图中可以看出，在采集开头，各种算法的网页收获率都比较高，但是随着采集网页数量的增加，宽度优先，标准采集在关键词、PageRank、Best First Search算法的收获率中，广度优先的收获率最低，因为广度优先不处理主题；标准的关键词算法只考虑关键词匹配，主题匹配度比较有限，收获率也低；PageRank算法在采集前期效果不佳，因为PageRank需要积累一定数量的页面才能生效，采集后期效果更好。好的; Best First Searc 可以看到经过第一层过滤后，50。

　　4.3.2 锚文本主题相似度过滤页面块规则过滤的链接块中仍有49.2%的不相关链接，需要进行第二层的锚文本主题相似度过滤。因为单个链接的锚文本长度很短，所以统计价值不大。一般来说，同一块中的链接在语义上是比较接近的，所以本文将整个链接块中的锚文本采集起来，使用4.2节的页面过滤器进行过滤。如果链接块与主题的相似度小于某个阈值，则认为链接块中的所有链接都是不相关链接，从而进行过滤。，CPU：Intel Cor i5136 99.4%50.8% 2014范围，可以有效减少采集页数，提高采集。链接预测和主题预测是该系统的核心技术。使用基于规则和锚文本主题相似度组合的算法进行链接预测，避免了短URL锚文本和扩展锚文本带来的噪声问题。使用了基于改进朴素贝叶斯算法的主题预测，并通过实验验证了其准确性。参考实践，2007，30(5)：577-580。, 2006, 29(5): 563), 2010, 47 展览, 2009, 46(2): 217-224. [6] Soumen Chakrabar ti，马丁·范登伯格，拜伦·多姆。Focused crawling: newappr oac topic-specific Web resource discovery［J］.Computer Networks，1999，1623-1640.［7］Junghoo Cho, Hector Garcia-Molina, Lawr enc Page.Efficient Crawling Through URL Computer Networks ISDN Systems, 1998, 30 (1-7): 161-172。[8] 罗林波，陈琦，吴庆秀。链接预测和主题预测是该系统的核心技术。使用基于规则和锚文本主题相似度组合的算法进行链接预测，避免了短URL锚文本和扩展锚文本带来的噪声问题。使用了基于改进朴素贝叶斯算法的主题预测，并通过实验验证了其准确性。参考实践，2007，30(5)：577-580。, 2006, 29(5): 563), 2010, 47 展览, 2009, 46(2): 217-224. [6] Soumen Chakrabar ti，马丁·范登伯格，拜伦·多姆。Focused crawling: newappr oac topic-specific Web resource discovery［J］.Computer Networks，1999，1623-1640.［7］Junghoo Cho, Hector Garcia-Molina, Lawr enc Page.Efficient Crawling Through URL Computer Networks ISDN Systems, 1998, 30 (1-7): 161-172。[8] 罗林波，陈琦，吴庆秀。链接预测和主题预测是该系统的核心技术。使用基于规则和锚文本主题相似度组合的算法进行链接预测，避免了短URL锚文本和扩展锚文本带来的噪声问题。使用了基于改进朴素贝叶斯算法的主题预测，并通过实验验证了其准确性。参考实践，2007，30(5)：577-580。, 2006, 29(5): 563), 2010, 47 展览, 2009, 46(2): 217-224. [6] Soumen Chakrabar ti，马丁·范登伯格，拜伦·多姆。Focused crawling: newappr oac topic-specific Web resource discovery［J］.Computer Networks，1999，1623-1640.［7］Junghoo Cho, Hector Garcia-Molina, Lawr enc Page.Efficient Crawling Through URL Computer Networks ISDN Systems, 1998, 30 (1-7): 161-172。[8] 罗林波，陈琦，吴庆秀。

　　本文算法综合利用了网页内容的特点、URL锚文本和页面块的特点。通过链接预测和网页内容预测的双重过滤，可以保证采集页面和主题的相关性，因此收获率高。不过本文算法的收获率在后期也有一定程度的下降。采集找到的不相关页面是从采集日志中分析出来的，主要是链接预测中的一些不相关的链接会被错误判断为主题相关链接，错误的主要原因是顺序为了能够采集到更多页面，主题链接的相关性阈值设置得较低，从而导致下载更多不相关的页面。此外，还比较了每种方法的时间。从图中可以看出，本文中的爬虫是消耗系统时间最多的。原因是页面需要经过链接过滤和页面过滤。但是，与其他算法相比，本文中的爬虫与过滤无关。页面比较多，采集主题相关的页面比较多，所以总体来说还是可行的。结论本文介绍了基于主题的网络竞争情报采集模型，详细介绍了其架构、采集策略和关键技术。与基于网络爬虫的情报采集相比，系统缩小了情报采集的作者简介：田雪云（1981-），女，中国科学院大学和中国科学院文献情报中心博士生。137

　　专业知识:延安旅游seo怎么对旅游公司竞争对手的网站进行SEO分析

　　【旅游seo】如何对竞争对手的网站进行SEO分析

　　分析和了解您的竞争对手是您的 SEO 优化计划的重要组成部分。从您的竞争对手中，您可以找到并以最高效率填补空白。以下是分析竞争对手时需要注意的一些要素：

　　1.找到最好的对手

　　一般来说，你搜索热词、大词和网站占据搜索结果首页上半部分的与你的目标相关。一般来说，SEO做得很好。当然，这些网站也不排除有一些不擅长SEO却因为大牌排在前面的。这时候可以通过以下几点来测试对方的SEO能力：

　　(1) 他们的网站是否被 Google 充分索引。您可以在搜索引擎中输入站点：域名。如果一个页面仅收录谷歌的一小部分，网站可能对搜索引擎蜘蛛不友好。

　　顺便说一下，你可以使用谷歌搜索控制台来检查你自己的网站抓取率和索引率。

　　【旅游seo】如何对竞争对手的网站进行SEO分析

　　谷歌爬虫

　　【旅游seo】如何对竞争对手的网站进行SEO分析

　　谷歌的索引

　　2) 他们的产品和类别页面都没有不同的关键词标题。在 Google 中搜索网站：竞争对手的域名以查看整个网站页面的标题。

　　或者进入他们的页面，使用插件MOZBAR查看其他页面的pagetitle、H1、Meta description、ALTtext和URL是否收录关键词并进行优化。

　　(3)他们的页面是否具有良好的PR值。可以安装 LRTPOWERTRUST 查找页面和域分数。

　　(4)整个网站的锚文本，尤其是导航中的锚文本，是否收录关键词。

　　（5）他们的网站是否受到惩罚。我将在下一篇文章中学习如何识别搜索引擎的偏离。

　　(6) 他们是否有垃圾邮件的反向链接。这可以使用付费工具 majestic 或免费的 SEMRUSH 查询。SEMRUSH不如majestic准确，但可以提供近似值和一些反向链接。

　　2.如何向竞争对手学习SEO

　　1. 他们在关键词的定位是什么。您可以查看他们的主页和产品类别页面的标题，然后查看他们的关键词标签

　　2. 谁链接到他们的主页，以及最畅销的产品和类别页面？您可以使用 majestic 或 semrush 进行检查。

　　3. 使用站点运行工具检查他们是否使用与您相同的服务器软件。

　　单击 Google Snapshots 以查看竞争对手页面的快照版本是否与您正在访问的页面不同。是否有隐藏页面。

　　4. 要分析流量，您可以使用 comparee、quantcast、Alexa 或类似网站或 Googletrendsforwebsites 或获取 Google 流量摘要。

　　5. 竞争对手的 SEO 状态与几年前相比，您可以在 waybackmachine 中查看大量的网页存档。

0

2022-10-13

免规则采集器列表算法

0 个评论

要回复文章请先登录或注册

AI时代内容工厂

知识和经验:网络竞争情报主题采集技术研究

0 个评论

发起人

AI时代内容工厂

知识和经验:网络竞争情报主题采集技术研究

0 个评论

发起人

相关问题