网站内容更新策略(用户体验策略影响力越大的网页,应该尽快更新.聚类抽样策略)
优采云 发布时间: 2021-12-03 22:19网站内容更新策略(用户体验策略影响力越大的网页,应该尽快更新.聚类抽样策略)
内容
网页更新策略
网页更新策略的任务是决定何时重新抓取之前下载过的网页,使本地下载的网页内容尽可能与互联网上的原创网页一致。常用的网页更新策略有3种:历史参考策略、用户体验策略和聚类抽样策略。
历史参考策略
建立的假设基础:过去频繁变化的网页在未来会频繁更新。这种方法经常使用泊松过程来对网页的变化进行建模。基于每个网页过去的变化,该模型用于预测内容将在未来的时间。它将再次更改以指导爬虫的爬行过程。但是,不同的方法侧重于不同的领域。例如,一些研究将网页划分为不同的区域。爬取策略应忽略广告栏或导航栏等不重要区域的频繁变化,专注于主题内容的检测和变化。造型。
用户体验策略
影响较大的网页应尽快更新。
聚类抽样策略
, 首先,根据网页的特点,将它们聚类到不同的类别中,每个类别中的网页具有相似的更新周期。从类别中提取出一部分最具代表性的网页(通常是提取离类别中心最近的网页),计算这些网页的更新周期,然后这个更新周期适用于该类别中的所有网页,然后您可以根据网页的类别 确定其更新频率。
相关实验表明,聚类采样策略的效果优于上述两种更新策略,但对亿万网页进行聚类也非常困难。