网站内容更新策略(用户体验策略影响力越大的网页,应该尽快更新.聚类抽样策略)

优采云 发布时间: 2021-12-03 22:19

  网站内容更新策略(用户体验策略影响力越大的网页,应该尽快更新.聚类抽样策略)

  内容

  网页更新策略

  网页更新策略的任务是决定何时重新抓取之前下载过的网页,使本地下载的网页内容尽可能与互联网上的原创网页一致。常用的网页更新策略有3种:历史参考策略、用户体验策略和聚类抽样策略。

  历史参考策略

  建立的假设基础:过去频繁变化的网页在未来会频繁更新。这种方法经常使用泊松过程来对网页的变化进行建模。基于每个网页过去的变化,该模型用于预测内容将在未来的时间。它将再次更改以指导爬虫的爬行过程。但是,不同的方法侧重于不同的领域。例如,一些研究将网页划分为不同的区域。爬取策略应忽略广告栏或导航栏等不重要区域的频繁变化,专注于主题内容的检测和变化。造型。

  用户体验策略

  影响较大的网页应尽快更新。

  聚类抽样策略

  

  , 首先,根据网页的特点,将它们聚类到不同的类别中,每个类别中的网页具有相似的更新周期。从类别中提取出一部分最具代表性的网页(通常是提取离类别中心最近的网页),计算这些网页的更新周期,然后这个更新周期适用于该类别中的所有网页,然后您可以根据网页的类别 确定其更新频率。

  相关实验表明,聚类采样策略的效果优于上述两种更新策略,但对亿万网页进行聚类也非常困难。

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线