java从网页抓取数据(我编写了一些Java代码，使用Crawler4J来抓取一堆网页)

优采云发布时间: 2022-01-04 05:14

　　我写了一些Java代码，用Crawler4J爬取了一堆网页，然后用K-Means按关键字聚类。我想从每个集群中选择最好的图像（其中“最佳”被松散地定义为“集群中主题的最佳代表”），我想知道是否有任何现有的框架可以做到这一点（因为这显然是一个问题。在我推出自己的新闻之前，很多人已经需要解决诸如显示聚合新闻等问题。

　　我正在抓取的大多数页面都是关于给定主题的标准新闻页面，因此页面的最佳图像通常是1) 最大的图像和 2) 紧跟在最大的文本块之后。上一张图片。如果我必须推出自己的实现，我的暂定计划是根据这些（和其他）启发式算法从集群中的每个页面中获取最佳图像，然后根据质量（大小、链接文本、每个图像的名称） , 在文档中的位置及其来源页面的质量。

　　简而言之，我的问题是双重的：是否有任何现有的开源框架（最好用 Java 实现）可以帮助我完成我的任务，还有比我提出的更好的方法吗？谢谢！

　　如何从最核心的项目中选择图片？由于 k 均值围绕质心进行分区，因此您可以将最接近质心的实例视为数据中的最佳代表。（如果你在聚类中使用它，你会得到 k-medoids）。

　　由于k-means可能会严重退化，你可能需要检查簇元素是否比两个簇中心之间的距离更接近簇中心。如果聚类中心之间的距离比您的数据更近，则您的 k 均值结果已经降级。

0

2022-01-04

java从网页抓取数据

0 个评论

要回复文章请先登录或注册

AI时代内容工厂

java从网页抓取数据(我编写了一些Java代码，使用Crawler4J来抓取一堆网页)

0 个评论

发起人

AI时代内容工厂

java从网页抓取数据(我编写了一些Java代码，使用Crawler4J来抓取一堆网页)

0 个评论

发起人

相关问题