java从网页抓取数据(我编写了一些Java代码,使用Crawler4J来抓取一堆网页)
优采云 发布时间: 2022-01-04 05:14java从网页抓取数据(我编写了一些Java代码,使用Crawler4J来抓取一堆网页)
我写了一些Java代码,用Crawler4J爬取了一堆网页,然后用K-Means按关键字聚类。我想从每个集群中选择最好的图像(其中“最佳”被松散地定义为“集群中主题的最佳代表”),我想知道是否有任何现有的框架可以做到这一点(因为这显然是一个问题。在我推出自己的新闻之前,很多人已经需要解决诸如显示聚合新闻等问题。
我正在抓取的大多数页面都是关于给定主题的标准新闻页面,因此页面的最佳图像通常是1) 最大的图像和 2) 紧跟在最大的文本块之后。上一张图片。如果我必须推出自己的实现,我的暂定计划是根据这些(和其他)启发式算法从集群中的每个页面中获取最佳图像,然后根据质量(大小、链接文本、每个图像的名称) , 在文档中的位置及其来源页面的质量。
简而言之,我的问题是双重的:是否有任何现有的开源框架(最好用 Java 实现)可以帮助我完成我的任务,还有比我提出的更好的方法吗?谢谢!
如何从最核心的项目中选择图片?由于 k 均值围绕质心进行分区,因此您可以将最接近质心的实例视为数据中的最佳代表。 (如果你在聚类中使用它,你会得到 k-medoids)。
由于k-means可能会严重退化,你可能需要检查簇元素是否比两个簇中心之间的距离更接近簇中心。如果聚类中心之间的距离比您的数据更近,则您的 k 均值结果已经降级。