什么是超级强大的网站文章采集器,蜘蛛爬虫类程序
优采云 发布时间: 2021-02-02 17:03什么是超级强大的网站文章采集器,蜘蛛爬虫类程序
超级强大的网站文章采集器,此软件的全名是Hongye 文章采集器,英文名称是Fast_Spider,属于蜘蛛采集器程序,用于指定网站采集大量精华文章,将直接丢弃其中的垃圾邮件网页信息,仅保存阅读价值和浏览价值的本质文章,并自动执行HTM-TXT转换。
相关软件的软件大小和版本说明下载链接
超级强大的网站文章采集器,此软件的全名是Hongye 文章采集器,英文名称是Fast_Spider,属于蜘蛛采集器程序,用于指定网站采集大量精华文章,将直接丢弃其中的垃圾邮件网页信息,仅保存阅读价值和浏览价值的本质文章,并自动执行HTM-TXT转换。该软件是绿色软件,可在解压后使用!
软件功能
(1)该软件采用北京大学天网的MD5指纹重新排列算法。对于相似和相同的网页信息,将不会重复保存。
(2)采集信息含义:[[HT]]表示网页标题,[[HA]]表示文章标题,[[HC]]表示10个加权关键字,[[UR]]表示链接到网页上的图片以及[[TXT]]之后的文字。
(3)Spider性能:该软件打开300个线程以确保采集的效率。压力测试是通过采集 100万个要素文章进行的,普通网民使用的联网计算机用作参考标准,单个计算机可以在一天之内遍历200万个网页,采集 200,000个要素文章,在短短5天内遍历100万个要素文章。