关键词自动采集(网络爬虫采集的项目概述及项目介绍-乐题库)

优采云 发布时间: 2021-11-23 19:16

  关键词自动采集(网络爬虫采集的项目概述及项目介绍-乐题库)

  一、项目概览

  通过设置关键词,网络爬虫采集来自各个门户网站、博客、微博、论坛、贴吧、评论

  新闻标题、内容、时间、作者、网址以及其他新闻媒体的回复率、点击率、转发率

  等待; 用户点击跳转回目标网站的相关页面。可以关注网站、博客、微博、论坛、贴吧等。

  某类信息源搜索某一个关键词或几个关键词。根据需要插入搜索结果

  进入数据库。

  二、性能指标

  4小时内可检索处理千万条搜索结果。并发任务数大于10。

  确保搜索数据的全面性、准确性和及时性。

  1. 全面性:指网络信息的获取要尽量全面,不能错过有价值的信息。需要监督

  受控站点主要分布在主流媒体、门户网站网站、信息平台、知名论坛、微博、博客、帖子

  等待网络运营商。

  2. 准确度:指已经获得的各种网络信息,需要进一步筛选的信息,最集中的

  点,最常用、最需要、最关注的舆情信息进行分类展示,方便下一步

  做。

  及时性:指舆情信息的第一时间获取、分析、展示。

  三、接收方的必要条件

  1. 有相关项目经验(重要),熟悉常见的网络爬虫和搜索、页面信息提取等技术。

  对产品设计有深刻的理解。

  2. 开发测试周期:15天。周期结束后,需要提交经过测试的软件。要求承包商时间

  比较灵活,容易沟通。

  3. 最好有成功案例,可以试试。

  4. 使用的编程语言应为当前成熟、高效、常用的语言,软件代码应简洁、高效、带注释

  它详细而准确。可以在windows xp以上的系统平台上稳定运行,兼容性好。

  5. 交付的软件不得收录致命漏洞、后门、恶意代码等。

  6. 提供一套完整的源代码。

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线