关键词自动采集(网络爬虫采集的项目概述及项目介绍-乐题库)
优采云 发布时间: 2021-11-23 19:16一、项目概览
通过设置关键词,网络爬虫采集来自各个门户网站、博客、微博、论坛、贴吧、评论
新闻标题、内容、时间、作者、网址以及其他新闻媒体的回复率、点击率、转发率
等待; 用户点击跳转回目标网站的相关页面。可以关注网站、博客、微博、论坛、贴吧等。
某类信息源搜索某一个关键词或几个关键词。根据需要插入搜索结果
进入数据库。
二、性能指标
4小时内可检索处理千万条搜索结果。并发任务数大于10。
确保搜索数据的全面性、准确性和及时性。
1. 全面性:指网络信息的获取要尽量全面,不能错过有价值的信息。需要监督
受控站点主要分布在主流媒体、门户网站网站、信息平台、知名论坛、微博、博客、帖子
等待网络运营商。
2. 准确度:指已经获得的各种网络信息,需要进一步筛选的信息,最集中的
点,最常用、最需要、最关注的舆情信息进行分类展示,方便下一步
做。
及时性:指舆情信息的第一时间获取、分析、展示。
三、接收方的必要条件
1. 有相关项目经验(重要),熟悉常见的网络爬虫和搜索、页面信息提取等技术。
对产品设计有深刻的理解。
2. 开发测试周期:15天。周期结束后,需要提交经过测试的软件。要求承包商时间
比较灵活,容易沟通。
3. 最好有成功案例,可以试试。
4. 使用的编程语言应为当前成熟、高效、常用的语言,软件代码应简洁、高效、带注释
它详细而准确。可以在windows xp以上的系统平台上稳定运行,兼容性好。
5. 交付的软件不得收录致命漏洞、后门、恶意代码等。
6. 提供一套完整的源代码。