php抓取网页动态数据(极大数据处理-〉用遗忘算法,对处理数据进行筛选)
优采云 发布时间: 2021-12-25 08:17php抓取网页动态数据(极大数据处理-〉用遗忘算法,对处理数据进行筛选)
这个项目是我从前端写到后端,自己分布式抓数据,所以项目不完善!它在语义分析和数据处理方面并不令人满意。但是大大减少了编辑的工作量!
二.项目使用的技术
本项目前端使用bootstrap网格系统布局,后端服务端语言使用PHP,数据采集使用Python完成(scrapy/requests/BeautifulSoup/threading/selenium/jieba)
三.项目描述
1.获取对应的关键词 -> 从百度中找出对应的问题;
2.获取对应问题->全站搜索,排名前10文章(过滤掉百度知道的文章文字,通过特征库过滤部分官网和话题页, 等等。)
3. 获得的对应文本 -> 将获得的文章 从头部和尾部去除。随意拼接!
4.数据处理->使用遗忘算法过滤处理后的数据,过滤品牌词!(目前还不完善,避免误删,会导致文字不舒服,目前只用红色标注,训练这个特征模型)
5.这个项目是基于多线程的!可以扩展成多进程(因为不考虑效率,而且本地电脑配置低,所以是单进程下的多线程!)
四.项目还需要改进
1. 文字语义不流畅,机器识别不能完全使用(仍需人工审核),特征库不完善。
2.过滤品牌词,还有一些特殊的品牌词无法过滤掉
3. 没有实现无监督学习,对自然语言分析(NLP)还很陌生!造成这些问题,无法解决!
五.这个项目需要准备
1.IP代理池来自(免费IP提供商)
2.下载github开源分词库(jieba)
3. Selenium爬虫是为了完全模拟浏览器行为,所以需要一个headless浏览器作为工具
六.项目截图:
七.结论:
该项目仍处于开发阶段。希望自然语言处理的大家能够在数据清洗方面有所帮助!感激!
公司项目,暂时不提供源代码...仅供讨论!
联系电子邮件: