php抓取网页动态数据(极大数据处理-〉用遗忘算法,对处理数据进行筛选)

优采云 发布时间: 2021-12-25 08:17

  php抓取网页动态数据(极大数据处理-〉用遗忘算法,对处理数据进行筛选)

  这个项目是我从前端写到后端,自己分布式抓数据,所以项目不完善!它在语义分析和数据处理方面并不令人满意。但是大大减少了编辑的工作量!

  二.项目使用的技术

  本项目前端使用bootstrap网格系统布局,后端服务端语言使用PHP,数据采集使用Python完成(scrapy/requests/BeautifulSoup/threading/selenium/jieba)

  三.项目描述

  1.获取对应的关键词 -> 从百度中找出对应的问题;

  2.获取对应问题->全站搜索,排名前10文章(过滤掉百度知道的文章文字,通过特征库过滤部分官网和话题页, 等等。)

  3. 获得的对应文本 -> 将获得的文章 从头部和尾部去除。随意拼接!

  4.数据处理->使用遗忘算法过滤处理后的数据,过滤品牌词!(目前还不完善,避免误删,会导致文字不舒服,目前只用红色标注,训练这个特征模型)

  5.这个项目是基于多线程的!可以扩展成多进程(因为不考虑效率,而且本地电脑配置低,所以是单进程下的多线程!)

  四.项目还需要改进

  1. 文字语义不流畅,机器识别不能完全使用(仍需人工审核),特征库不完善。

  2.过滤品牌词,还有一些特殊的品牌词无法过滤掉

  3. 没有实现无监督学习,对自然语言分析(NLP)还很陌生!造成这些问题,无法解决!

  五.这个项目需要准备

  1.IP代理池来自(免费IP提供商)

  2.下载github开源分词库(jieba)

  3. Selenium爬虫是为了完全模拟浏览器行为,所以需要一个headless浏览器作为工具

  六.项目截图:

  七.结论:

  该项目仍处于开发阶段。希望自然语言处理的大家能够在数据清洗方面有所帮助!感激!

  公司项目,暂时不提供源代码...仅供讨论!

  联系电子邮件:

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线