php抓取网页动态数据(极大数据处理-〉用遗忘算法，对处理数据进行筛选)

优采云发布时间: 2021-12-25 08:17

　　这个项目是我从前端写到后端，自己分布式抓数据，所以项目不完善！它在语义分析和数据处理方面并不令人满意。但是大大减少了编辑的工作量！

　　二.项目使用的技术

　　本项目前端使用bootstrap网格系统布局，后端服务端语言使用PHP，数据采集使用Python完成（scrapy/requests/BeautifulSoup/threading/selenium/jieba）

　　三.项目描述

　　1.获取对应的关键词 -> 从百度中找出对应的问题；

　　2.获取对应问题->全站搜索，排名前10文章（过滤掉百度知道的文章文字，通过特征库过滤部分官网和话题页，等等。）

　　3. 获得的对应文本 -> 将获得的文章从头部和尾部去除。随意拼接！

　　4.数据处理->使用遗忘算法过滤处理后的数据，过滤品牌词！（目前还不完善，避免误删，会导致文字不舒服，目前只用红色标注，训练这个特征模型）

　　5.这个项目是基于多线程的！可以扩展成多进程（因为不考虑效率，而且本地电脑配置低，所以是单进程下的多线程！）

　　四.项目还需要改进

　　1. 文字语义不流畅，机器识别不能完全使用（仍需人工审核），特征库不完善。

　　2.过滤品牌词，还有一些特殊的品牌词无法过滤掉

　　3. 没有实现无监督学习，对自然语言分析（NLP）还很陌生！造成这些问题，无法解决！

　　五.这个项目需要准备

　　1.IP代理池来自（免费IP提供商）

　　2.下载github开源分词库（jieba）

　　3. Selenium爬虫是为了完全模拟浏览器行为，所以需要一个headless浏览器作为工具

　　六.项目截图：

　　七.结论：

　　该项目仍处于开发阶段。希望自然语言处理的大家能够在数据清洗方面有所帮助！感激！

　　公司项目，暂时不提供源代码...仅供讨论！

　　联系电子邮件：

0

2021-12-25

php抓取网页动态数据

0 个评论

要回复文章请先登录或注册