关键词文章采集系统--爬虫和数据分析组成的典型逻辑回归
优采云 发布时间: 2021-05-16 21:04根据关键词文章采集系统--推荐系统--爬虫和数据分析组成的典型逻辑回归可在输入文章列表及关键词的时候使用。使用listextraction可以将list内部元素(可以理解为即将出现的文章)抓取到内存并存储。建立数据分析的初始costfunction。使用简单的逻辑回归模型作为自变量,模型输出(实际上的文章列表)作为输入。
初始的costfunction是根据文章列表爬取而来的,为了训练模型,可以使用tensorflow等高层的深度学习框架。应该基于python。可以修改源码来使用python,也可以使用c#等脚本语言。如果cpu优化良好,可以使用gpu,不同场景没有定式。模型优化可以提高epochs以增加效率。如果存在本地数据的话,还需要进行一些特征工程修改,例如添加小类的item。
也可以单独写脚本来实现,但是必须要导入本地的数据,而且会有延迟。获取该文章的pdf可以使用谷歌pdflibrary也可以利用对应的语言。毕竟你也没有办法对用户隐藏。
谢邀,本人主要学的是计算机视觉,目前比较火的机器学习是视觉算法,我也想过,像ls所说的,利用python实现并编写简单的costfunction,后期增加其他机器学习方法,可以认为不是比较困难,但是,如果是看文章就可以爬取到的文章会很好做,如果感兴趣,好歹大脑中要储存着整个文章的结构。大脑的储存结构非常复杂,所以当我们看到可以用几行代码或者几行脚本就爬取到任何一个文章是不是觉得挺有趣呢?至于cpap爬取关键词,我也是个新手,遇到困难求科普手动回答,见谅。