python网页数据抓取（一）-基于selenium进行网页抓取

优采云发布时间: 2022-06-13 14:00

　　python网页数据抓取（一）-基于selenium进行网页抓取-知乎专栏我记得在知乎上已经看到有人分享过

　　关键词是“爬虫”，可以自己百度看看。另外建议前面的答案忽略。

　　问题已经说了是“正则”和“模糊匹配”

　　自己百度

　　买本书吧,我看过淘宝上有卖的.网上的有的不一定适合你,作者教的比较全面,我觉得优秀的可以看看网上一些大牛的博客.能搜索到就尽量用搜索引擎搜索吧.我觉得最近我们医院生信论坛搞出来那个爬虫.也不错,可以关注一下

　　上学的时候自己设计过一套网页爬虫，最简单的，找到你要爬取的网页，以公司页面为例，里面有公司各种文件，电子文档的获取方式和直接访问该页面获取非常相似，仅仅是一些交互操作就能定位到访问url。但是那套小爬虫爬取速度非常慢，最后只是爬到了公司内部一些excel文档（公司商业机密）。关键的问题在于关键词太多，爬虫需要长期的维护升级维护的问题。

　　很难在速度和稳定性之间权衡。如果你是在校学生的话，建议先拿一些现成的爬虫模板，然后自己练手，可以参考知乎上，一些开源项目，然后去外面接一些小单子练练手，提升动手能力和语言应用能力。如果是想在医院里自己做一套网页爬虫，技术上没有难度，药厂类的比较多，结合自己的研究方向，应该不难，毕竟你做爬虫和机器学习不是一个东西，光学术硕士应该够用了。网上有一些医院的leader开的讲座，有认识的可以问问看。

0

2022-06-13

python网页数据抓取

0 个评论

要回复文章请先登录或注册

AI时代内容工厂

python网页数据抓取（一）-基于selenium进行网页抓取

0 个评论

发起人