python网页数据抓取(一)-基于selenium进行网页抓取
优采云 发布时间: 2022-06-13 14:00python网页数据抓取(一)-基于selenium进行网页抓取
python网页数据抓取(一)-基于selenium进行网页抓取-知乎专栏我记得在知乎上已经看到有人分享过
关键词是“爬虫”,可以自己百度看看。另外建议前面的答案忽略。
问题已经说了是“正则”和“模糊匹配”
自己百度
买本书吧,我看过淘宝上有卖的.网上的有的不一定适合你,作者教的比较全面,我觉得优秀的可以看看网上一些大牛的博客.能搜索到就尽量用搜索引擎搜索吧.我觉得最近我们医院生信论坛搞出来那个爬虫.也不错,可以关注一下
上学的时候自己设计过一套网页爬虫,最简单的,找到你要爬取的网页,以公司页面为例,里面有公司各种文件,电子文档的获取方式和直接访问该页面获取非常相似,仅仅是一些交互操作就能定位到访问url。但是那套小爬虫爬取速度非常慢,最后只是爬到了公司内部一些excel文档(公司商业机密)。关键的问题在于关键词太多,爬虫需要长期的维护升级维护的问题。
很难在速度和稳定性之间权衡。如果你是在校学生的话,建议先拿一些现成的爬虫模板,然后自己练手,可以参考知乎上,一些开源项目,然后去外面接一些小单子练练手,提升动手能力和语言应用能力。如果是想在医院里自己做一套网页爬虫,技术上没有难度,药厂类的比较多,结合自己的研究方向,应该不难,毕竟你做爬虫和机器学习不是一个东西,光学术硕士应该够用了。网上有一些医院的leader开的讲座,有认识的可以问问看。