阿里巴巴的“天天网址大全”如何获取网页链接源码？

优采云发布时间: 2021-03-29 02:02

　　文章采集调用的是python爬虫，你可以用好网站:数据采集。可以爬一些大型的爬虫系统，例如（google）还有一些新闻类爬虫。包括阿里巴巴的“天天网址大全”都需要爬，爬取的主要流程是获取网址。有了网址后，就可以获取分析网页中的所有数据，大致有：页面网址抓取页面分析以下内容可以参考：如何获取网页链接源码。

　　有flask框架，要是对网页开发不太了解就不建议使用flask了，还是直接用python官方自带的selenium比较好。

　　python应该好办，flask好像可以获取页面的ajax，selenium你可以用bs4或者正则表达式。

　　本人python2，因为自己的开发环境是shell操作，然后昨天碰到了无法抓取statusquote的问题，不知道题主是不是遇到了。针对flask，最好是尽量python2的路径就读python1的文件，或者使用babel编译js文件，尝试了newapi，后来python3和flask在同一个目录里安装，python3在文件里给我提示的是以python2命名的模块，然后，python3在同一目录里给我同名的名字，就是要找的flask模块和最终结果。

　　但是如果我把最终结果存到flask的目录里，同一目录下放两个不同的文件是完全没有问题的，所以建议还是尽量以python2里的路径名去命名文件名，python2在同一目录下放两个模块同名就没有问题了。

0

2021-03-29

文章采集调用

0 个评论

要回复文章请先登录或注册

AI时代内容工厂

阿里巴巴的“天天网址大全”如何获取网页链接源码？

0 个评论

发起人