php 抓取网页(php抓取网页数据，django的比较多，怎么办？)

优采云发布时间: 2022-04-14 20:04

　　php 抓取网页(php抓取网页数据，django的比较多，怎么办？)

　　php抓取网页数据，django，flask，python的比较多，当然http协议也很关键，

　　手动来咯。或者用webdevelopmentsitescraping，抓他数据呀，当然，再加上爬虫就可以获取互联网上绝大部分信息，

　　毕竟这东西要配合xml转换、数据库迁移等等，

　　当一个互联网公司用到用什么工具来跟踪他们的数据？业务的流程图？经济的*敏*感*词*流？用抓包工具抓包？类似的工具多的是，用python就行。xml转换等工具用flask就行，php用uwsgi。把所有东西堆到一起，你还是要写c++,java等语言的，抓包工具用pil库你写不出来。

　　首先要明确你想要抓的是什么？上海哪的网页内容。ip是哪来的，来源国家，网站名称，公司名，注册时间，公司电话，公司地址，公司邮箱？如果要抓取到的网页只是内容，可以用webscraping，看一下各个浏览器抓取它不同页面的内容包含了什么信息，然后整合分析，这需要你对各浏览器javascript,css,html等技术是否清楚。

　　如果要抓取上海的网页内容，python可以直接用numpy、pandas、scikit-learn，再基于django或flask框架。

　　就是整合在一起么？不知道你是指爬虫和web数据库的整合还是爬虫和整个互联网的整合。爬虫和web数据库一般是配合的。好比我上海有两家网站一家是，另一家是京东，想在或京东抓取搜索引擎上的内容，那么你得先爬索到哪一个上，然后把哪个上需要的内容先抓出来放到你的爬虫下面。一般有这么一个过程：1.用户搜索“上的某个网站有xx页有xx个人xx个分享xx年xx人xxx”，然后得到内容，我用xml格式格式化了爬虫的网页文件2.然后再爬虫自己在前端用flask或者django来解析，从而得到搜索结果，然后转化成为数据3.最后导入到你的数据库中，然后给个restful的api。

0

2022-04-14

php 抓取网页

0 个评论

要回复文章请先登录或注册

AI时代内容工厂

php 抓取网页(php抓取网页数据，django的比较多，怎么办？)

0 个评论

发起人