python能完成，把需要的文件html,javascript,,content-extended

优采云发布时间: 2021-05-24 07:02

　　文章采集程序内会涉及到的flash会话与浏览器的浏览器同步（默认不同步），两个浏览器地址栏地址不同则抓取失败，一般可以采用多网站同步方式，再对数据进行同步。例如点击并且登录,调用下adobe的官方网站进行加载到浏览器解析等，加载即可解析到。python能完成，把需要的文件html,javascript,css,content-extended,text等包成一个包，发送到google，采用io对象处理。

　　应该提供io的通讯接口，例如客户端调用google的网页文件，服务端发送http请求，成功后获取数据。说白了。爬虫是要抓取页面。就是把网页抓取下来。这些页面结构被程序分析的话，会有语义分析的功能。可以帮助程序一目了然和提高解析速度。

　　我没有这方面的基础，

　　可以看看，把你要抓取的资源合理分割，分别为多个爬虫独立抓取。

　　我以前查到过，最新的google+如果你在被另一个用户登录过的电脑上登录过，那么google+会在那个电脑端生成一个信任记录，以备别人登录的时候让你的账号账户信息和密码暴露出去。可以根据被人访问的次数和访问时间，来估算哪个电脑可以登录你的账号，这样就很好了。

　　这个需要这些网站之间要有交互，或者多网站同步，不然没办法弄。

　　我也尝试过直接post，用点你的域名，数据请求校验包括你的ip，请求里的域名。数据爬取出来以后还是会再次返回给你。如果你仅仅只用api，那就是google+的api了。具体看你爬取什么了，是sns，

0

2021-05-24

文章采集程序

0 个评论

要回复文章请先登录或注册

AI时代内容工厂

python能完成，把需要的文件html,javascript,,content-extended

0 个评论

发起人

AI时代内容工厂

python能完成，把需要的文件html,javascript,,content-extended

0 个评论

发起人

相关问题