网站程序自带的采集器采集文章(怎么判断自己的网站是否可以通过fiddler数据数据呢？)

优采云发布时间: 2022-03-08 21:06

　　网站程序自带的采集器采集文章一样需要授权，那怎么判断自己的网站是否可以通过fiddler抓取数据呢，需要准备一个开发者账号、fiddler工具、以及vpn就可以完成。登录自己的开发者账号（右上角）选择安全登录（点击这里）开始设置，管理员开始用你的账号给你下命令：fiddler-install#插件安装-install=com.tencent.foxmail.loginas#加入到fiddler目录server:"foxmail.asp"account:""#注册邮箱，需要nginx支持api。

　　建议不要用fiddler抓取数据，这个网站是在他们网站上爬下来的。用fiddler只能抓取base64编码的文章数据，数据包经过转码，base64编码后本身是不可读的。你手动抓取base64编码的文章，数据包可读，一旦被别人用某种方法破解编码格式，数据包就可以读取了。如果是抓取图片，或者别人的源代码，或者二进制文件，等等，建议你用fiddlergen比fiddler抓取功能更强大。

　　从spider的角度来讲，title其实不是很重要，一般传统抓取的时候基本都是采用类似pythonscrapy这种做网站抓取，而目前爬虫比较流行的就是scrapy+celery配合使用，scrapy+celery是构建web爬虫的两大框架，任何一种都可以满足普通爬虫，大家还可以根据需要来选择相应的框架。

　　值得一提的是无论采用哪种爬虫框架，任何一个爬虫都需要一个redis，以scrapy为例，如果用scrapy，则需要传入下面数据库，除此之外，还有一个redis，用来做负载均衡，从而提高爬虫的执行效率。链接地址：基础web爬虫配置上图是配置好的架构图，非常简单。同时还有对应的爬虫类型，如果不懂的可以查看web爬虫相关的资料。

　　而time.sys.datetime是scrapy实例的事件时间戳，用于定义爬虫的运行过程，一般用于非特殊的网站爬取，比如1分钟，2分钟等。

0

2022-03-08

网站程序自带的采集器采集文章

0 个评论

要回复文章请先登录或注册

AI时代内容工厂

网站程序自带的采集器采集文章(怎么判断自己的网站是否可以通过fiddler数据数据呢？)

0 个评论

发起人

AI时代内容工厂

网站程序自带的采集器采集文章(怎么判断自己的网站是否可以通过fiddler数据数据呢？)

0 个评论

发起人

相关问题