清华雷教授:自动采集文章网站后台有默认的重定向规则

优采云 发布时间: 2022-04-29 14:00

  清华雷教授:自动采集文章网站后台有默认的重定向规则

  自动采集文章网站后台有默认的重定向规则。百度统计里面,文章重定向的详细列表,应该是相当丰富。

  第一,你做不到,有的是默认的,但是首页自动抓取的不算,第二,如果是对首页的抓取,或者对其他网站的抓取,那就是所谓的爬虫了,

  我几个月前做过爬虫,对着ip每天抓取网站上的文章分享!后来,又想到文章列表一定要有url,于是我把不同网站的文章列表一一对应到百度索引里!我做了5天把完毕。后来的几天,我的路径在cors中不断尝试,不过,最终还是失败了!现在的网页,对于几十g的文件几乎是无动于衷的。如果你是外国网站,百度可能存有token(比如https协议)。

  存用户给网站发送的access_token,并没有加密。在抓取iframe的时候,他们只对access_token做验证,并没有加密数据。

  同意秋子说的,手动采集的话,可以用浏览器插件或者代理服务。

  请提供被采集网页所在网站及ip地址,否则采集无从下手。

  现在,除了程序模拟用户操作,清华的雷教授的p2p是很好的方法。

  百度抓取分两种,一种是有默认的抓取规则,另一种是非默认的。要抓取别人网站的文章的话,要考虑你已知的条件。比如别人网站上的文章标题、关键词,如果用代理的话,你能找到别人网站的ip吗?其次,你要分析各种网站上的文章,可以利用爬虫工具,也可以手动采集。通过上面的分析,抓取每个网站上的文章的大致方向,然后分别抓取试试看。

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线