清华雷教授：自动采集文章网站后台有默认的重定向规则

优采云发布时间: 2022-04-29 14:00

　　自动采集文章网站后台有默认的重定向规则。百度统计里面，文章重定向的详细列表，应该是相当丰富。

　　第一，你做不到，有的是默认的，但是首页自动抓取的不算，第二，如果是对首页的抓取，或者对其他网站的抓取，那就是所谓的爬虫了，

　　我几个月前做过爬虫，对着ip每天抓取网站上的文章分享！后来，又想到文章列表一定要有url，于是我把不同网站的文章列表一一对应到百度索引里！我做了5天把完毕。后来的几天，我的路径在cors中不断尝试，不过，最终还是失败了！现在的网页，对于几十g的文件几乎是无动于衷的。如果你是外国网站，百度可能存有token(比如https协议)。

　　存用户给网站发送的access_token，并没有加密。在抓取iframe的时候，他们只对access_token做验证，并没有加密数据。

　　同意秋子说的，手动采集的话，可以用浏览器插件或者代理服务。

　　请提供被采集网页所在网站及ip地址，否则采集无从下手。

　　现在，除了程序模拟用户操作，清华的雷教授的p2p是很好的方法。

　　百度抓取分两种，一种是有默认的抓取规则，另一种是非默认的。要抓取别人网站的文章的话，要考虑你已知的条件。比如别人网站上的文章标题、关键词，如果用代理的话，你能找到别人网站的ip吗？其次，你要分析各种网站上的文章，可以利用爬虫工具，也可以手动采集。通过上面的分析，抓取每个网站上的文章的大致方向，然后分别抓取试试看。

0

2022-04-29

自动采集文章网站

0 个评论

要回复文章请先登录或注册

AI时代内容工厂

清华雷教授：自动采集文章网站后台有默认的重定向规则

0 个评论

发起人

AI时代内容工厂

清华雷教授：自动采集文章网站后台有默认的重定向规则

0 个评论

发起人

相关问题