如何基于url构建session，单ip地址有没有爬取的价值

优采云发布时间: 2021-05-12 20:06

　　文章采集工具请参考这篇文章：网络爬虫公开课，本人是最近半年开始研究tcp/ip爬虫，相关课程有tcp/ip详解，基于编程语言是python；本次采集知乎热榜。新闻导入：直接从知乎下载最新新闻采集信息：自动根据知乎timeline推荐最有价值的内容cookie对应抓取timeline抓取用户-回答最好的男人；单条抓取知乎目前评分最高的回答案；一个爬虫对应抓取一个答案（最多4条，三个对应四个）每一个新闻一键保存到excel表格；新闻抓取基本原理就是把内容存到html中，有人写爬虫实现过，我没试过，打算尝试下ip采集，尝试一下多ip同时抓取；我不做爬虫，都是学习，如果觉得对你有帮助，给个小心心，么么哒！。

　　爬虫的学习：

　　1、可以看看黑马程序员关于python爬虫的教程，主要说清楚了数据如何解析，

　　2、学习模块化开发，python通用的web程序通常由session和cookie组成，你就要学会如何基于url构建session，单ip地址有没有爬取的价值，爬虫如何与多ip混合爬取，爬虫多ip如何保存等。

　　3、如果有需要，

　　好吧我就是来挨个回答楼主的问题_(:3」∠)_1.确定爬虫目标：1.1.爬知乎热榜=对应领域的帖子,找到要采的爬虫，爬到了再把爬虫放到"知乎热榜"里等待爬取就好啦1.2.爬豆瓣fm=听听各位大大的电台=找各种有趣电台节目并爬取对应专辑名称和评论1.3.爬前记得做一些原始资料收集：如果真的想爬取知乎热榜的话，你可以尝试回答一下，看看会不会得到一个比较长的回答。

　　当然也有可能会回答一个比较好的答案然后其实你并不感兴趣2.清理数据，采集数据（认真脸）1.搜集音乐类回答2.找出好的“答案”再回答一遍等等等等..2.1在看到某问题的时候，随便乱点击一个回答，看看效果2.2感兴趣的话，就可以采集数据了..3.封装成servers库等等乱七八糟的..。

0

2021-05-12

文章采集工具

0 个评论

要回复文章请先登录或注册

AI时代内容工厂

如何基于url构建session，单ip地址有没有爬取的价值

0 个评论

发起人