干货教程:关键词文章采集工具文章列表列表采集
优采云 发布时间: 2022-10-09 16:11
关键词文章采集工具文章列表采集工具相关博客打开百度输入"关键词"然后搜索。如果搜索的不到可以看看有没有人提取过,或者到知乎搜索。文章列表采集工具这是我们最初用的一个工具,无需安装python,支持爬取50000+的网站。可以看下它的工作原理:要获取的网站生成一个cookie,用cookie请求爬取就可以了,请求参数为:网站ip[网站域名]要获取的网站生成cookie,请求这个网站时,会传入网站的cookie值。
我们用中间人攻击的方式来实现对应功能爬取网站列表列表采集工具fromseleniumimportwebdriver,executors,dict,mon.byimportbyfromselenium.webdriver.support.uiimportwebdriverwaitfromselenium.webdriver.support.ui.systemimportexecutors,dict,cookielibapp=webdriver.chrome()app.set_cookie('user-agent','mozilla/5.0(windowsnt10.0;win64;x64)applewebkit/537.36(khtml,likegecko)chrome/72.0.3624.85safari/537.36')app.set_cookie('hostname','127.0.0.1')@webdriver.execute('sessionid')defget_data():try:if(executors.makeduration(app.executable,))!=150:raisevalidationerror('爬取文章列表')try:get_data()except:if'http'inapp.page_levelor'page'inapp.page_level):raisevalidationerror('爬取不可用页面')app.reset_index()app.reset_urlopen()app.reset_robots_writer()app.save()try:session=webdriver.session()session.get(url=url)if'.'insession:breaksession.save()finally:returntrue}运行开始爬取大多数的网站,如果爬取失败,可以到我的博客里看看是哪个地方出了问题。请求返回结果和robots请求返回结果是一样的。