教程:用Python把附近的足浴店都给采集了一遍,好兄弟:针不戳~

优采云 发布时间: 2022-11-16 16:44

  教程:用Python把附近的足浴店都给采集了一遍,好兄弟:针不戳~

  前言

  大家好~我是爱看美女的娘娘腔

  又到了学习Python的时候了~

  我又来了!今天很开心,你一定会喜欢的~

  我们工作累了,应该好好犒劳一下自己吧?

  于是在采集附近买了一家jio店,沐浴帝王,赶鸭子~

  事不宜迟,出发吧!兄弟们,都是有规律有规律的!

  使用环境

  使用的知识点大部分是基础知识点,还有一些巴冲基础的知识点。

  要使用的模块

  win+R,输入cmd,输入安装命令pip install module name(如果觉得安装速度慢,可以切换国内镜像源)

  基本思路。

  数据来源分析

  不管是什么采集,首先要找到数据的来源。只有有了来源,才能进行下一步。

  您确定我们希望 采集 在数据中获取什么吗?

  存储基本数据信息

  通过开发者工具抓包分析分析数据从哪里获取?

  从第一页数据开始分析

  代码流程步骤

  有了source target之后,请求获取数据,解析数据,最后创建一个文件夹,保存到一个Excel表格中。

  当然,如果你想采集更多,就必须要实现自动翻页

  代码显示

  正式足浴没有限制,但你可以随心所欲采集。

  import requests

import pprint

import re

import csv

import time

f = open('按摩data.csv', mode='a', encoding='utf-8', newline='')

csv_writer = csv.DictWriter(f, fieldnames=[

'店铺名称',

'人均消费',

'店铺评分',

<p>

&#39;评论人数&#39;,

&#39;所在商圈&#39;,

&#39;店铺类型&#39;,

&#39;店铺地址&#39;,

&#39;*敏*感*词*&#39;,

&#39;营业时间&#39;,

&#39;详情页&#39;,

])

csv_writer.writeheader()

def get_shop_info(html_url):

headers = {

&#39;Cookie&#39;: &#39;&#39;,

&#39;Host&#39;: &#39;&#39;,

&#39;Referer&#39;: &#39;&#39;,

&#39;User-Agent&#39;: &#39;Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/95.0.4638.54 Safari/537.36&#39;,

}

response = requests.get(url=html_url, headers=headers)

# print(response.text)

phone = re.findall(&#39;"phone":"(.*?)"&#39;, response.text)[0]

openTime = re.findall(&#39;"openTime":"(.*?)"&#39;, response.text)[0].replace(&#39;\\n&#39;, &#39;&#39;)

address = re.findall(&#39;"address":"(.*?)"&#39;, response.text)[0]

shop_info = [address, phone, openTime]

# print(shop_info)

return shop_info

for page in range(0, 1537, 32):

time.sleep(2)

url = &#39;&#39;

data = {

&#39;uuid&#39;: &#39;05f4abe326934bf19027.1634911815.1.0.0&#39;,

&#39;userid&#39;: &#39;266252179&#39;,

&#39;limit&#39;: &#39;32&#39;,

&#39;offset&#39;: page,

&#39;cateId&#39;: &#39;-1&#39;,

  

&#39;q&#39;: &#39;按摩&#39;,

&#39;token&#39;: &#39;knaBbvVTfN50cupoV5b87GJMXzkAAAAAAw8AAELrweWvhGhrM0fw6oTkLe5c6DGXJ6PCtxfyHgUPl3k-SVVR-Vs0LjzrGfewJhX8-g&#39;

}

headers = {

&#39;Referer&#39;: &#39;&#39;,

&#39;User-Agent&#39;: &#39;Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/91.0.4472.124 Safari/537.36&#39;

}

response = requests.get(url=url, params=data, headers=headers)

result = response.json()[&#39;data&#39;][&#39;searchResult&#39;]

for index in result:

shop_id = index[&#39;id&#39;]

index_url = f&#39;https://www..com/meishi/{shop_id}/&#39;

shop_info = get_shop_info(index_url)

dit = {

&#39;店铺名称&#39;: index[&#39;title&#39;],

&#39;人均消费&#39;: index[&#39;avgprice&#39;],

&#39;店铺评分&#39;: index[&#39;avgscore&#39;],

&#39;评论人数&#39;: index[&#39;comments&#39;],

&#39;所在商圈&#39;: index[&#39;areaname&#39;],

&#39;店铺类型&#39;: index[&#39;backCateName&#39;],

&#39;店铺地址&#39;: shop_info[0],

&#39;*敏*感*词*&#39;: shop_info[1],

&#39;营业时间&#39;: shop_info[2],

&#39;详情页&#39;: index_url,

}

csv_writer.writerow(dit)

print(dit)

</p>

  因为代码里有链接,我没给,所以删掉了一部分代表网址,大家可以自己添加

  更多精彩秘笈和教程在下方,点击了解吧~

  在学习Python的过程中,小伙伴们有时会不知如何学习,从何入手。

  嗯,为了这些大佬们,我准备了很多免费的视频教程,上百本PDF电子书,还有各种案例源码!

  点击蓝色字体可以获取源码和资料,我把它们放在这里了。

  宁外给大家推荐一个不错的教程:

  【48小时完成全套教程!你离boss只差一步【python教程】

  结语

  解决方案:伪原创一键生成软件(伪原创工具哪个好用)

  肯定有很多SEO在使用伪原创文件*敏*感*词*,我可以正确得出结论,一个了解SEO优化的SEOer绝对可以正确理解文章的作用,而那些看似不理解的人每天都在担心原创文章的事情。经常认为自己可以每天排名文章不断更新的SEO没有实际的排名和流量。最后,选择了一种非常极端的方法,即一键式伪原创工具。

  小编这里说的不是伪原创文章没用,而是要正确使用伪原创工具,不是说文章可以通过一键生成伪原创工具来使用,这往往是无害的。使用新的云伪原创工具一键生成文章后,我们只能通过人工检查和处理来发挥真正的伪原创文章作用。

  1.增加第一段的原创

  

  :一般来说,使用新的云搜索伪原创工具,通过自己的想法生成一键文章文章的第一段,写出一段原创段落是比较好的方法,不仅可以增加文章的原创,还可以引导读者通过自己的语言继续阅读文章的正文。

  2.内容检查:伪原创工具永远是工具,工具是

  死了,人是活的,我们用伪原创工具一键生成文章一定要继续检查,因为工具没有我们人类的思维,不会灵活改造,灵活使用。有些句子在伪原创后会出现语言问题,阅读不流畅,这需要我们不断手动修改,为读者提供更好的阅读体验。

  

  3、多篇文章合并:我们的伪原创文章可以合并多个文章,找到几个含义相似的文章,使用新的云搜索伪原创工具生成一键式文章可以合理替换文章段落,比如将A部分的1段替换为B部分的1段,形成C部分的文章。

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线