教程:用Python把附近的足浴店都给采集了一遍，好兄弟：针不戳~

优采云发布时间: 2022-11-16 16:44

　　前言

　　大家好~我是爱看美女的娘娘腔

　　又到了学习Python的时候了~

　　我又来了！今天很开心，你一定会喜欢的~

　　我们工作累了，应该好好犒劳一下自己吧？

　　于是在采集附近买了一家jio店，沐浴帝王，赶鸭子~

　　事不宜迟，出发吧！兄弟们，都是有规律有规律的！

　　使用环境

　　使用的知识点大部分是基础知识点，还有一些巴冲基础的知识点。

　　要使用的模块

　　win+R，输入cmd，输入安装命令pip install module name（如果觉得安装速度慢，可以切换国内镜像源）

　　基本思路。

　　数据来源分析

　　不管是什么采集，首先要找到数据的来源。只有有了来源，才能进行下一步。

　　您确定我们希望采集在数据中获取什么吗？

　　存储基本数据信息

　　通过开发者工具抓包分析分析数据从哪里获取？

　　从第一页数据开始分析

　　代码流程步骤

　　有了source target之后，请求获取数据，解析数据，最后创建一个文件夹，保存到一个Excel表格中。

　　当然，如果你想采集更多，就必须要实现自动翻页

　　代码显示

　　正式足浴没有限制，但你可以随心所欲采集。

　　import requests

import pprint

import re

import csv

import time

f = open('按摩data.csv', mode='a', encoding='utf-8', newline='')

csv_writer = csv.DictWriter(f, fieldnames=[

'店铺名称',

'人均消费',

'店铺评分',

<p>

'评论人数',

'所在商圈',

'店铺类型',

'店铺地址',

'*敏*感*词*',

'营业时间',

'详情页',

])

csv_writer.writeheader()

def get_shop_info(html_url):

headers = {

'Cookie': '',

'Host': '',

'Referer': '',

'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/95.0.4638.54 Safari/537.36',

}

response = requests.get(url=html_url, headers=headers)

# print(response.text)

phone = re.findall('"phone":"(.*?)"', response.text)[0]

openTime = re.findall('"openTime":"(.*?)"', response.text)[0].replace('\n', '')

address = re.findall('"address":"(.*?)"', response.text)[0]

shop_info = [address, phone, openTime]

# print(shop_info)

return shop_info

for page in range(0, 1537, 32):

time.sleep(2)

url = ''

data = {

'uuid': '05f4abe326934bf19027.1634911815.1.0.0',

'userid': '266252179',

'limit': '32',

'offset': page,

'cateId': '-1',

'q': '按摩',

'token': 'knaBbvVTfN50cupoV5b87GJMXzkAAAAAAw8AAELrweWvhGhrM0fw6oTkLe5c6DGXJ6PCtxfyHgUPl3k-SVVR-Vs0LjzrGfewJhX8-g'

}

headers = {

'Referer': '',

'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/91.0.4472.124 Safari/537.36'

}

response = requests.get(url=url, params=data, headers=headers)

result = response.json()['data']['searchResult']

for index in result:

shop_id = index['id']

index_url = f'https://www..com/meishi/{shop_id}/'

shop_info = get_shop_info(index_url)

dit = {

'店铺名称': index['title'],

'人均消费': index['avgprice'],

'店铺评分': index['avgscore'],

'评论人数': index['comments'],

'所在商圈': index['areaname'],

'店铺类型': index['backCateName'],

'店铺地址': shop_info[0],

'*敏*感*词*': shop_info[1],

'营业时间': shop_info[2],

'详情页': index_url,

}

csv_writer.writerow(dit)

print(dit)

</p>

　　因为代码里有链接，我没给，所以删掉了一部分代表网址，大家可以自己添加

　　更多精彩秘笈和教程在下方，点击了解吧~

　　在学习Python的过程中，小伙伴们有时会不知如何学习，从何入手。

　　嗯，为了这些大佬们，我准备了很多免费的视频教程，上百本PDF电子书，还有各种案例源码！

　　点击蓝色字体可以获取源码和资料，我把它们放在这里了。

　　宁外给大家推荐一个不错的教程：

　　【48小时完成全套教程！你离boss只差一步【python教程】

　　结语

　　解决方案:伪原创一键生成软件（伪原创工具哪个好用）

　　肯定有很多SEO在使用伪原创文件*敏*感*词*，我可以正确得出结论，一个了解SEO优化的SEOer绝对可以正确理解文章的作用，而那些看似不理解的人每天都在担心原创文章的事情。经常认为自己可以每天排名文章不断更新的SEO没有实际的排名和流量。最后，选择了一种非常极端的方法，即一键式伪原创工具。

　　小编这里说的不是伪原创文章没用，而是要正确使用伪原创工具，不是说文章可以通过一键生成伪原创工具来使用，这往往是无害的。使用新的云伪原创工具一键生成文章后，我们只能通过人工检查和处理来发挥真正的伪原创文章作用。

　　1.增加第一段的原创

　　：一般来说，使用新的云搜索伪原创工具，通过自己的想法生成一键文章文章的第一段，写出一段原创段落是比较好的方法，不仅可以增加文章的原创，还可以引导读者通过自己的语言继续阅读文章的正文。

　　2.内容检查：伪原创工具永远是工具，工具是

　　死了，人是活的，我们用伪原创工具一键生成文章一定要继续检查，因为工具没有我们人类的思维，不会灵活改造，灵活使用。有些句子在伪原创后会出现语言问题，阅读不流畅，这需要我们不断手动修改，为读者提供更好的阅读体验。

　　3、多篇文章合并：我们的伪原创文章可以合并多个文章，找到几个含义相似的文章，使用新的云搜索伪原创工具生成一键式文章可以合理替换文章段落，比如将A部分的1段替换为B部分的1段，形成C部分的文章。

0

2022-11-16

文章采集程序

0 个评论

要回复文章请先登录或注册

AI时代内容工厂

教程:用Python把附近的足浴店都给采集了一遍，好兄弟：针不戳~

0 个评论

发起人

AI时代内容工厂

教程:用Python把附近的足浴店都给采集了一遍，好兄弟：针不戳~

0 个评论

发起人

相关问题