教程:用Python把附近的足浴店都给采集了一遍,好兄弟:针不戳~
优采云 发布时间: 2022-11-16 16:44教程:用Python把附近的足浴店都给采集了一遍,好兄弟:针不戳~
前言
大家好~我是爱看美女的娘娘腔
又到了学习Python的时候了~
我又来了!今天很开心,你一定会喜欢的~
我们工作累了,应该好好犒劳一下自己吧?
于是在采集附近买了一家jio店,沐浴帝王,赶鸭子~
事不宜迟,出发吧!兄弟们,都是有规律有规律的!
使用环境
使用的知识点大部分是基础知识点,还有一些巴冲基础的知识点。
要使用的模块
win+R,输入cmd,输入安装命令pip install module name(如果觉得安装速度慢,可以切换国内镜像源)
基本思路。
数据来源分析
不管是什么采集,首先要找到数据的来源。只有有了来源,才能进行下一步。
您确定我们希望 采集 在数据中获取什么吗?
存储基本数据信息
通过开发者工具抓包分析分析数据从哪里获取?
从第一页数据开始分析
代码流程步骤
有了source target之后,请求获取数据,解析数据,最后创建一个文件夹,保存到一个Excel表格中。
当然,如果你想采集更多,就必须要实现自动翻页
代码显示
正式足浴没有限制,但你可以随心所欲采集。
import requests
import pprint
import re
import csv
import time
f = open('按摩data.csv', mode='a', encoding='utf-8', newline='')
csv_writer = csv.DictWriter(f, fieldnames=[
'店铺名称',
'人均消费',
'店铺评分',
<p>
'评论人数',
'所在商圈',
'店铺类型',
'店铺地址',
'*敏*感*词*',
'营业时间',
'详情页',
])
csv_writer.writeheader()
def get_shop_info(html_url):
headers = {
'Cookie': '',
'Host': '',
'Referer': '',
'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/95.0.4638.54 Safari/537.36',
}
response = requests.get(url=html_url, headers=headers)
# print(response.text)
phone = re.findall('"phone":"(.*?)"', response.text)[0]
openTime = re.findall('"openTime":"(.*?)"', response.text)[0].replace('\\n', '')
address = re.findall('"address":"(.*?)"', response.text)[0]
shop_info = [address, phone, openTime]
# print(shop_info)
return shop_info
for page in range(0, 1537, 32):
time.sleep(2)
url = ''
data = {
'uuid': '05f4abe326934bf19027.1634911815.1.0.0',
'userid': '266252179',
'limit': '32',
'offset': page,
'cateId': '-1',
'q': '按摩',
'token': 'knaBbvVTfN50cupoV5b87GJMXzkAAAAAAw8AAELrweWvhGhrM0fw6oTkLe5c6DGXJ6PCtxfyHgUPl3k-SVVR-Vs0LjzrGfewJhX8-g'
}
headers = {
'Referer': '',
'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/91.0.4472.124 Safari/537.36'
}
response = requests.get(url=url, params=data, headers=headers)
result = response.json()['data']['searchResult']
for index in result:
shop_id = index['id']
index_url = f'https://www..com/meishi/{shop_id}/'
shop_info = get_shop_info(index_url)
dit = {
'店铺名称': index['title'],
'人均消费': index['avgprice'],
'店铺评分': index['avgscore'],
'评论人数': index['comments'],
'所在商圈': index['areaname'],
'店铺类型': index['backCateName'],
'店铺地址': shop_info[0],
'*敏*感*词*': shop_info[1],
'营业时间': shop_info[2],
'详情页': index_url,
}
csv_writer.writerow(dit)
print(dit)
</p>
因为代码里有链接,我没给,所以删掉了一部分代表网址,大家可以自己添加
更多精彩秘笈和教程在下方,点击了解吧~
在学习Python的过程中,小伙伴们有时会不知如何学习,从何入手。
嗯,为了这些大佬们,我准备了很多免费的视频教程,上百本PDF电子书,还有各种案例源码!
点击蓝色字体可以获取源码和资料,我把它们放在这里了。
宁外给大家推荐一个不错的教程:
【48小时完成全套教程!你离boss只差一步【python教程】
结语
解决方案:伪原创一键生成软件(伪原创工具哪个好用)
肯定有很多SEO在使用伪原创文件*敏*感*词*,我可以正确得出结论,一个了解SEO优化的SEOer绝对可以正确理解文章的作用,而那些看似不理解的人每天都在担心原创文章的事情。经常认为自己可以每天排名文章不断更新的SEO没有实际的排名和流量。最后,选择了一种非常极端的方法,即一键式伪原创工具。
小编这里说的不是伪原创文章没用,而是要正确使用伪原创工具,不是说文章可以通过一键生成伪原创工具来使用,这往往是无害的。使用新的云伪原创工具一键生成文章后,我们只能通过人工检查和处理来发挥真正的伪原创文章作用。
1.增加第一段的原创
:一般来说,使用新的云搜索伪原创工具,通过自己的想法生成一键文章文章的第一段,写出一段原创段落是比较好的方法,不仅可以增加文章的原创,还可以引导读者通过自己的语言继续阅读文章的正文。
2.内容检查:伪原创工具永远是工具,工具是
死了,人是活的,我们用伪原创工具一键生成文章一定要继续检查,因为工具没有我们人类的思维,不会灵活改造,灵活使用。有些句子在伪原创后会出现语言问题,阅读不流畅,这需要我们不断手动修改,为读者提供更好的阅读体验。
3、多篇文章合并:我们的伪原创文章可以合并多个文章,找到几个含义相似的文章,使用新的云搜索伪原创工具生成一键式文章可以合理替换文章段落,比如将A部分的1段替换为B部分的1段,形成C部分的文章。