关键词采集工具(百度下拉框关键词都是这些东西,没啥特别的吧!)

优采云 发布时间: 2021-09-06 20:09

  关键词采集工具(百度下拉框关键词都是这些东西,没啥特别的吧!)

  对于词研究,每个seoer都必须知道,而且除了比较流行的百度相关搜索词*敏*感*词*,但大多数人都针对下拉框词量,毕竟百度下拉框关键词采集已经被淹没了。

  百度下拉菜单的正式名称是百度建议词,也称为百度建议词或百度下拉菜单。百度为方便广大网友搜索,提高输入效率而推出的一项服务。

  例如,当我们在百度中输入“营销”两个词时,百度从推荐词条库中检索以“营销”两个词开头的词条,并按照搜索量从大到小排序,分组为一个下拉菜单。百度下拉菜单最多10个。

  百度下拉框关键词的含义:

  可以作为长尾词,作为标题,毕竟是关键词search 用户搜索时可以触发的选择。

  很多人使用下拉词来引导流量,比如曝光品牌,导向指定页面。您可以采集分析竞争对手的相关操作,也可以自己曝光自己的品牌。不同的人有不同的看法!

  网上留下了很多采集下拉词的工具和源码。到这里,人渣渣滓已经梳理完毕。我们再分享一下。我哥昨晚问过,但实际上是来来去去的。就是这些,没什么特别的!

  版本一:

  直接抓取网页实现采集下拉词

  

  def get_keywords(word):

    url=f"https://www.baidu.com/sugrec?pre=1&ie=utf-8&json=1&prod=pc&wd={word}"

    html=requests.get(url)

    html=html.json()

    #print(html)

    #print(html['g'])

    key_words=[]

    for key_word in html['g']:

        print(key_word['q'])

        key_words.append(key_word['q'])

    #print(key_words)

    return key_words

  版本二:

  使用官方界面

  例如:

  https://sp0.baidu.com/5a1Fazu8AA54nxGko9WTAnF6hhy/su?wd=seo&sugmode=2&json=1&p=3&sid=1427_21091_21673_22581&req=2

  

  def get_sug(word):

    url = 'https://sp0.baidu.com/5a1Fazu8AA54nxGko9WTAnF6hhy/su?wd=%s&sugmode=2&json=1&p=3&sid=1427_21091_21673_22581&req=2&pbs=%%E5%%BF%%AB%%E6%%89%%8B&csor=2&pwd=%%E5%%BF%%AB%%E6%%89%%8B&cb=jQuery11020924966752020363_1498055470768&_=1498055470781' % word

    r = requests.get(url, verify=False)  # 请求API接口,取消了HTTPS验证

    cont = r.content  # 获取返回的内容

    res = cont[41: -2].decode('gbk')  # 只取返回结果中json格式一段,并且解码为unicode

    res_json = json.loads(res)  # json格式转换

    return res_json['s']  # 返回关键词列表

  版本三:

  另一个接口地址

  

  def get_word(word):

    url=f'http://suggestion.baidu.com/su?wd={word}&sugmode=3&json=1'

    html=requests.get(url).text

    html=html.replace("window.baidu.sug(",'')

    html = html.replace(")", '')

    html = html.replace(";", '')

    #print(html)

    html = json.loads(html)

    key_words=html['s']

    #print(key_words)

    return key_words

  本质上第二个和第三个性质是一样的,我们参考使用吧!

  扩展版:

  这里有一个小技巧。在关键词后输入w,拼音中会出现一系列以w开头的关键词,如“黄山w”,还会出现“黄山温泉”,“黄山几天”。 ”、“黄山五绝”等关键词(见上图),所以当我们遍历a~z时,会出现更多的关键词。

  def get_more_word(word):

more_word=[]

for i in 'abcdefghijklmnopqrstuvwxyz':

more_word.extend(get_keywords('%s%s'%(word,i)))

print(more_word)

print(len(more_word))

print(len(list(set(more_word))))

return list(set(more_word)) #去重操作

def get_more_sug(word):

all_words = []

for i in 'abcdefghijklmnopqrstuvwxyz':

all_words += get_sug(word+i) # 遍历字母表 | 利用了上一个函数

print(len(list(set(all_words))))

return list(set(all_words)) # 去

  此处选择第2版的界面形式,以免不协调

  但是如果使用requests模块请求一个无效证书的网站,会直接报错

  可以将verify参数设置为False来解决这个问题

  r = requests.get(url, verify=False)

  但是设置 verify=False 会抛出 InsecureRequestWarning 警告

  这看起来很糟糕

  

  解决方案:

  from requests.packages.urllib3.exceptions import InsecureRequestWarning

# 禁用安全请求警告

requests.packages.urllib3.disable_warnings(InsecureRequestWarning)

  运行效果

  

  

  

  欣赏

  

  微信欣赏

  

  支付宝鉴赏

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线