找回密码
 立即注册

QQ登录

只需一步,快速开始

搜索
热搜: 活动 交友 discuz
查看: 128|回复: 9

「SEO工具」python百度下拉框关键词采集及源码解读

[复制链接]

300

主题

1034

回帖

1336

积分

金牌会员

积分
1336
发表于 2024-6-24 13:02:35 | 显示全部楼层 |阅读模式
对于词的研究,想必每个seoer都知道,而除了比较热门的百度相关搜索词之外,百度下拉框关键词应该也是不少人研究的范围,不过大部分人都是针对下拉框词的刷量,毕竟百度下拉框关键词采集已经泛滥成灾了。


百度下拉的官方正式叫法是百度推荐词(Baidu Suggest Word),民间又称之为百度联想词或百度下拉菜单。它是百度为了方便广大网民搜索,提高输入效率而推出的一项服务。


举例,当我们在百度输入“营销”这两个字的时候,百度就从推荐词条库中检索出以“营销”这两个字打头的词条,并根据搜索量从大到小排序,组建成下拉菜单。百度下拉菜单的最大数量为10条。


百度下拉框关键词的意义:

可以作为长尾词使用,作为标题使用,毕竟是用户搜索时候可以触发关键词搜索选择。

不少人将下拉词直接进行引流,比如曝光品牌,引导到指定的页面,你可以进行搜集分析竞争对手的相关操作,或者自己去曝光自己的品牌,见仁见智吧!


网络上留存有不少下拉词的采集工具和源码,这里再次分享一下吧!


版本一:

直接网页抓包实现下拉词的采集



  1. <font face="微软雅黑" size="3">def get_keywords(word):    url=f"百度网址/sugrec?pre=1&ie=utf-8&json=1&prod=pc&wd={word}"    html=requests.get(url)    html=html.json()    #print(html)    #print(html['g'])    key_words=[]    for key_word in html['g']:        print(key_word['q'])        key_words.append(key_word['q'])    #print(key_words)    return key_words</font>
复制代码

版本二:

使用官方接口

比如:

  1. <font face="微软雅黑" size="3">def get_sug(word):    url = '百度官方接口/su?wd=%s&sugmode=2&json=1&p=3&sid=1427_21091_21673_22581&req=2&pbs=%%E5%%BF%%AB%%E6%%89%%8B&csor=2&pwd=%%E5%%BF%%AB%%E6%%89%%8B&cb=jQuery11020924966752020363_1498055470768&_=1498055470781' % word    r = requests.get(url, verify=False)  # 请求API接口,取消了HTTPS验证    cont = r.content  # 获取返回的内容    res = cont[41: -2].decode('gbk')  # 只取返回结果中json格式一段,并且解码为unicode    res_json = json.loads(res)  # json格式转换    return res_json['s']  # 返回关键词列表</font>
复制代码

版本三:

另一个接口地址

  1. <font face="微软雅黑" size="3">def get_word(word):    url=f'百度另一个接口地址/su?wd={word}&sugmode=3&json=1'    html=requests.get(url).text    html=html.replace("window.baidu.sug(",'')    html = html.replace(")", '')    html = html.replace(";", '')    #print(html)    html = json.loads(html)    key_words=html['s']    #print(key_words)    return key_words</font>
复制代码


本质上二和三都是同一个性质,大家参照着看和用吧!


扩展版本:

这里有个小技巧,就是在关键词后面输入w,会出现跟拼音以w开头的一系列关键词,比如“黄山w”,会出现“黄山温泉”,”黄山玩几天“,“黄山五绝”等关键词(见上截图)。因此,当我们把a~z遍历一遍,会出现更多关键词。
  1. <font face="微软雅黑" size="3">def get_more_word(word):    more_word=[]    for i in 'abcdefghijklmnopqrstuvwxyz':        more_word.extend(get_keywords('%s%s'%(word,i)))    print(more_word)    print(len(more_word))    print(len(list(set(more_word))))    return list(set(more_word))  #去重操作def get_more_sug(word):    all_words = []    for i in 'abcdefghijklmnopqrstuvwxyz':        all_words += get_sug(word+i)  # 遍历字母表 | 利用了上一个函数    print(len(list(set(all_words))))    return list(set(all_words))  # 去重</font>
复制代码

这里选用版本二的接口形式,避免被和谐

但是使用requests模块请求一个证书无效的网站的话会直接报错

可以设置verify参数为False解决这个问题

r = requests.get(url, verify=False)
但是设置verify=False会抛出一个InsecureRequestWarning的警告

这样看起来很不好


解决方法:
  1. <font face="微软雅黑" size="3">from requests.packages.urllib3.exceptions import InsecureRequestWarning# 禁用安全请求警告requests.packages.urllib3.disable_warnings(InsecureRequestWarning)</font>
复制代码

运行效果









为了方便各位老哥使用和玩耍,本渣渣特意给各位老哥打包了一下low版exe工具,以便各位大佬哥使用!

exe工具获取

百度网盘


以下为exe下载信息,回复可获取!




以上代码仅供参考学习!

如果有用,麻烦给个好评,谢谢!!

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有账号?立即注册

x
回复

使用道具 举报

330

主题

1023

回帖

1355

积分

金牌会员

积分
1355
发表于 2024-6-24 13:02:52 | 显示全部楼层
好评,谢谢!!
回复

使用道具 举报

330

主题

1023

回帖

1355

积分

金牌会员

积分
1355
发表于 2024-6-24 13:03:48 | 显示全部楼层
66666,值得学习
回复

使用道具 举报

314

主题

1068

回帖

1384

积分

金牌会员

积分
1384
发表于 2024-6-24 13:04:39 | 显示全部楼层
66666,值得学习
回复

使用道具 举报

328

主题

1044

回帖

1374

积分

金牌会员

积分
1374
发表于 2024-6-24 13:04:58 | 显示全部楼层
金币+1 贡献+5
回复

使用道具 举报

330

主题

1023

回帖

1355

积分

金牌会员

积分
1355
发表于 2024-6-24 13:05:12 | 显示全部楼层
膜拜大佬,值得学习
回复

使用道具 举报

314

主题

1068

回帖

1384

积分

金牌会员

积分
1384
发表于 2024-6-24 13:05:29 | 显示全部楼层
膜拜大佬,值得学习
回复

使用道具 举报

314

主题

1068

回帖

1384

积分

金牌会员

积分
1384
发表于 2024-6-24 13:06:08 | 显示全部楼层
链接呢   没有
回复

使用道具 举报

328

主题

1044

回帖

1374

积分

金牌会员

积分
1374
发表于 2024-6-24 13:06:42 | 显示全部楼层
666  大佬 牛批
回复

使用道具 举报

328

主题

1044

回帖

1374

积分

金牌会员

积分
1374
发表于 2024-6-24 13:07:15 | 显示全部楼层
这个就相当牛逼了!
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

快速回复 返回顶部 返回列表