关键词自动采集(以百度为例,思路如下:读取数据库中标记为未抓取的网址)
优采云 发布时间: 2021-12-30 09:07关键词自动采集(以百度为例,思路如下:读取数据库中标记为未抓取的网址)
以百度为例,思路如下:
1、搜索大师关键词,分析相关搜索链接,保存在URL数据库中,标记为未抓取。
2、读取数据库中标记为未抓取的URL,抓取后分析相关搜索,保存在URL数据库中,标记为未抓取。
3、 重复2直到指定的深度(一般流行的关键词 6层和大约深度几乎都看了,一般关键词 4层就够了,理论上无限层,但是需要掌握的数据量是连续增加的,相关性越来越差,没必要)。
4、手动处理长尾词。这里需要手动去掉一些不相关的关键词,保留合适的(目前搜索引擎的语义处理能力还很弱)。
至此,长尾关键词的处理基本完成,可以得到一个比较完整的长尾关键词列表。由于个人还需要研究关键词的不同层级之间的关系,所以存储搜索结果的网页定义了父子关系,不同层级之间不会过滤相同的关键词。这些货币对寻找长尾。这些词不是很有用。
自动获取文件关键词指定目标的php实现见附件:spider_keywords
这是我自己的程序。它提供了一种实现方法。如果您打算使用它,则需要根据自己的使用环境进行修改。它需要 PHP 和 SQL 的知识。相关关键词分析提取等关键部分已经做的比较稳定,请放心使用。哪里:
mykeyword.dat 是一个用于存储关键词的文件,每行一个主关键词。
$depth为爬行深度,默认5层,对于一般关键词来说足够深了。
程序挖掘数据并将其存储在我的 PostgreSQL 数据库中。数据库默认为UTF-8编码,可根据实际需要修改。数据表结构如下:
– 表:mykeywords
– 删除表 mykeywords;
创建表 mykeywords
(id 序列号 NOT NULL,
父文本,
“内容”文本,
儿子的文字,
深度文字,
键名文本,
备注文字,
is_spidered 布尔值,
约束 mykeywords_pkey PRIMARY KEY (id)
)
WITH (OIDS=FALSE);
将表 mykeywords 所有者更改为 postgres;