以百度为例，思路如下，数据库默认UTF-8编码

优采云发布时间: 2021-07-07 02:03

　　以百度为例，思路如下：

　　1、搜主关键词，分析相关搜索链接，保存在URL数据库中，标记为未抓取。

　　2、读取数据库中标记为未抓取的URL，抓取后分析相关搜索，保存在URL数据库中，标记为未抓取。

　　3、Repeat 2 直到指定深度（一般流行的关键词6 层几乎都读取，一般关键词4 层就足够了，理论上无限层，但是需要抓取的数据量是分级的随着数字的增长，相关性越来越差，没有必要）。

　　4、手动处理长尾词。这里需要手动去掉一些不相关的关键词，保留合适的（目前搜索引擎的语义处理能力还很弱）。

　　至此，长尾关键词的处理基本完成，可以得到一个比较完整的长尾关键词列表。由于个人也需要研究关键词不同层级之间的关系，所以存储搜索结果的网页定义了父子关系，不同层级之间不过滤同一个关键词。这些对于查找长尾词不是很有用。 .

　　自动获取文件指定目标关键词的php实现见附件：spider_keywords

　　这是我自己的程序。它提供了一种实现方法。如果您打算使用它，则需要根据自己的使用环境进行修改。它需要 PHP 和 SQL 的知识。相关关键词分析提取等关键部分已经做的比较稳定，请放心使用。哪里：

　　mykeyword.dat 是一个用于存储关键词的文件，每行一个主关键词。

　　$depth为爬行深度，默认为5层，对于一般的关键词来说已经足够深了。

　　该程序挖掘数据并将其存储在我的 PostgreSQL 数据库中。数据库默认为UTF-8编码，可根据实际需要修改。数据表结构如下：

　　– 表：mykeywords

　　– 删除表 mykeywords;

　　创建表 mykeywords

　　(id 序列号非空，

　　父文本，

　　“内容”文本，

　　儿子的文字，

　　深度文本，

　　键名文本，

　　备注文字，

　　is_spidered 布尔值，

　　约束 mykeywords_pkey PRIMARY KEY (id)

　　)

　　WITH (OIDS=FALSE);

　　将表 mykeywords 所有者更改为 postgres;

0

2021-07-07

自动关键词采集

0 个评论

要回复文章请先登录或注册