解决方案:搜索引擎的“关键词”结构形式跟rd(relationaldocument)文件形式

优采云 发布时间: 2022-11-17 18:31

  解决方案:搜索引擎的“关键词”结构形式跟rd(relationaldocument)文件形式

  关键词采集数据有什么用?挖掘用户偏好及搜索行为、掌握关键词、寻找搜索转化的网站、挖掘有效的关键词等等搜索引擎将不同用户感兴趣的话题进行分类,放到各自的“专栏”或“文章”中,然后基于“专栏”或“文章”的分类采集内容。搜索引擎的“关键词”结构形式跟rd(relationaldocument)文件形式一样,我们采集的数据会根据不同“专栏”或“文章”的分类再分别以json、sax、rd的格式进行存储。

  

  针对不同的“专栏”或“文章”,我们将采集到的数据采集出来存储到各自的“表”中。比如采集u站或其他u站的u站的数据,而采集s站和部分s站内的采集数据等。小编整理了一下某公司在s站的采集数据库,共23条采集数据,索引中包含关键词id、关键词所属页面、发帖人id、内容来源等信息,最后得到1024页数据存储到数据库中。

  采集数据后续的处理也较为简单,通过php的正则表达式、sax或rd库进行后续的处理。“关键词采集”提供了多种“爬虫”处理算法,通过不同的“爬虫”算法我们可以采集到很多信息,但是小编认为并不是所有的数据都需要全部采集到。那么需要什么数据呢?小编认为,结合我们的实际工作的场景进行采集。小编的工作就是寻找一些大公司的各个岗位的招聘信息,我们可以从这些招聘信息中挖掘他们对各个岗位的要求,分析他们的需求。

  

  比如他们是否有对应的社保数据或者是否有对应的劳动合同信息、是否有“工资”这一个“特定信息”、福利待遇是否有共性或者个性特征等等。针对爬虫只能按照一个“索引”数据库进行爬取,但是又不想全部爬取,这个时候我们可以根据这些要求需要爬取一些岗位信息。经过研究,小编的岗位信息是这样来的:对应的数据库结构如下图:根据图中信息可以得到出来工作岗位大致有3种类型:1.纯json;2.json+html;3.json+html结合html结合搜索词进行分析出工作量大点的可能会有3个文件,主要包括某个岗位的jd、岗位内容、岗位要求等。

  那么小编的岗位jd是怎么来的呢?这就需要自己设计对应的表格结构表格构成的模块有:1.、sol_job_search,计算岗位需求以及岗位在招聘信息中出现的次数。2.、category_job_search,计算这个岗位是否有岗位位置在招聘信息中出现的次数。3.、rd_search,根据岗位的信息查找该岗位对应的公司。

  针对工作量大点的岗位,我们就要从总的这些数据库中去找了,通过这几种关系挖掘方法:1.h5得到文本内容,用于图像识别。2.word2vec处理、大数据处理。3.用户痛点挖掘,针对“从未见过、没人做过。

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线