根据标签来推荐相关文章的代码,你了解多少?

优采云 发布时间: 2021-06-04 22:33

  根据标签来推荐相关文章的代码,你了解多少?

  我也看到很多博客推荐基于标签的相关文章代码。这个方法应该比较好,但是问题是很多博主在标签的选择上很不专业。标签的选择非常不专业。往往是随机的,即使两个文章都收录“百度”标签,也许一个文章谈论百度搜索规则的变化,而另一个谈论百度年收入,两个文章根本不明显的相关性。

  1.期待谷歌更强大的推荐挂件

  对此,虽然我们对百度寄予厚望,但其实我更相信谷歌的技术。原理很简单:

  通过不同用户的不同搜索词输入不同的文章,这些搜索词与其他用户具有相似的含义。

  有点难理解,我们只能举例说明:有A、B、C三个用户,有a、b、c三篇文章文章。当A搜索“w”点击输入a文章,B搜索“m”点击输入b文章,C搜索“p”输入c文章时,Google找到的意思是三个词组 w、m、p 非常相似,所以判断三个文章 文章 a、b、c 是相关的文章,所以在这三个下返回相关的文章 的列表文章(使用javascript调用)。

  利用历史记录确定一些文章相关的。很多用户点击进入某个文章后,又进入了另一个文章,说明文章相关度高。

  如果非要靠谷歌搜索关键词,那就太蠢了。使用谷歌统计代码,从历史浏览记录中进行深度判断。当A输入a文章时,他在下面找到了一个随机推荐列表。如果他发现他需要或感兴趣的文章b,他就会点击进去。这些行为都记录在谷歌的大数据中。从a输入b并被无数人练习后,甚至可以统计b出现在a页面的哪个位置更容易被点击,以及第一次输入时是否不愿意点击b文章时间,谷歌完全有能力通过这种分析,当B和C第一次输入a文章时,b文章的链接会出现在他们应该出现的地方,非常合理。但实际上,如果无数用户从a进入,最后到c这个文章,那为什么不直接把c文章链接放在a页面上呢?这有点大数据。

  2.统计与聚类:数据库爬虫

  人工智能希望计算机具有理解能力,但实际上,我们只能更多地通过统计和聚类来判断相关性和可能性。 100人在买尿布的同时也买了啤酒。这不代表什么,但有 1 万亿人这样做了吗?

  通过设计爬虫程序,从数据库中的文章表中抓取,对文章标题、内容、摘要、关键词、标签等进行分词统计。最原创的解决方案是最长匹配词越多,文章的相关性越强。

  爬虫要做的就是匹配词组,所以开头应该有字典。但是字典需要手动构建,稍微麻烦一些。解决方法也很简单。用一个典型的文章作为原创案例,让爬虫爬行,反复爬行,通过分词构建原创词典。用这本原创词典爬取其他文章,遇到生词添加到词典中。这个方法可以保证新词只会出现在文章后面会被爬取。在爬取的过程中,一方面可以发现新词加入词典,另一方面可以统计词频,按词组长度降序排列,最长的词能够被找到的。通过文章最长词的比较,确定文章的相关性。

  但是这种方法必须面临两个问题,一是效率,二是干扰。搜索引擎的核心问题之一是效率,主要体现在两个方面,一个是抓取,一个是检索。对应推荐系统,一方面是如何判断文章的相关性(爬取的效率),另一方面是如何更快地根据爬取的结果返回相关的文章列表(服用效率)。干扰问题是指某些文章的词频不能反映问题的核心主题。例如,一个收录 100 行代码的 文章 可能只有 20-30 行介绍性文字。在这种情况下,很难防止统计。结果与文章的核心主题不一致(文章的其他统计也比较准确)。

  为了提高效率,您可以鼓励您的读者为您提供字典。比如看完文章,你让他输入他认为可以概括这篇文章的关键词,让爬虫更加确定他是否是某些词应该省略,某些词应该强调。

  3. 最可行:标签、搜索和浏览历史

  上面提到的两种方案离我们很远,普通程序员很难在他们的网站中实现。回到现实,我们希望有一个可以在网站中实现的解决方案(即使相关性结果可能会稍微弱一些)。

  tag 是最合理的解决方案。使用超过 3 个标签标记不同的 文章。因为标签是手工编写的,所以最好有自己的标签列表,防止同一个意思写到不同的标签中,比如“bicycle”和“bicycle”。自行车”。统一标签,让所有相似的意思都归为一个词。下次你打算贴标签的时候,你只会用这个词。3个以上的标签基本上可以反映文章要说的内容。使用程序选择相关文章时,尽量匹配所有标签,如果两个文章标签超过3个,应该是相同的主题内容。我见过只要有标签同一个标签,推荐,我觉得这个方法不好。文章开头已经举过例子了。

  但是标注的方法毕竟是手工的,思考和整理的过程很累。

  一个网站比标签更相关,应该是网站上的搜索结果。我的意思是那些具有稍微强大的搜索模块的站点,它们仅使用 LIKE 来匹配数据库。我个人认为搜索结果的参考价值比较低,尤其是只用一个搜索词的时候。不过网站的大部分搜索模块还是比较差的。因此,我的建议是规定用户必须使用两个以上的词进行搜索,以保证搜索结果相对准确。

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线