搜索引擎进行信息检索的优化策略方法( 上图中的print()函数主要用来看生成的数据)
优采云 发布时间: 2021-09-01 11:06搜索引擎进行信息检索的优化策略方法(
上图中的print()函数主要用来看生成的数据)
上图中的print()函数主要用于查看生成的数据。注释掉就好了。根据操作生成相应的数据,根据数据生成分析折线图,如下图:
如果需要不断微调折线图的生成,而且每次生成数据的计算时间比较长,其实可以先保存生成的数据,再调整折线图的元素,直接使用结果数据即可,无需重新计算数据,可以节省大量时间。
我们将数据可视化后,密集的数据变得更加清晰。我们可以很容易直观的看出,凌晨4点左右用户搜索频率最少,下午16:00左右搜索频率最高,这也反映了网友的上网习惯。
如果我们是广告企业,我们可以针对这种情况,针对不同时间段的广告设定目标价格。而如果我们需要进行广告投放,我们也知道在哪个时间段投放,广告曝光率相对最高。
2.不同用户的检索情况
接下来我们分析一下不同用户的检索情况,看看哪些用户的检索量最大。
这个分析需要Python DataFrame中的count()操作,即:groupby(user ID).count()。之后,我们会用新生成的数据构造一个DataFrame,取前50个用户数据,进行降序操作。部分源代码如下所示:
上图控制台显示的数据是当天搜索量最高的前50名用户。有兴趣的同学可以到搜狗实验室官网下载该数据,查看当天检索量为431的客户检索了哪些内容。一定是严重依赖网络的朋友。
我们参观了什么,我们稍后再看。经过数据分析,我们决定取前20名用户,用条形图来展示他们的检索情况。选择20个用户的主要原因,一是为了图的美观,二是缩小数据范围,集中几个用户进行分析,节省分析成本。前20名用户的检索情况如下图所示:
由于数据量大,时间有限,我们将选取其中一位用户对检索到的数据进行分析。然后转到下一个链接。
3.用户搜索数据分析
我们选择搜索次数最多的用户“147154”,分析他一天的检索情况。我们来看看这个用户在不同时间段的搜索量。
08 2
09 64
20 57
21 218
22 90
左边是时间数据,右边是检索量。
看来这个用户经常在晚上21:00搜索。
让我们分析一下该用户检索了哪些内容。同时,该用户搜索词的搜索量按逆序排列。如下图:
由于数据有限,我们不知道用户的年龄、职业或性别。不过我觉得搜索的内容还是挺让人吃惊的。也客观地说明了每个看似正常的人都有不为人知的一面。
如果你想深入分析,可以从搜狗实验室下载这个数据。结合本文提供的前 20 个用户 ID,您可以直接检索数据中这 20 个用户的搜索结果。
4.不同的关键词搜索条件
接下来,我们将从全天的角度分析不同关键词的检索情况。基本的分析思路是提取当天所有关键词的数量,然后通过词频云图直观的展示出来。
根据数据,我们生成词频信息。同样,为了便于观察,我们按词频倒序排列。由于数据量很大,我们只展示其中的一部分。如下图所示:
为了显示词频云图,我们需要引入两个库:“import 采集s”和“import wordcloud”。具体用法可以参考相关资料,这里就不多说了。
在使用过程中有任何问题,也可以随时咨询我。我看到了,我会尽快回复你。由于大部分搜索词还是比较“奇葩”的,所以不要看的那么清楚,只知道大致的分析思路。根据词频,生成词频云图,如下图:
05 分析总结
有时在导入对方提供的数据或多或少的时候,会出现一些问题,比如:与我们的处理格式有些不同,编码问题。这就需要我们在数据分析前对数据进行梳理,在数据导入时处理异常,同时解决一些可能影响分析的垃圾数据。
俗话说,“垃圾进,垃圾出”。因此,在进行数据分析之前,确保数据的真实、可靠、有效是非常必要和非常重要的一步。
对于数据分析,在不同的领域、不同的场景、不同的目标,数据分析的方法和方法是不同的,这就需要我们对症下药。互联网公司和电子商务网站更多的是分析用户留存率、转化率和访问轨迹。而金融行业的公司,比如基金公司,做的更多的是时间序列分析和趋势分析。本文的分析更多的是通过数据提取和可视化来发现一些潜在的情况。
而通过我们这次对用户检索数据的分析,最直观的感受之一就是网络平台就像一个凝聚的社会。虽然大家都在网上搜索,没有人认识任何人,但在某种程度上还是有一定的联系的。在这个平台上,有好人也有坏人,也有人在反思日常生活中各种形式的人。正是因为网络搜索的匿名性,个人行为没有伪装,也更真实地反映了个人。从这个角度来说,网络数据分析的结果往往比线下数据分析要好。
虽然现在强调隐私保护,但如果是出于公共安全的目的,可以进行相关数据分析和预警,及早发现可能的违规和*敏*感*词*行为。例如:如果一个人经常检索到如何绑架等恶毒词汇,在一定程度上客观反映了他的心理状态,然后结合他的行动轨迹、购物记录、记分卡,综合判断该人犯案的概率。*敏*感*词*,及早采取预防措施,降低危害公共安全的风险。
技术是一把双刃剑。要实现技术的价值,就需要更加合理、科学地掌握和使用技术,让技术真正为人服务。企业价值或个人价值的好坏也决定了数据分析结果的价值好坏。无论如何,如果每个公司、每个人都能把“不作恶”作为自己行为准则的底线,世界就会好很多。
原创不易,如果觉得这篇文章对你有帮助,请多多转发,或者点击作者打赏。感谢阅读~