搜索引擎进行信息检索的优化策略方法(搜狗实验室《搜索引擎用户查询日志(SogouQ)》(组图))
优采云 发布时间: 2022-03-03 12:00搜索引擎进行信息检索的优化策略方法(搜狗实验室《搜索引擎用户查询日志(SogouQ)》(组图))
2021-07-141、前言
数据——可以简单地理解为人们行为的符号表示。信息技术的发展使计算机能够无时无刻地记录人们的数据,而人们在计算机面前早已是“透明的人”。一切都在运动,对于数据来说,它总是在变化。当我们分析数据时,我们希望发*敏*感*词*矿。一份好的数据分析报告可以帮助管理者明确策略,不断优化调整策略,也可以帮助产品经理更好地把握产品的运行情况,有针对性地不断升级优化产品,提升客户体验,增强用户粘性. ,
2、分析目的
不同的域有不同的域用于分析目的。比如基金公司的数据分析,更多的是对所投资股票的价值分析。电商企业的数据分析会关注漏斗的转化率。结合本文的实际案例分析,我们数据分析的主要目的如下:(1)验证我们的判断。例如:我们根据经验判断会有更多的知识去探索某个领域晚上,来验证你的判断是否正确。
(2)用户兴趣发现和商机发现。例如:某个关键词被检索的频率很高,说明它很有可能成为热点,所以提前做好热点准备获得交通优势。
(3)防范风险。比如某个关键词在某个区域短时间内出现频率很高,很有可能会出现区域性风险。相关部门或企业应提前介入化解风险,尽可能减少损失。
3、数据准备
既然是实践,就要分析真实数据。本文数据来自搜狗实验室的《搜索引擎用户查询日志(SogouQ)》(资料地址: )。使用了搜狗实验室提供的简化版数据。该数据包收录一天的检索数据。数据压缩包为63MB,解压后的数据包大小为144MB。数据格式为:访问时间\tuser ID\t[查询词]\返回结果中URL的trank\用户点击的t序列号\t用户点击的URL。用户ID是在用户使用浏览器访问搜索引擎时根据cookie信息自动分配的,即同时使用浏览器输入的不同查询对应同一个用户ID。
数据样本如下:
00:00:3774412
【360安全卫士】
8 3
/softweb/software/firewall/antivirus/20067/17938.html
这主要是为了直观地向您展示数据格式。更详细的数据可以去搜狗实验室官网。
4、分析过程4.1 不同时期的检索
我们以小时为单位,分为24小时,全天查看用户检索情况。首先,在 Python 程序中导入 CSV 文件。这个太基础了,这里就不多说了。由于源数据的时间格式是“时:分:秒”,我们准备每小时分析一次。为了便于操作,我们将源数据“小时:分钟:秒”处理为仅保留小时。之后我们将数据格式化为 DataFrame 数据格式。使用groupby功能准时操作。使用 size() 聚合和显示分组数据。由于本文主要讲解思路,这里只展示部分源码。如需操作说明,可以关注我的微信公众号:佳佳原创。在公众号留言,我看到会第一时间回复你。
上图中的print()函数主要用于查看生成的数据。您也可以将其注释掉。根据操作生成对应的数据,根据数据生成分析折线图,如下图所示:
如果需要不断微调折线图的生成,而每一代数据的计算时间较长,其实可以先保存生成的数据,然后在调整折线图的元素时,结果数据可直接使用,无需重新计算。数据,可以节省很多时间。
在我们将数据可视化之后,原创的密集数据变得更加清晰。我们可以轻松直观地看到,用户的检索频率在凌晨 4:00 左右是最少的,在下午 16:00 左右是最频繁的,这也反映了网民的上网习惯。如果我们是广告主,我们可以根据这种情况对不同时间段的广告进行有针对性的定价。而如果我们需要做广告,我们也知道在哪个时间段做广告,广告的曝光率是相对最高的。
4.2 不同用户检索
接下来,我们分析不同用户的检索情况。查看哪些用户搜索最多。这个分析需要用到Python DataFrame中的count()操作,即:groupby(user ID).count()。之后,我们用新生成的数据构造一个DataFrame,取前50个用户数据,做一个降序操作。部分源代码如下所示:
上图Console中显示的数据是当天检索量排名前50的用户。有兴趣的同学可以到搜狗实验室官网下载这个数据,看看当天检索量为431的客户检索到了什么。一定是重度依赖网络的朋友。具体参观什么,我们后面再看。经过数据分析,我们决定抽取前20名用户,用条形图来展示他们的检索情况。选择20个用户的主要原因是,一是为了让图表美观,二是缩小数据范围,集中分析少数用户,节省分析成本。前20名用户的检索情况如下图所示:
由于数据量大且时间关系,我们接下来选择其中一位用户对其检索数据进行分析。然后转到下一部分。
4.3 用户检索数据分析
我们选取检索量最大的用户“147154”,分析他一天的检索情况。我们先来看看这个用户在不同时间段的检索量。
08 2
09 64
20 57
21 218
22 90
左边是时间数据,右边是检索量。这个用户似乎在晚上 21:00 搜索的频率更高。让我们分析一下这个用户检索到了哪些内容。同时,对用户搜索词的搜索量进行倒序排序。如下:
由于数据有限,我们也不知道用户的年龄、职业和性别。但搜索的内容却相当令人惊讶。也客观地表明,每一个看似正常的人,都有不为人知的一面。如果想深入分析,可以从搜狗实验室下载这个数据,使用本文提供的分析中排名前20的用户ID,直接检索这20个用户在数据中的搜索结果。
4.4 不同的搜索关键词
接下来,我们将从全天的角度分析当天不同关键词的检索情况。基本分析思路是提取当天所有关键词的数量,然后通过词频云图直观展示。根据数据,我们生成词频信息。同样,为了方便观察,我们按词频倒序排列。由于数据量大,我们只展示其中的一部分。如下所示:
为了展示词频云图,我们需要引入“import 采集s”和“import wordcloud”这两个库。具体用法可以参考相关资料,这里不再赘述。如果您在使用过程中有任何问题,也可以随时与我联系。我看到了,会尽快回复你。由于大部分搜索词还是比较“奇怪”的,所以不用看的那么清楚,只要知道大致的分析思路即可。根据词频生成词频云图,如下图所示:
5、分析总结
有时在导入对方提供的数据或多或少的时候,会出*敏*感*词*融行业的公司,比如基金公司,更倾向于做时间序列分析和趋势分析。
本文的分析更多是通过数据提取和可视化发现一些潜在的情况。通过我们这次对用户检索数据的分析,最直观的感受就是网络平台就像一个浓缩的社会。虽然大家都在网上搜索,没有人认识任何人,但在某种程度上还是有一些联系的。在这个平台上,有好人和坏人,也有在日常生活中对不同表情做出反应的人。正是因为在线检索的匿名性,个人的行为没有伪装,也反映了更真实的个人。从这个角度来看,网络数据分析的结果往往要优于离线数据分析。
虽然现在强调隐私保护,但如果是出于公共安全的目的,其实可以进行相关数据分析和预警,提前发现可能的违法*敏*感*词*情况。比如一个人经常搜索如何绑架等恶毒词,也在一定程度上客观反映了他的心理状态,然后结合他的行动轨迹、购物记录、记分卡等综合判断这个人的概率实施违法*敏*感*词*,及早预防和降低危害公共安全的风险。技术是一把双刃剑。为了真正发挥技术的价值,我们需要更加理性、科学地掌握和使用技术,让技术真正为人服务。数据分析也是如此。企业或个人价值观的好坏也决定了数据分析结果的价值。
无论如何,如果每个企业和每个人都能将“不作恶”作为其行为准则的底线,世界将会变得更加美好。
原创不容易,如果觉得这篇文章对你有帮助,请多多转发。感谢阅读~