根据关键词文章采集系统(41.图10示出或多个实施例的技术内容内容)
优采云 发布时间: 2021-12-19 13:37根据关键词文章采集系统(41.图10示出或多个实施例的技术内容内容)
41. 图。图10示出了根据本说明书的一个或多个实施例的用于实现系统的装置的示意框图。
详细说明
4 2. 以下具体实施的内容足以使本领域技术人员理解本说明书的一个或多个实施例的技术内容并据此实施,并根据说明书、权利要求书和附录在本说明书附图中公开,本领域技术人员可以容易地理解与本说明书的一个或多个实施例相关的目的和优点。
43.如上所述,用户对产品或服务的兴趣也可能受到其他因素的影响。例如,此类影响因素可能包括舆论或舆论、监管状况、竞争对手信息等。但是,目前的推荐系统并没有考虑到这些信息。
44. 在某些系统中,产品或服务的运营人员可能会根据上述影响因素进行人工判断,并在后期人工调整产品或服务的推荐策略。然而,人们无法实时监控与其产品或服务相关的海量信息,因此当上述因素发生变化时,他们无法实时或准实时地做出反应以调整推荐策略。
45. 本手册的一个或多个实施例考虑了舆论、监管、竞争对手等信息,并通过对海量信息的实时自动化处理,确保产品或服务推荐的准确性以及当前情况的适用性。
46.参考图。参见图1,其示出了根据本说明书实施例的用于确定文章对产品的影响的文章分析系统100的*敏*感*词*。
47. 如图。如图1所示,文章分析系统100可以包括文章获取模块102。文章获取模块102可以自动从信息源110获取多篇文章文章。它应该需要注意的是,虽然本文使用了“文章”一词,但“文章”并不局限于文章由段落组成的传统含义,而是可以包括各种形式的数据放。例如,“文章”还可以收录xml、json或任何其他形式的数据集。
4 8. 图3示出了根据本说明书实施例的与舆论相关的文章示例的一部分的屏幕截图。图 3 显示了一篇新闻文章的一部分。在图 3 中,框中突出显示了一些 关键词。这些关键词可以是关键词与产品或服务(如x、租车、搬家等)相关的,可以用来判断文章相似度或文章对产品或服务的影响关键词(如死亡、参与、责任、质疑、监督、缺失等)。
49.文章 获取模块102可以通过多种方式获取文章。例如,文章获取模块102可以访问相关信息源提供的接口来获取文章。或者,文章获取模块102可以自动爬取相关信息源(如网站、数据库等)中的文章。或者,文章获取模块102可以订阅信息源并接收来自信息源的信息推送。
50.优选地,文章获取模块102可以实时获取文章。例如,文章获取模块102可以持续进行文章获取操作,从而持续获取最新的文章。实时获取文章,并使用本手册实施例的解决方案对文章进行处理,确保文章反映的最新舆情、监督和/或竞争对手信息被采纳第一时间考虑,从而实时分析对相关产品/服务的影响,实时调整相关产品的推荐策略。
51. 信息源可以包括各种信息源。如图所示。如图1所示,信息源110可以包括一个或多个舆情信息源(如图1中的舆情信息源1、2、
...
m)、一个或多个监管信息源(例如图1中的监管信息源1、2、
...
n) 一个或多个竞争者信息源(如图1中的竞争者信息源1、2、
...
p)中的一个或多个。信息源还可以包括图1中未示出的其他信息源。1.
52. 舆情信息源可以提供与舆情相关的信息。舆情信息源的示例可以包括新闻网站、社交网络服务、音频和视频服务等。例如,图 3 显示了来自 y 组社交网络帐户的 y 条新闻。
53. 监管信息来源可能包括与监管相关的信息。监管信息源的示例可能包括新闻网站、监管机构网站、社交媒体网站、监管机构账户等。
54. 参赛者信息来源可能包括与参赛者相关的信息。竞争对手信息来源的示例可能包括竞争对手网站、竞争对手在社交媒体上的验证帐户网站、新闻网站等。
55.相应地,获取的文章可能包括以下一项或多项:文章收录舆论信息、文章收录监管信息和竞争对手文章信息。
56. 需要注意的是,上述信息源示例并非是信息源的详尽列表,本领域技术人员可以根据需要使用其他信息源。
5 7. 在本优选实施例中,信息源不限于特定的信息源,例如可以通过文章爬取网络上所有可用的模块获取文章 (类似于搜索引擎),并将所有爬取到的文章作为获取的文章。
5 8. 对产品或服务推荐策略的调整可能包括,例如,增加对产品/服务的推荐(如增加推荐数量、增加推荐频率、增加推荐覆盖率等)、减少甚至取消产品/服务推荐。服务推荐(如减少推荐数量、降低推荐频率、减少推荐覆盖范围等),强调或淡化产品/服务的特定功能或特点(如更加重视安全性、更加重视用户隐私)保护功能等)等),改变推荐产品/服务的方式(例如撤回楼内的推荐,改为在网站上推荐,
59. 如图 参见图1,文章分析系统100还可以包括文章聚类模块104。文章聚类模块104可以用于对通过得到的文章进行聚类操作。 文章获取模块102获取一个或多个文章簇。文章的文章聚类的原因是为了过滤掉大致相同主题的文章。比如通过文章的聚类,可以过滤掉所有正在讨论最近租车搬家公司女乘客跳车事件的文章。
6 0. 在对文章进行聚类操作之前,最好先根据时间过滤文章。例如,只选择特定时间范围内的文章进行文章聚类和后续操作。例如,您只能选择最近一天、一周或最近一个月的文章进行文章聚类和后续操作。这样可以保证对最新的舆论、监管或竞争对手信息的分析和响应。
61. 一个简单的例子,可以通过判断两个文章之间的相似度是否大于等于阈值相似度来判断两个文章 > 属于同一个 文章 聚类。下面结合图4描述根据一个或多个实施例的用于确定两个文章的相似度的示例性方法400的流程。4.该方法例如可以由文章聚类模块104执行。
62. 如图。参照图4,方法400可以包括:在操作402中,可以首先确定获得的多个文章的文章之间的相似度。例如,相似度确定模块可以根据两个文章之间的相似词的个数占两个文章中的词总数的比值来确定两个文章的相似度。 >. 换句话说,对于两个文章doc
一世
和文档
j
,这两个文章的相似度可以通过如下相似度公式来确定:
[0063] [0064]
哪里 rel(doc
一世
,文档
j
) 表示文档
一世
带文档
j
两个文章的相似度,v(doc
一世
,文档
j
) 表示文档
一世
带文档
j
两个文章之间相同或相似词的个数,u(doc
一世
,文档
j
) 表示文档
一世
带文档
j
两个文章的总字数。这样的词可以是图1中方框中所示的词。3,例如。
[0065]
所谓相同或相近的词,可以指相同的词,或者意思相同或相近的词(如工资、收入等)。
[0066]
可以使用本领域技术人员可以想到的其他方法来确定两个文章的相似度。
[0067]
方法400可以包括:在操作404中,在确定两个文章的相似度之后,可以根据相似度确定两个文章是否属于同一个簇。例如,两个文章的相似度可以与阈值相似度进行比较。如果两个文章的相似度大于阈值相似度,则可以认为这两个文章属于同一个簇;否则,可以认为两个文章不属于同一个集群。例如,如果图3中的文章和另一个文章都收录x(或x平台)、租车、搬家、死亡等关键词,那么这两个文章@ > 都是讨论事件,所以这两个 文章 可以认为属于同一个集群。
[0068]
换句话说,可以使用下面的聚类确定公式来确定两个文章是否属于同一个聚类:
[0069]
组(文档
一世
)=组(文档
j
) 如果 rel(doc
一世
,文档
j
)≥β
[0070]
哪里组(doc
一世
)=组(文档
j
) 表示两个文章doc
一世
和文档
j
它们属于同一个簇,β是相似度阈值。例如,相似度阈值β可以由用户或开发者根据实际情况或根据先前经验确定。
[0071]
对任意两篇文章文章进行聚类操作后,可以最终确定得到的多篇文章文章中的一篇或多篇
文章 集群。
[0072]
上面只是举了一个比较简单的判断文章聚类方法的例子。在一个优选实施例中,聚类确定模块104可以采用更复杂的方法确定文章聚类。
[0073]
比如机器学习中的聚类算法或者分类算法,可以直接对得到的多篇文章文章进行聚类操作,得到一个或多个文章的聚合。种类。这种聚类算法的例子可能包括 k
-
手段、dbscan、量子聚类等。本领域技术人员可以想到的任何合适的聚类算法。这种分类算法的示例可以包括线性回归、逻辑回归、knn、支持向量机等,本领域技术人员可以想到的任何适用的分类算法。
[0074]
如图所示。如图1所示,文章分析系统100还可以包括产品关联模块104。产品关联模块104可以用于确定与文章集群相关联的产品或服务。
[0075]
在一个简单的例子中,使用以下方法来确定与文章 集群关联的产品或服务。下面结合图5描述根据一个或多个实施例的用于确定与文章集群相关联的产品或服务的示例方法500的流程。5.
[0076]
方法500可以包括:在操作502中,可以确定文章簇中的文章与产品或服务的相关性。例如,可以使用下面的公式来确定产品或服务的名称(或相关词)在文章中出现的频率:
[0077][0078]
哪里 rel(doc
一世
,亲
j
) 表示 文章doc
一世
和产品或服务亲
j
相关度,计数(doc
一世
,亲
j
) 表示产品或服务专家
j
在 文章 文档中
一世
出现的次数,表明产品或服务专业
j
文章簇中所有文章出现的次数总和(例如文章簇中有n个文章)。可以理解,计数(doc
一世
,亲
j
) 不一定只计算产品或服务本身的名称。例如,在图 3 中,“租车”、“搬家”、“平台”等都可以被认为与产品或服务相关联。
[0079]
随后,方法500可以包括:在操作504中,将产品或服务与文章的相关度与阈值相关度进行比较。如果相关性大于相关性阈值,则认为该产品或服务是与文章相关联的产品或服务。
[0080]
例如,可以使用以下公式来确定与 文章 聚类关联的产品或服务:
[0081][0082]
凡 pro_doc
一世
用 文章doc 表示
一世
相关产品或服务,与文章doc相关
一世
最相关的产品或服务专家
j
(rel9doc
一世
,亲
j
) 如上式计算),α 表示相关阈值。只有当最相关的产品或服务与文章的相关性大于相关阈值α时,才认为该产品或服务是与文章相关的产品,否则认为存在是没有文章相关的产品或服务。例如,相关阈值α可以由用户或开发者根据实际情况或根据先前经验确定。代表最相关的产品或服务。
[0083]
方法500还可以包括:在操作506中,在为文章集群中的每篇文章确定相关产品或服务之后,确定与文章集群相关联的产品或服务或服务。例如,可以确定文章簇中最多的文档
<p>章节相关产品或服务是与文章集群相关的产品或服务。在大多数情况下,文章集群中的大部分文章都与同一个产品或服务相关,因此也可以确定与任何文章集群