自动采集推送(基于大数据的政策采集、清洗及自动精准推送的方法)
优采云 发布时间: 2021-10-19 07:11自动采集推送(基于大数据的政策采集、清洗及自动精准推送的方法)
技术特点:
1.一种基于大数据的策略采集,一种清洗和自动准确推送的方法,其特点包括以下有效步骤: a.首先根据以往政府政策的内容提取关键词,构造关键词集合,其中关键词集合包括主题关键词集合和约束关键词放; 湾 将政府相关的网站添加到初始地址url*敏*感*词*集中;C。使用主题关键词集中的关键词组成主题爬虫。从初始地址url*敏*感*词*集开始,分析爬取网页的主题相关性,将与主题相关的网页存储在数据库中;d. 分析数据库中网页的文本内容,根据关键词提取收录关键词的句子 在约束集合关键词中;e. 根据关键词集合的约束提取收录关键词的句子进行分析,得到关键约束属性集合;F。根据约束关键词集构建收录企业信息的企业推荐属性集;G。将关键约束属性集与企业推荐属性集进行一一比较,确定只有公司推荐属性集中的所有属性和关键约束属性集中的所有约束属性为匹配成功,则将收录关键约束属性集的网页推送给公司。2. 基于大数据的策略 采集,2.根据权利要求1所述的一种清理和自动精准推送的方法,其特征在于,在步骤c中,当网络爬虫检查url*敏*感*词*集爬取一个网页时,首先搜索一个*敏*感*词*网页中的所有链接,然后搜索下一层中的所有链接,然后返回并在下一层中执行搜索,直到底层。3.一种基于大数据的策略采集、如权利要求1所述的清洗和自动精准推送的方法,其中步骤d包括以下有效步骤: d1、首先选择合适的分隔符将网页文本内容的句子划分成句子集p={s1,...s 然后搜索下一层中的所有链接,然后返回并在下一层中进行搜索,直到底层。3.一种基于大数据的策略采集、如权利要求1所述的清洗和自动精准推送的方法,其中步骤d包括以下有效步骤: d1、首先选择合适的分隔符将网页文本内容的句子划分成句子集p={s1,...s 然后搜索下一层中的所有链接,然后返回并在下一层中进行搜索,直到底层。3.一种基于大数据的策略采集、如权利要求1所述的清洗和自动精准推送的方法,其中步骤d包括以下有效步骤: d1、首先选择合适的分隔符将网页文本内容的句子划分成句子集p={s1,...s
n
},其中n是句子总数;d2、 然后对每个句子进行分词,得到当前句子的分词集 si={w
i1
,...., w
我是
<p>},其中m为当前句子切分集中的总词数;d3、 根据公式: ass(k,si)=|| 其中 ass(kw,si) 为关键词与当前句子的关联度;提取收录 关键词 的句子。4.根据权利要求1所述的一种基于大数据的策略采集、清洗和自动准确推送方法,其特征在于,所述关键约束属性集和企业推荐属性集均包括属性名称和属性值。5.一种基于大数据的策略采集、如权利要求1所述的清洗和自动精准推送的方法,其特征在于,在步骤g中,根据杜威十进制分类的特点,确定企业推荐属性集中关键约束属性集和企业所属领域属性。6.根据权利要求5所述的一种基于大数据的策略采集、清洗和自动准确推送方法,其特征在于,根据杜威十进制分类法搜索约束关键词集合。属性集中关键词的分类编号由公司和公司推荐,然后以杜威十进制分类法的编号关键词的长度为x轴,<以@关键词分类号为y轴,关键约束属性为关键词对应的杜威十进制分类号 在集合和企业推荐属性集合中绘制二维坐标对应的点。如果企业推荐属性集中关键词形成的点在关键约束属性集中