免规则采集器列表算法(【T·每日一练】2016年10月21日)

优采云 发布时间: 2021-12-10 18:31

  免规则采集器列表算法(【T·每日一练】2016年10月21日)

  第一章1、麦肯锡研究院2011年提出的大数据定义是:大数据是指规模超过常规数据库工具获取、存储、管理和()能力的数据集。A:计算B:访问C:应用D:分析答案:分析2、如果用4V来概括大数据的特征,一般指的是:Value、Velocity、Volume和()。A:Variety B:Vainly C:Vagary D:Valley 答案:Variety 3、 大数据分析的四个方面主要是:数据分类、()、关联规则挖掘和时间序列预测。A:数据统计 B:数据计算 C:数据聚类 D:数据清洗 答:数据聚类4、新浪和京东联合推出的大数据产品推荐,是京东盲目推的。com 给当前浏览新浪网站的用户 页面。A:正确 B:错误 答案:错误 5、 目前的大数据处理技术只能处理结构化数据。A:正确 B:错误 答案:错误 第二章 1、 我们常用的 Microsoft Office 套件中 Access 数据库软件的数据库文件格式的后缀是 ()。A:mdf B:mdb C:dbf D:xls 答案:mdb 2、 大多数日志文件的后缀是 ()。A:txt B:csv C:xml D:log 答:log 3、 本课程重点介绍的weka软件的专有文件格式是()。我们常用的Microsoft Office套件中Access数据库软件的数据库文件格式的后缀是()。A:mdf B:mdb C:dbf D:xls 答案:mdb 2、 大多数日志文件的后缀是 ()。A:txt B:csv C:xml D:log 答:log 3、 本课程重点介绍的weka软件的专有文件格式是()。我们常用的Microsoft Office套件中Access数据库软件的数据库文件格式的后缀是()。A:mdf B:mdb C:dbf D:xls 答案:mdb 2、 大多数日志文件的后缀是 ()。A:txt B:csv C:xml D:log 答:log 3、 本课程重点介绍的weka软件的专有文件格式是()。

  A:MongoDB B:ARFF C:value D:key map 答案:ARFF 4、 数据清洗的目的主要是解决数据的完整性、唯一性、合法性和()。A:专业性 B:排他性 C:一致性 D:共享性 答:一致性5、优采云 在软件的“自定义采集”工作模式下,需要在软件中输入一个( ) 作为 采集 的目标出现。A:电话号码 B:关键词 C:网址 D:用户名 答:网址 6、优采云本软件采集规则可以通过以下方式导入或导出files ,这种文件的后缀是 ()。A:otd B:jpg C:png D:gif 答案:otd 7、Excel 可以通过操作“数据有效性”按钮来调节数据输入的范围。A:正确 B:错误 答案:是 8、 Excel 无法导入 txt 或 csv 格式的文件。A:正确 B:错误 答案:错误 9、优采云 本软件只能用于网站采集内置“简单采集”的数据“ 规则。A:正确 B:错误 答案:错误 10、优采云定制软件时采集,需要了解网页的页面结构。A:正确 B:错误答案:使用 DBSCAN 算法对第 3 章 1、 中的虹膜数据集(Iris.arff)进行聚类,将 epsilon 参数设置为 0.2,将 minPoints 参数设置为 5。忽略class 属性,则 () 簇将形成。A:正确 B:错误 答案:错误 10、优采云定制软件时采集,需要了解网页的页面结构。A:正确 B:错误答案:使用DBSCAN算法对第三章1、中的虹膜数据集(Iris.arff)进行聚类,设置epsilon参数为0.2,minPoints参数为5。忽略class 属性,则 () 簇将形成。A:正确 B:错误 答案:错误 10、优采云定制软件时采集,需要了解网页的页面结构。A:正确 B:错误答案:使用 DBSCAN 算法对第 3 章 1、 中的虹膜数据集(Iris.arff)进行聚类,将 epsilon 参数设置为 0.2,将 minPoints 参数设置为 5。忽略class 属性,则 () 簇将形成。

  A: 1 B: 2 C: 3 D: 4 答案:3 2、 使用EM算法对天气数据集(weather.numeric.arff)进行聚类,设置numClusters为4,即聚类数4.其他参数保持默认值,忽略class属性。从结果可以看出,在以下选项中,()是错误的。A:模型的最大似然估计为-7.18 B:这组数据用算法迭代15次 C:第四个聚类的先验概率为0.14 D:第四个cluster 的实例数为4 答:第四个cluster的实例数为4 3、 使用SimpleKMeans算法对天气数据集(weather.numeric.arff)进行聚类,保持默认参数,即3 个集群和欧几里得距离。选择播放属性作为忽略属性。从结果可以看出,在以下选项中,()是错误的。A:这组数据被算法迭代了四次。B:产生三个中心点。C:聚合成 3 个集群,分别有 7、3 和 4 个实例。D:平方和的误差为8.928 答:这个组数据用算法4、迭代四次,使用线性回归(LinearRegression)分类器和M5P分类器对cpu进行分类。 arff,输出误差指数可以知道()。A:LinearRegression的标准误差比M5P小。B:LinearRegression 的平均绝对误差小于 M5P。C:LinearRegression的相对误差比M5P小。D:LinearRegression 的平均根误差小于 M5P 的平均值。平方根误差很大。答案:LinearRegression的平均平方根误差比M5P大。5、删除cpu.arff数据文件中的CACH属性后,使用M5P分类器构建方案。有 () 个 LM2 实例。

  A: 165 B: 21 C: 23 D: 30 Answer: 21 6、 当outlook=sunny时,根据J48分类器训练weather.nominal.arff产生的决策树;温度=凉爽;湿度=高;windy =TRUE,分类结果为()。A:是 B:否 C:没有结果 D:无法分类 答案:否 7、 根据 J48 分类器训练 iris.arff 产生的决策树,当 sepallength=4.4;

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线