免规则采集器列表算法(【T·每日一练】2016年10月21日)

优采云发布时间: 2021-12-10 18:31

　　第一章1、麦肯锡研究院2011年提出的大数据定义是：大数据是指规模超过常规数据库工具获取、存储、管理和（）能力的数据集。A：计算B：访问C：应用D：分析答案：分析2、如果用4V来概括大数据的特征，一般指的是：Value、Velocity、Volume和（）。A:Variety B:Vainly C:Vagary D:Valley 答案：Variety 3、大数据分析的四个方面主要是：数据分类、()、关联规则挖掘和时间序列预测。A：数据统计 B：数据计算 C：数据聚类 D：数据清洗答：数据聚类4、新浪和京东联合推出的大数据产品推荐，是京东盲目推的。com 给当前浏览新浪网站的用户页面。A：正确 B：错误答案：错误 5、目前的大数据处理技术只能处理结构化数据。A：正确 B：错误答案：错误第二章 1、我们常用的 Microsoft Office 套件中 Access 数据库软件的数据库文件格式的后缀是 ()。A：mdf B：mdb C：dbf D：xls 答案：mdb 2、大多数日志文件的后缀是 ()。A:txt B:csv C:xml D:log 答：log 3、本课程重点介绍的weka软件的专有文件格式是()。我们常用的Microsoft Office套件中Access数据库软件的数据库文件格式的后缀是()。A：mdf B：mdb C：dbf D：xls 答案：mdb 2、大多数日志文件的后缀是 ()。A:txt B:csv C:xml D:log 答：log 3、本课程重点介绍的weka软件的专有文件格式是()。我们常用的Microsoft Office套件中Access数据库软件的数据库文件格式的后缀是()。A：mdf B：mdb C：dbf D：xls 答案：mdb 2、大多数日志文件的后缀是 ()。A:txt B:csv C:xml D:log 答：log 3、本课程重点介绍的weka软件的专有文件格式是()。

　　A：MongoDB B：ARFF C：value D：key map 答案：ARFF 4、数据清洗的目的主要是解决数据的完整性、唯一性、合法性和()。A：专业性 B：排他性 C：一致性 D：共享性答：一致性5、优采云在软件的“自定义采集”工作模式下，需要在软件中输入一个（ ) 作为采集的目标出现。A：电话号码 B：关键词 C：网址 D：用户名答：网址 6、优采云本软件采集规则可以通过以下方式导入或导出files ，这种文件的后缀是 ()。A:otd B:jpg C:png D:gif 答案：otd 7、Excel 可以通过操作“数据有效性”按钮来调节数据输入的范围。A：正确 B：错误答案：是 8、 Excel 无法导入 txt 或 csv 格式的文件。A：正确 B：错误答案：错误 9、优采云本软件只能用于网站采集内置“简单采集”的数据“ 规则。A：正确 B：错误答案：错误 10、优采云定制软件时采集，需要了解网页的页面结构。A：正确 B：错误答案：使用 DBSCAN 算法对第 3 章 1、中的虹膜数据集（Iris.arff）进行聚类，将 epsilon 参数设置为 0.2，将 minPoints 参数设置为 5。忽略class 属性，则 () 簇将形成。A：正确 B：错误答案：错误 10、优采云定制软件时采集，需要了解网页的页面结构。A：正确 B：错误答案：使用DBSCAN算法对第三章1、中的虹膜数据集（Iris.arff）进行聚类，设置epsilon参数为0.2，minPoints参数为5。忽略class 属性，则 () 簇将形成。A：正确 B：错误答案：错误 10、优采云定制软件时采集，需要了解网页的页面结构。A：正确 B：错误答案：使用 DBSCAN 算法对第 3 章 1、中的虹膜数据集（Iris.arff）进行聚类，将 epsilon 参数设置为 0.2，将 minPoints 参数设置为 5。忽略class 属性，则 () 簇将形成。

　　A: 1 B: 2 C: 3 D: 4 答案：3 2、使用EM算法对天气数据集（weather.numeric.arff）进行聚类，设置numClusters为4，即聚类数4.其他参数保持默认值，忽略class属性。从结果可以看出，在以下选项中，()是错误的。A：模型的最大似然估计为-7.18 B：这组数据用算法迭代15次 C：第四个聚类的先验概率为0.14 D：第四个cluster 的实例数为4 答：第四个cluster的实例数为4 3、使用SimpleKMeans算法对天气数据集（weather.numeric.arff）进行聚类，保持默认参数，即3 个集群和欧几里得距离。选择播放属性作为忽略属性。从结果可以看出，在以下选项中，()是错误的。A：这组数据被算法迭代了四次。B：产生三个中心点。C：聚合成 3 个集群，分别有 7、3 和 4 个实例。D：平方和的误差为8.928 答：这个组数据用算法4、迭代四次，使用线性回归（LinearRegression）分类器和M5P分类器对cpu进行分类。 arff，输出误差指数可以知道()。A：LinearRegression的标准误差比M5P小。B：LinearRegression 的平均绝对误差小于 M5P。C：LinearRegression的相对误差比M5P小。D：LinearRegression 的平均根误差小于 M5P 的平均值。平方根误差很大。答案：LinearRegression的平均平方根误差比M5P大。5、删除cpu.arff数据文件中的CACH属性后，使用M5P分类器构建方案。有 () 个 LM2 实例。

　　A: 165 B: 21 C: 23 D: 30 Answer: 21 6、当outlook=sunny时，根据J48分类器训练weather.nominal.arff产生的决策树；温度=凉爽；湿度=高；windy =TRUE，分类结果为（）。A：是 B：否 C：没有结果 D：无法分类答案：否 7、根据 J48 分类器训练 iris.arff 产生的决策树，当 sepallength=4.4;

0

2021-12-10

免规则采集器列表算法

0 个评论

要回复文章请先登录或注册

AI时代内容工厂

免规则采集器列表算法(【T·每日一练】2016年10月21日)

0 个评论

发起人

AI时代内容工厂

免规则采集器列表算法(【T·每日一练】2016年10月21日)

0 个评论

发起人

相关问题