22秋《大数据技术与应用》作业_1
关联规则最基础的元素是
0. 项
1. 项集
2. 超项集
3. 子项集
利用Sklearn构建KNN分类器,用于KNN分类器训练的程序为
0. knn.fit(X_train,y_train)
1. y_pred=knn.predict(X_test)
2. knn=KNeighborsClassifier(n_neighbors=k)
3. 以上都不对
以下不是数据可视化工具库的是()
0. pandas
1. matplotlib
2. matlab
3. seaborn
数据集{2,2,4,4,4,4,6,6,8,8,12,14,16,20,22,28,30,44}的中四分位数为
0. 2
1. 4
2. 6
3. 8
在pandas中脏数据的典型表示有()
0. np.nan
1. *
2. ?
3. no
用训练好的孤立森林isolationforest实例对数据进行异常值检测的语句是
0. from sklean.ensemble import IsolationForest
1. LocalOutlierFactor
2. clf= IsolationForest(max_samples=100,random_state=0)
3. clf.fit(X_train)
4. y_pred=clf.fit_predict(X)
5. y_pred_test = clf.predict(X_test)
创建孤立森林isolationforest实例的语句是
0. from sklean.ensemble import IsolationForest
1. LocalOutlierFactor
2. clf= IsolationForest(max_samples=100,random_state=0)
3. clf.fit(X_train)
4. y_pred=clf.fit_predict(X)
5. y_pred_test = clf.predict(X_test)
:fromsklearn.treeimportDecisionTreeClassifiernclf=DecisionTreeClassifier()nclf.fit(Xtrain,Ytrain)npredictions=clf.predict(Xtest)n上面代码第4行中Xtest表示
0. 训练数据集
1. 测试数据集
2. 训练数据的类别标签数组
3. 测试数据的类别标签数组
利用pandas处理数据缺失值时,用于丢弃缺失值的函数为
0. isnull
1. head
2. tail
3. dropna
局部异常因子(LOF)算法属于
0. 基于统计的异常值检测方法
1. 基于密度的异常检测方法
2. 基于聚类的异常值检测
3. 基于决策树的异常检测
数据离散程度分析的常用指标包括
0. 极差
1. 标准差
2. 四分位差
3. 离散系数
分箱法包括
0. 等深分箱
1. 众数分箱
2. 等宽分箱
3. 以上都不对
以下哪些是数据可视化图表
0. 柱状图
1. 折线图
2. 饼图
3. 散点图
可用于实现数据one-hot编码的方法包括
0. Pandas的head
1. Pandas的get_dummies
2. sklearn.preprocessing.OneHotEncoder方法
3. Pandas的tail
决策树的关键点包括
0. 采用Bagging框架
1. 采用随机特征选择生成每个决策树的训练数据特征子集
2. 采用采样数据集的特征子集训练对应决策树
3. 以上都不对
K均值聚类方法输出结果为各个样本的类簇归属,可能存在一个样本同时属于多个类簇的情况
1.T
2.F
逻辑回归logisticregression方法顾名思义属于回归方法
1.T
2.F
平均值能够有效抑制数据极值的影响,不容易出现偏差
1.T
2.F
低层次数据可以向高层次转化,代价是损失部分数据信息
1.T
2.F
离散系数是数据集中趋势分析常用指标之一
1.T
2.F
数据挖掘主要探索的是已知的规律
1.T
2.F
高层次数据无法向低层次转化,会出现F
1.T
2.F
两个或多个事物之间无论存在多强的关联关系,其中一个事物也无法通过其他事务预测到
1.T
2.F
KNN分类器随着参数k的变化,样本的分类结果不会发生变化
1.T
2.F
数据类型等级最高的是定类数据
1.T
2.F
版权保护: 本文由老虎奥鹏原创,转载请保留链接: www.wsxueba.com
- 上一篇: 22秋《Python程序设计》作业_4
- 下一篇: 22秋《大数据技术与应用》作业_2