2017115
API 文档 ScikitLearn ApacheCN(Apache中文网)
20171010 Sklearn 0.19 中文文档校验活动 : http://www.apachecn.org/machinelearning/sklearn/172.html
MachineLearning 优酷地址 : http://i.youku.com/apachecn
API 文档
创建: 片刻,最新修改于: 20170711
原文链接 : http://scikitlearn.org/stable/modules/classes.html
译文链接 : http://cwiki.apachecn.org/pages/viewpage.action?pageId=10030193
贡献者 : @ 片刻 @ApacheCN @Apache中文网
所有函数和类的确切API,由docstrings给出。API会为所有功能提供预期类型和允许的功能,以及可用于算法的所有参数。
这是scikit学习的类和函数参考。有关详细信息,请参阅完整的用户指南,因为类和功能原始规格可能不足以给出其使用的完
整指导。
sklearn.base: Base classes and utility functions(基类和效用函数)
所有估计量的基类。
基础类
base.BaseEstimator
scikit学习中所有估计的基础类
base.ClassifierMixin
所有分类器的混合类在scikit学习
base.ClusterMixin
所有聚类估计器的混合类在scikit学习中
base.RegressorMixin
所有回归估计器的混合类在scikit学习
base.TransformerMixin 所有变压器的混合类在scikit学习
函数
base.clone(estimator[, safe]) 构造具有相同参数的新估计器
sklearn.cluster: Clustering(聚类)
该sklearn.cluster模块收集流行的无监督聚类算法。
用户指南:有关详细信息,请参阅“ 集群”部分。
类
cluster.AffinityPropagation([damping, ...])
执行亲和度传播数据聚类
cluster.AgglomerativeClustering([...])
集聚聚类
cluster.Birch([threshold, branching_factor, ...]) 实现Birch聚类算法
cluster.DBSCAN([eps, min_samples, metric, ...]) 从矢量阵列或距离矩阵执行DBSCAN聚类
cluster.FeatureAgglomeration([n_clusters, ...]) 聚集特征
cluster.KMeans([n_clusters, init, n_init, ...])
K均值聚类
cluster.MiniBatchKMeans([n_clusters, init, ...])
小批量K均值聚类
cluster.MeanShift([bandwidth, seeds, ...])
使用平坦内核的平均移位聚类
http://cwiki.apachecn.org/pages/viewpage.action?pageId=10030193
1/20
2017115
API 文档 ScikitLearn ApacheCN(Apache中文网)
cluster.SpectralClustering([n_clusters, ...])
将聚类应用于对规范化拉普拉斯算子的投影
函数
cluster.estimate_bandwidth(X[, quantile, ...]) 估计与平均移位算法一起使用的带宽
cluster.k_means(X, n_clusters[, init, ...])
K均值聚类算法
cluster.ward_tree(X[, connectivity, ...])
基于特征矩阵的区域聚类
cluster.affinity_propagation(S[, ...])
执行亲和度传播数据聚类
cluster.dbscan(X[, eps, min_samples, ...])
从矢量阵列或距离矩阵执行DBSCAN聚类
cluster.mean_shift(X[, bandwidth, seeds, ...]) 使用平坦的内核执行数据的平均移位聚类
cluster.spectral_clustering(affinity[, ...])
将聚类应用于对规范化拉普拉斯算子的投影
sklearn.cluster.bicluster: Biclustering(双聚类)
光谱双聚类算法。
作者:Kemal Eren许可证:BSD 3条款
用户指南:有关详细信息,请参阅Biclustering部分。
类
SpectralBiclustering([n_clusters, method, ...]) 光谱双聚类(Kluger,2003)
SpectralCoclustering([n_clusters, ...])
光谱共聚焦算法(Dhillon,2001)
sklearn.covariance: Covariance Estimators(协方差估计)
该sklearn.covariance模块包括方法和算法,以鲁棒地估计给定一组点的特征的协方差。定义为协方差的倒数的精度矩阵也
被估计。协方差估计与高斯图形模型的理论密切相关。
用户指南:有关详细信息,请参见协方差估计部分。
covariance.EmpiricalCovariance([...])
最大似然协方差估计
covariance.EllipticEnvelope([...])
用于检测高斯分布数据集中异常值的对象
covariance.GraphLasso([alpha, mode, tol, ...]) 具有l1惩罚估计量的稀疏逆协方差估计
covariance.GraphLassoCV([alphas, ...])
稀疏逆协方差与交叉验证的l1罚款的选择
covariance.LedoitWolf([store_precision, ...])
LedoitWolf估计
covariance.MinCovDet([store_precision, ...])
最小协方差决定因素(MCD):协方差的robust估计
covariance.OAS([store_precision, ...])
Oracle近似收缩估计
covariance.ShrunkCovariance([...])
协变量估计与收缩
covariance.empirical_covariance(X[, ...])
计算最大似然协方差估计
covariance.ledoit_wolf(X[, assume_centered, ...]) 估计缩小的LedoitWolf协方差矩阵
covariance.shrunk_covariance(emp_cov[, ...])
计算对角线上收缩的协方差矩阵
covariance.oas(X[, assume_centered])
使用Oracle近似收缩算法估计协方差
http://cwiki.apachecn.org/pages/viewpage.action?pageId=10030193
2/20
2017115
API 文档 ScikitLearn ApacheCN(Apache中文网)
covariance.graph_lasso(emp_cov, alpha[, ...])
l1惩罚协方差估计
sklearn.model_selection: Model Selection(模型选择)
用户指南:请参阅交叉验证:评估估计器性能,调整估计器的超参数和 学习曲线部分以获取更多详细信息。
分割器类
model_selection.KFold([n_splits, shuffle, ...])
K折叠交叉验证器
model_selection.GroupKFold([n_splits])
具有非重叠组的Kfold迭代器变体
model_selection.StratifiedKFold([n_splits, ...]) 分层K折叠交叉验证器
model_selection.LeaveOneGroupOut()
离开一组交叉验证器
model_selection.LeavePGroupsOut(n_groups)
离开P组交叉验证器
model_selection.LeaveOneOut()
model_selection.LeavePOut(p)
一次性交叉验证器
LeavePOut交叉验证器
model_selection.ShuffleSplit([n_splits, ...])
随机置换交叉验证器
model_selection.GroupShuffleSplit([...])
随机组 交叉验证迭代器
model_selection.StratifiedShuffleSplit([...])
分层ShuffleSplit交叉验证器
model_selection.PredefinedSplit(test_fold)
预定义分裂交叉验证器
model_selection.TimeSeriesSplit([n_splits])
时间序列交叉验证器
分割函数
model_selection.train_test_split(\*arrays, ...) 将阵列或矩阵拆分成随机列和测试子集
model_selection.check_cv([cv, y, classifier])
用于构建交叉验证器的输入检查器实用程序
超参数优化
model_selection.GridSearchCV(estimator, ...)
对估计器的指定参数值进行详尽搜索
model_selection.RandomizedSearchCV(...[, ...]) 随机搜索超参数
model_selection.ParameterGrid(param_grid)
每个参数的网格具有离散数量的值
model_selection.ParameterSampler(...[, ...])
发电机对从给定分布采样的参数
model_selection.fit_grid_point(X, y, ...[, ...]) 适合一组参数
模型验证
model_selection.cross_val_score(estimator, X)
通过交叉验证评估分数
model_selection.cross_val_predict(estimator, X) 为每个输入数据点生成交叉验证的估计
model_selection.permutation_test_score(...)
评估具有置换的交叉验证分数的意义
model_selection.learning_curve(estimator, X, y) 学习曲线
model_selection.validation_curve(estimator, ...) 验证曲线
http://cwiki.apachecn.org/pages/viewpage.action?pageId=10030193
3/20
API 文档 ScikitLearn ApacheCN(Apache中文网)
2017115
sklearn.datasets: Datasets(数据集)
该sklearn.datasets模块包括用于加载数据集的实用程序,包括加载和获取流行参考数据集的方法。它还具有一些人工数据
生成器。
用户指南:有关详细信息,请参阅数据集加载实用程序部分。
装载机
datasets.clear_data_home([data_home])
删除数据家庭缓存的所有内容
datasets.get_data_home([data_home])
返回scikitlearn数据目录的路径
datasets.fetch_20newsgroups([data_home, ...])
加载20个新闻组数据集中的文件名和数据
datasets.fetch_20newsgroups_vectorized([...])
加载20个新闻组数据集并将其转换为tfidf向量
datasets.load_boston([return_X_y])
加载并返回波士顿房价数据集(回归)
datasets.load_breast_cancer([return_X_y])
加载并返回乳腺癌威斯康星数据集(分类)
datasets.load_diabetes([return_X_y])
加载并返回糖尿病数据集(回归)
datasets.load_digits([n_class, return_X_y])
加载并返回数字数据集(分类)
datasets.load_files(container_path[, ...])
加载具有子文件夹名称类别的文本文件
datasets.load_iris([return_X_y])
加载并返回虹膜数据集(分类)
datasets.fetch_lfw_pairs([subset, ...])
在野外(LFW)对数据集中的标记面的装载程序
datasets.fetch_lfw_people([data_home, ...])
野外(LFW)人物数据集中的标记面的装载程序
datasets.load_linnerud([return_X_y])
加载并返回linnerud数据集(多元回归)
datasets.mldata_filename(dataname)
转换mldata.org文件名中的数据集的原始名称
datasets.fetch_mldata(dataname[, ...])
获取mldata.org数据集
datasets.fetch_olivetti_faces([data_home, ...])
Olivetti的装载机面向AT&T的数据集
datasets.fetch_california_housing([...])
来自StatLib的加州住房数据集的装载机
datasets.fetch_covtype([data_home, ...])
加载封面类型数据集,必要时下载
datasets.fetch_kddcup99([subset, shuffle, ...])
加载并返回kddcup 99数据集(分类)
datasets.fetch_rcv1([data_home, subset, ...])
加载RCV1 multilabel数据集,必要时下载
datasets.load_mlcomp(name_or_id[, set_, ...])
加载从http://mlcomp.org下载的数据集
datasets.load_sample_image(image_name)
加载单个样本图像的numpy数组
datasets.load_sample_images()
加载样品图像进行图像处理
datasets.fetch_species_distributions([...])
来自Phillips等的物种分布数据集的装载机
datasets.load_svmlight_file(f[, n_features, ...]) 将svmlight / libsvm格式的数据集加载到稀疏的CSR矩阵中
datasets.load_svmlight_files(files[, ...])
从SVMlight格式的多个文件加载数据集
datasets.dump_svmlight_file(X, y, f[, ...])
以svmlight / libsvm文件格式转储数据集
样本生成器
datasets.make_blobs([n_samples, n_features, ...])
生成用于聚类的各向同性高斯斑点
http://cwiki.apachecn.org/pages/viewpage.action?pageId=10030193
4/20
2017115
API 文档 ScikitLearn ApacheCN(Apache中文网)
datasets.make_classification([n_samples, ...])
生成随机n类分类问题
datasets.make_circles([n_samples, shuffle, ...])
在2d中制作一个包含较小圆的大圆
datasets.make_friedman1([n_samples, ...])
产生“Friedman#1”回归问题
datasets.make_friedman2([n_samples, noise, ...])
产生“Friedman#2”回归问题
datasets.make_friedman3([n_samples, noise, ...])
产生“Friedman#3”回归问题
datasets.make_gaussian_quantiles([mean, ...])
通过分位数生成各向同性高斯和标签样本
datasets.make_hastie_10_2([n_samples, ...])
生成Hastie等人使用的二进制分类数据
datasets.make_low_rank_matrix([n_samples, ...])
生成具有钟形奇异值的大多数低阶矩阵
datasets.make_moons([n_samples, shuffle, ...])
使两个交错半圈
datasets.make_multilabel_classification([...])
产生一个随机多标签分类问题
datasets.make_regression([n_samples, ...])
产生随机回归问题
datasets.make_s_curve([n_samples, noise, ...])
生成S曲线数据集
datasets.make_sparse_coded_signal(n_samples, ...) 生成信号作为字典元素的稀疏组合
datasets.make_sparse_spd_matrix([dim, ...])
产生一个稀疏的对称确定正矩阵
datasets.make_sparse_uncorrelated([...])
生成稀疏不相关设计的随机回归问题
datasets.make_spd_matrix(n_dim[, random_state])
产生一个随机对称,正定矩阵
datasets.make_swiss_roll([n_samples, noise, ...])
生成瑞士卷数据集
datasets.make_biclusters(shape, n_clusters)
生成一个具有恒定块对角线结构的阵列,用于二聚体
datasets.make_checkerboard(shape, n_clusters)
生成具有块棋盘结构的数组,用于双向聚集
sklearn.decomposition: Matrix Decomposition(矩阵分解)
该sklearn.decomposition模块包括矩阵分解算法,其中包括PCA,NMF或ICA。该模块的大多数算法可以被认为是降维技
术。
用户指南:有关详细信息,请参阅组件中的分解信号(矩阵分解问题)部分。
decomposition.PCA([n_components, copy, ...])
主成分分析(PCA)
decomposition.IncrementalPCA([n_components, ...]) 增量主成分分析(IPCA)
decomposition.ProjectedGradientNMF(\*args, ...)
非负矩阵因子分解(NMF)
decomposition.KernelPCA([n_components, ...])
内核主成分分析(KPCA)
decomposition.FactorAnalysis([n_components, ...]) 因子分析(FA)
decomposition.FastICA([n_components, ...])
FastICA:独立分量分析的快速算法。
decomposition.TruncatedSVD([n_components, ...])
使用截断的SVD(也称为LSA)进行尺寸缩小
decomposition.NMF([n_components, init, ...])
非负矩阵因子分解(NMF)
decomposition.SparsePCA([n_components, ...])
稀疏主成分分析(SparsePCA)
decomposition.MiniBatchSparsePCA([...])
小批量稀疏主成分分析
decomposition.SparseCoder(dictionary[, ...])
decomposition.DictionaryLearning([...])
稀疏编码
词典学习
http://cwiki.apachecn.org/pages/viewpage.action?pageId=10030193
5/20
2017115
API 文档 ScikitLearn ApacheCN(Apache中文网)
decomposition.MiniBatchDictionaryLearning([...])
小批量字典学习
decomposition.LatentDirichletAllocation([...])
潜在的Dirichlet分配与在线变分贝叶斯算法
decomposition.fastica(X[, n_components, ...])
执行快速独立成分分析
decomposition.dict_learning(X, n_components, ...) 解决词典学习矩阵分解问题
decomposition.dict_learning_online(X[, ...])
在线解决词典学习矩阵分解问题
decomposition.sparse_encode(X, dictionary[, ...])
稀疏编码
sklearn.dummy: Dummy estimators(虚拟估计)
用户指南:有关详细信息,请参阅模型评估:量化预测部分的质量部分。
dummy.DummyClassifier([strategy, ...])
DummyClassifier是使用简单规则进行预测的分类器
dummy.DummyRegressor([strategy, constant, ...])
DummyRegressor是使用简单规则进行预测的倒数
sklearn.ensemble: Ensemble Methods(集成方法)
该sklearn.ensemble模块包括用于分类,回归和异常检测的基于集成的方法。
用户指南:有关详细信息,请参阅“ 集成方法”部分。
ensemble.AdaBoostClassifier([...])
一个AdaBoost分类器
ensemble.AdaBoostRegressor([base_estimator, ...])
AdaBoost回归器
ensemble.BaggingClassifier([base_estimator, ...])
Bagging分类器
ensemble.BaggingRegressor([base_estimator, ...])
Bagging回归器
ensemble.ExtraTreesClassifier([...])
一个额外的树分类器
ensemble.ExtraTreesRegressor([n_estimators, ...]) 一个额外的树回归器
ensemble.GradientBoostingClassifier([loss, ...]) 梯度提升分类
ensemble.GradientBoostingRegressor([loss, ...])
渐变提升回归
ensemble.IsolationForest([n_estimators, ...])
隔离森林算法
ensemble.RandomForestClassifier([...])
随机森林分类器
ensemble.RandomTreesEmbedding([...])
一个完全随机的树的集成
ensemble.RandomForestRegressor([...])
随机森林回归器
ensemble.VotingClassifier(estimators[, ...])
软投票/多数规则分类器
部分依赖
树组合的部分依赖图
ensemble.partial_dependence.partial_dependence(...)
部分依赖target_variables
ensemble.partial_dependence.plot_partial_dependence(...) 部分依赖图features
http://cwiki.apachecn.org/pages/viewpage.action?pageId=10030193
6/20
2017115
sklearn.exceptions: Exceptions and warnings(异常和警告)
该sklearn.exceptions模块包括在scikit学习中使用的所有自定义警告和错误类。
API 文档 ScikitLearn ApacheCN(Apache中文网)
exceptions.NotFittedError
如果在拟合前使用估计器,则提升异常类
exceptions.ChangedBehaviorWarning
用于通知用户任何行为变化的警告类
exceptions.ConvergenceWarning
捕捉收敛问题的自定义警告
exceptions.DataConversionWarning
警告用于通知代码中发生的隐式数据转换
exceptions.DataDimensionalityWarning 自定义警告,以通知数据维度的潜在问题
exceptions.EfficiencyWarning
用于通知用户效率低下的警告
exceptions.FitFailedWarning
如果在拟合估计器时出现错误,则使用警告类
exceptions.NonBLASDotWarning
点操作不使用BLAS时使用的警告
exceptions.UndefinedMetricWarning
度量无效时使用的警告
sklearn.feature_extraction: Feature Extraction(特征提取)
该sklearn.feature_extraction模块处理原始数据的特征提取。它目前包括从文本和图像中提取特征的方法。
用户指南:有关详细信息,请参阅特征提取部分。
feature_extraction.DictVectorizer([dtype, ...]) 将特征值映射列表转换为向量
feature_extraction.FeatureHasher([...])
实现哈希功能,又称哈希技巧
从图像
该sklearn.feature_extraction.image子模块收集实用程序从图像中提取特征。
feature_extraction.image.img_to_graph(img[, ...])
像素到像素梯度连接的图形
feature_extraction.image.grid_to_graph(n_x, n_y)
像素到像素连接的图形
feature_extraction.image.extract_patches_2d(...)
将2D图像重新整理成一组补丁
feature_extraction.image.reconstruct_from_patches_2d(...) 从所有补丁重构图像
feature_extraction.image.PatchExtractor([...])
从图像集中提取补丁
从文本
该sklearn.feature_extraction.text子模块收集实用程序从文本文档建立特征向量。
feature_extraction.text.CountVectorizer([...])
将文本文档的集合转换为令牌计数矩阵
feature_extraction.text.HashingVectorizer([...]) 将文本文档的集合转换为令牌发生的矩阵
feature_extraction.text.TfidfTransformer([...])
将计数矩阵转换为标准化的tf或tfidf表示
feature_extraction.text.TfidfVectorizer([...])
将原始文档的集合转换为TFIDF功能的矩阵
sklearn.feature_selection: Feature Selection(特征选择)
http://cwiki.apachecn.org/pages/viewpage.action?pageId=10030193
7/20
2017115
该sklearn.feature_selection模块实现特征选择算法。它目前包括单变量筛选方法和递归特征消除算法。
用户指南:有关详细信息,请参阅功能选择部分。
API 文档 ScikitLearn ApacheCN(Apache中文网)
feature_selection.GenericUnivariateSelect([...]) 具有可配置策略的单变量特征选择器
feature_selection.SelectPercentile([...])
根据最高分数百分位数选择功能
feature_selection.SelectKBest([score_func, k])
根据k最高分选择功能
feature_selection.SelectFpr([score_func, alpha]) 过滤器:根据FPR测试选择低于alpha的p值
feature_selection.SelectFdr([score_func, alpha]) 过滤器:为估计的错误发现率选择p值
feature_selection.SelectFromModel(estimator)
元变压器,用于根据重要性权重选择特征
feature_selection.SelectFwe([score_func, alpha]) 过滤器:选择对应于同系误差率的p值
feature_selection.RFE(estimator[, ...])
功能排序与递归功能消除
feature_selection.RFECV(estimator[, step, ...])
功能排序与递归功能消除和交叉验证选择最佳数量的功能
feature_selection.VarianceThreshold([threshold]) 功能选择器可删除所有低方差特征
feature_selection.chi2(X, y)
计算每个非负特征和类之间的平方统计
feature_selection.f_classif(X, y)
计算提供的样本的方差分析F值
feature_selection.f_regression(X, y[, center])
单变量线性回归测试
feature_selection.mutual_info_classif(X, y)
估计离散目标变量的互信息
feature_selection.mutual_info_regression(X, y) 估计连续目标变量的互信息
sklearn.gaussian_process: Gaussian Processes(高斯过程)
该sklearn.gaussian_process模块实现了基于高斯过程的回归和分类。
用户指南:有关详细信息,请参阅高斯过程部分。
gaussian_process.GaussianProcessRegressor([...])
高斯过程回归(GPR)
gaussian_process.GaussianProcessClassifier([...]) 基于拉普拉斯逼近的高斯过程分类(GPC)
内核:
gaussian_process.kernels.Kernel
所有内核的基类
gaussian_process.kernels.Sum(k1, k2)
两个内核k1和k2的和核k1 + k2
gaussian_process.kernels.Product(k1, k2)
两个内核k1和k2的产品内核k1 * k2
gaussian_process.kernels.Exponentiation(...)
通过给定指数来指定内核
gaussian_process.kernels.ConstantKernel([...])
gaussian_process.kernels.WhiteKernel([...])
恒定内核
白内核
gaussian_process.kernels.RBF([length_scale, ...])
径向基函数核(又称平方指数核)
gaussian_process.kernels.Matern([...])
Matern 内核.
gaussian_process.kernels.RationalQuadratic([...]) 理性二次内核
gaussian_process.kernels.ExpSineSquared([...])
正弦平方内核
gaussian_process.kernels.DotProduct([...])
DotProduct内核
http://cwiki.apachecn.org/pages/viewpage.action?pageId=10030193
8/20