logo资料库

python Scikit-Learn0.19中文文档.pdf

第1页 / 共304页
第2页 / 共304页
第3页 / 共304页
第4页 / 共304页
第5页 / 共304页
第6页 / 共304页
第7页 / 共304页
第8页 / 共304页
资料共304页,剩余部分请下载后查看
API 文档
快速入门
Generalized Linear Models ( 广义线性模型 )
Logistic regression ( 逻辑回归 )
线性和二次判别分析
Support Vector Machines(支持向量机, SVM)
Stochastic Gradient Descent ( 随机梯度下降 )
Nearest Neighbors ( 最近邻 )
Gaussian Processes(高斯过程)
Naive Bayes ( 朴素贝叶斯 )
Ensemble methods(集成方法)
多分类和多标签算法
特征选择
特征提取
半监督
等式回归
概率校准
神经网络模型(监督)
高斯混合模型
流形学习
聚类
双聚类
分解成分中的信号(矩阵分解问题)
协方差估计
新奇和异常检测
密度估计
神经网络模型(无监督)
交叉验证:评估估计器性能
调整估计器的超参数
模型评估:量化预测的质量
模型持久化
管道和FeatureUnion:组合估计
预处理数据
特征提取
无监督降维
随机投影
内核近似
转换预测目标(y)
数据集加载实用程序
计算策略:更大的数据
2017­11­5 API 文档 ­ Scikit­Learn ­ ApacheCN(Apache中文网) 2017­10­10 Sklearn 0.19 中文文档校验活动 : http://www.apachecn.org/machinelearning/sklearn/172.html MachineLearning 优酷地址 : http://i.youku.com/apachecn API 文档 创建: 片刻,最新修改于: 2017­07­11 原文链接 : http://scikit­learn.org/stable/modules/classes.html 译文链接 : http://cwiki.apachecn.org/pages/viewpage.action?pageId=10030193 贡献者 :  @ 片刻   @ApacheCN   @Apache中文网 所有函数和类的确切API,由docstrings给出。API会为所有功能提供预期类型和允许的功能,以及可用于算法的所有参数。   这是scikit学习的类和函数参考。有关详细信息,请参阅完整的用户指南,因为类和功能原始规格可能不足以给出其使用的完 整指导。    sklearn.base: Base classes and utility functions(基类和效用函数) 所有估计量的基类。 基础类 base.BaseEstimator scikit学习中所有估计的基础类 base.ClassifierMixin 所有分类器的混合类在scikit学习 base.ClusterMixin 所有聚类估计器的混合类在scikit学习中 base.RegressorMixin 所有回归估计器的混合类在scikit学习 base.TransformerMixin 所有变压器的混合类在scikit学习   函数 base.clone(estimator[, safe]) 构造具有相同参数的新估计器      sklearn.cluster: Clustering(聚类) 该sklearn.cluster模块收集流行的无监督聚类算法。 用户指南:有关详细信息,请参阅“ 集群”部分。 类 cluster.AffinityPropagation([damping, ...]) 执行亲和度传播数据聚类 cluster.AgglomerativeClustering([...]) 集聚聚类 cluster.Birch([threshold, branching_factor, ...]) 实现Birch聚类算法 cluster.DBSCAN([eps, min_samples, metric, ...]) 从矢量阵列或距离矩阵执行DBSCAN聚类 cluster.FeatureAgglomeration([n_clusters, ...]) 聚集特征 cluster.KMeans([n_clusters, init, n_init, ...]) K均值聚类 cluster.MiniBatchKMeans([n_clusters, init, ...]) 小批量K均值聚类 cluster.MeanShift([bandwidth, seeds, ...]) 使用平坦内核的平均移位聚类 http://cwiki.apachecn.org/pages/viewpage.action?pageId=10030193 1/20
2017­11­5 API 文档 ­ Scikit­Learn ­ ApacheCN(Apache中文网) cluster.SpectralClustering([n_clusters, ...]) 将聚类应用于对规范化拉普拉斯算子的投影   函数 cluster.estimate_bandwidth(X[, quantile, ...]) 估计与平均移位算法一起使用的带宽 cluster.k_means(X, n_clusters[, init, ...]) K均值聚类算法 cluster.ward_tree(X[, connectivity, ...]) 基于特征矩阵的区域聚类 cluster.affinity_propagation(S[, ...]) 执行亲和度传播数据聚类 cluster.dbscan(X[, eps, min_samples, ...]) 从矢量阵列或距离矩阵执行DBSCAN聚类 cluster.mean_shift(X[, bandwidth, seeds, ...]) 使用平坦的内核执行数据的平均移位聚类 cluster.spectral_clustering(affinity[, ...]) 将聚类应用于对规范化拉普拉斯算子的投影      sklearn.cluster.bicluster: Biclustering(双聚类) 光谱双聚类算法。 作者:Kemal Eren许可证:BSD 3条款 用户指南:有关详细信息,请参阅Biclustering部分。 类 SpectralBiclustering([n_clusters, method, ...]) 光谱双聚类(Kluger,2003) SpectralCoclustering([n_clusters, ...]) 光谱共聚焦算法(Dhillon,2001)      sklearn.covariance: Covariance Estimators(协方差估计) 该sklearn.covariance模块包括方法和算法,以鲁棒地估计给定一组点的特征的协方差。定义为协方差的倒数的精度矩阵也 被估计。协方差估计与高斯图形模型的理论密切相关。 用户指南:有关详细信息,请参见协方差估计部分。 covariance.EmpiricalCovariance([...]) 最大似然协方差估计 covariance.EllipticEnvelope([...]) 用于检测高斯分布数据集中异常值的对象 covariance.GraphLasso([alpha, mode, tol, ...]) 具有l1惩罚估计量的稀疏逆协方差估计 covariance.GraphLassoCV([alphas, ...]) 稀疏逆协方差与交叉验证的l1罚款的选择 covariance.LedoitWolf([store_precision, ...]) LedoitWolf估计 covariance.MinCovDet([store_precision, ...]) 最小协方差决定因素(MCD):协方差的robust估计 covariance.OAS([store_precision, ...]) Oracle近似收缩估计 covariance.ShrunkCovariance([...]) 协变量估计与收缩 covariance.empirical_covariance(X[, ...]) 计算最大似然协方差估计 covariance.ledoit_wolf(X[, assume_centered, ...]) 估计缩小的Ledoit­Wolf协方差矩阵 covariance.shrunk_covariance(emp_cov[, ...]) 计算对角线上收缩的协方差矩阵 covariance.oas(X[, assume_centered]) 使用Oracle近似收缩算法估计协方差 http://cwiki.apachecn.org/pages/viewpage.action?pageId=10030193 2/20
2017­11­5 API 文档 ­ Scikit­Learn ­ ApacheCN(Apache中文网) covariance.graph_lasso(emp_cov, alpha[, ...]) l1惩罚协方差估计     sklearn.model_selection: Model Selection(模型选择) 用户指南:请参阅交叉验证:评估估计器性能,调整估计器的超参数和 学习曲线部分以获取更多详细信息。 分割器类 model_selection.KFold([n_splits, shuffle, ...]) K­折叠交叉验证器 model_selection.GroupKFold([n_splits]) 具有非重叠组的K­fold迭代器变体 model_selection.StratifiedKFold([n_splits, ...]) 分层K­折叠交叉验证器 model_selection.LeaveOneGroupOut() 离开一组交叉验证器 model_selection.LeavePGroupsOut(n_groups) 离开P组交叉验证器 model_selection.LeaveOneOut() model_selection.LeavePOut(p) 一次性交叉验证器 Leave­P­Out交叉验证器 model_selection.ShuffleSplit([n_splits, ...]) 随机置换交叉验证器 model_selection.GroupShuffleSplit([...]) 随机组 ­ 交叉验证迭代器 model_selection.StratifiedShuffleSplit([...]) 分层ShuffleSplit交叉验证器 model_selection.PredefinedSplit(test_fold) 预定义分裂交叉验证器 model_selection.TimeSeriesSplit([n_splits]) 时间序列交叉验证器   分割函数 model_selection.train_test_split(\*arrays, ...) 将阵列或矩阵拆分成随机列和测试子集 model_selection.check_cv([cv, y, classifier]) 用于构建交叉验证器的输入检查器实用程序   超参数优化 model_selection.GridSearchCV(estimator, ...) 对估计器的指定参数值进行详尽搜索 model_selection.RandomizedSearchCV(...[, ...]) 随机搜索超参数 model_selection.ParameterGrid(param_grid) 每个参数的网格具有离散数量的值 model_selection.ParameterSampler(...[, ...]) 发电机对从给定分布采样的参数 model_selection.fit_grid_point(X, y, ...[, ...]) 适合一组参数   模型验证 model_selection.cross_val_score(estimator, X) 通过交叉验证评估分数 model_selection.cross_val_predict(estimator, X) 为每个输入数据点生成交叉验证的估计 model_selection.permutation_test_score(...) 评估具有置换的交叉验证分数的意义 model_selection.learning_curve(estimator, X, y) 学习曲线 model_selection.validation_curve(estimator, ...) 验证曲线 http://cwiki.apachecn.org/pages/viewpage.action?pageId=10030193 3/20
API 文档 ­ Scikit­Learn ­ ApacheCN(Apache中文网) 2017­11­5      sklearn.datasets: Datasets(数据集) 该sklearn.datasets模块包括用于加载数据集的实用程序,包括加载和获取流行参考数据集的方法。它还具有一些人工数据 生成器。 用户指南:有关详细信息,请参阅数据集加载实用程序部分。 装载机 datasets.clear_data_home([data_home]) 删除数据家庭缓存的所有内容 datasets.get_data_home([data_home]) 返回scikit­learn数据目录的路径 datasets.fetch_20newsgroups([data_home, ...]) 加载20个新闻组数据集中的文件名和数据 datasets.fetch_20newsgroups_vectorized([...]) 加载20个新闻组数据集并将其转换为tf­idf向量 datasets.load_boston([return_X_y]) 加载并返回波士顿房价数据集(回归) datasets.load_breast_cancer([return_X_y]) 加载并返回乳腺癌威斯康星数据集(分类) datasets.load_diabetes([return_X_y]) 加载并返回糖尿病数据集(回归) datasets.load_digits([n_class, return_X_y]) 加载并返回数字数据集(分类) datasets.load_files(container_path[, ...]) 加载具有子文件夹名称类别的文本文件 datasets.load_iris([return_X_y]) 加载并返回虹膜数据集(分类) datasets.fetch_lfw_pairs([subset, ...]) 在野外(LFW)对数据集中的标记面的装载程序 datasets.fetch_lfw_people([data_home, ...]) 野外(LFW)人物数据集中的标记面的装载程序 datasets.load_linnerud([return_X_y]) 加载并返回linnerud数据集(多元回归) datasets.mldata_filename(dataname) 转换mldata.org文件名中的数据集的原始名称 datasets.fetch_mldata(dataname[, ...]) 获取mldata.org数据集 datasets.fetch_olivetti_faces([data_home, ...]) Olivetti的装载机面向AT&T的数据集 datasets.fetch_california_housing([...]) 来自StatLib的加州住房数据集的装载机 datasets.fetch_covtype([data_home, ...]) 加载封面类型数据集,必要时下载 datasets.fetch_kddcup99([subset, shuffle, ...]) 加载并返回kddcup 99数据集(分类) datasets.fetch_rcv1([data_home, subset, ...]) 加载RCV1 multilabel数据集,必要时下载 datasets.load_mlcomp(name_or_id[, set_, ...]) 加载从http://mlcomp.org下载的数据集 datasets.load_sample_image(image_name) 加载单个样本图像的numpy数组 datasets.load_sample_images() 加载样品图像进行图像处理 datasets.fetch_species_distributions([...]) 来自Phillips等的物种分布数据集的装载机 datasets.load_svmlight_file(f[, n_features, ...]) 将svmlight / libsvm格式的数据集加载到稀疏的CSR矩阵中 datasets.load_svmlight_files(files[, ...]) 从SVMlight格式的多个文件加载数据集 datasets.dump_svmlight_file(X, y, f[, ...]) 以svmlight / libsvm文件格式转储数据集   样本生成器 datasets.make_blobs([n_samples, n_features, ...]) 生成用于聚类的各向同性高斯斑点 http://cwiki.apachecn.org/pages/viewpage.action?pageId=10030193 4/20
2017­11­5 API 文档 ­ Scikit­Learn ­ ApacheCN(Apache中文网) datasets.make_classification([n_samples, ...]) 生成随机n类分类问题 datasets.make_circles([n_samples, shuffle, ...]) 在2d中制作一个包含较小圆的大圆 datasets.make_friedman1([n_samples, ...]) 产生“Friedman#1”回归问题 datasets.make_friedman2([n_samples, noise, ...]) 产生“Friedman#2”回归问题 datasets.make_friedman3([n_samples, noise, ...]) 产生“Friedman#3”回归问题 datasets.make_gaussian_quantiles([mean, ...]) 通过分位数生成各向同性高斯和标签样本 datasets.make_hastie_10_2([n_samples, ...]) 生成Hastie等人使用的二进制分类数据 datasets.make_low_rank_matrix([n_samples, ...]) 生成具有钟形奇异值的大多数低阶矩阵 datasets.make_moons([n_samples, shuffle, ...]) 使两个交错半圈 datasets.make_multilabel_classification([...]) 产生一个随机多标签分类问题 datasets.make_regression([n_samples, ...]) 产生随机回归问题 datasets.make_s_curve([n_samples, noise, ...]) 生成S曲线数据集 datasets.make_sparse_coded_signal(n_samples, ...) 生成信号作为字典元素的稀疏组合 datasets.make_sparse_spd_matrix([dim, ...]) 产生一个稀疏的对称确定正矩阵 datasets.make_sparse_uncorrelated([...]) 生成稀疏不相关设计的随机回归问题 datasets.make_spd_matrix(n_dim[, random_state]) 产生一个随机对称,正定矩阵 datasets.make_swiss_roll([n_samples, noise, ...]) 生成瑞士卷数据集 datasets.make_biclusters(shape, n_clusters) 生成一个具有恒定块对角线结构的阵列,用于二聚体 datasets.make_checkerboard(shape, n_clusters) 生成具有块棋盘结构的数组,用于双向聚集      sklearn.decomposition: Matrix Decomposition(矩阵分解) 该sklearn.decomposition模块包括矩阵分解算法,其中包括PCA,NMF或ICA。该模块的大多数算法可以被认为是降维技 术。 用户指南:有关详细信息,请参阅组件中的分解信号(矩阵分解问题)部分。 decomposition.PCA([n_components, copy, ...]) 主成分分析(PCA) decomposition.IncrementalPCA([n_components, ...]) 增量主成分分析(IPCA) decomposition.ProjectedGradientNMF(\*args, ...) 非负矩阵因子分解(NMF) decomposition.KernelPCA([n_components, ...]) 内核主成分分析(KPCA) decomposition.FactorAnalysis([n_components, ...]) 因子分析(FA) decomposition.FastICA([n_components, ...]) FastICA:独立分量分析的快速算法。 decomposition.TruncatedSVD([n_components, ...]) 使用截断的SVD(也称为LSA)进行尺寸缩小 decomposition.NMF([n_components, init, ...]) 非负矩阵因子分解(NMF) decomposition.SparsePCA([n_components, ...]) 稀疏主成分分析(SparsePCA) decomposition.MiniBatchSparsePCA([...]) 小批量稀疏主成分分析 decomposition.SparseCoder(dictionary[, ...]) decomposition.DictionaryLearning([...]) 稀疏编码 词典学习 http://cwiki.apachecn.org/pages/viewpage.action?pageId=10030193 5/20
2017­11­5 API 文档 ­ Scikit­Learn ­ ApacheCN(Apache中文网) decomposition.MiniBatchDictionaryLearning([...]) 小批量字典学习 decomposition.LatentDirichletAllocation([...]) 潜在的Dirichlet分配与在线变分贝叶斯算法 decomposition.fastica(X[, n_components, ...]) 执行快速独立成分分析 decomposition.dict_learning(X, n_components, ...) 解决词典学习矩阵分解问题 decomposition.dict_learning_online(X[, ...]) 在线解决词典学习矩阵分解问题 decomposition.sparse_encode(X, dictionary[, ...]) 稀疏编码      sklearn.dummy: Dummy estimators(虚拟估计) 用户指南:有关详细信息,请参阅模型评估:量化预测部分的质量部分。   dummy.DummyClassifier([strategy, ...]) DummyClassifier是使用简单规则进行预测的分类器 dummy.DummyRegressor([strategy, constant, ...]) DummyRegressor是使用简单规则进行预测的倒数      sklearn.ensemble: Ensemble Methods(集成方法) 该sklearn.ensemble模块包括用于分类,回归和异常检测的基于集成的方法。 用户指南:有关详细信息,请参阅“ 集成方法”部分。 ensemble.AdaBoostClassifier([...]) 一个AdaBoost分类器 ensemble.AdaBoostRegressor([base_estimator, ...]) AdaBoost回归器 ensemble.BaggingClassifier([base_estimator, ...]) Bagging分类器 ensemble.BaggingRegressor([base_estimator, ...]) Bagging回归器 ensemble.ExtraTreesClassifier([...]) 一个额外的树分类器 ensemble.ExtraTreesRegressor([n_estimators, ...]) 一个额外的树回归器 ensemble.GradientBoostingClassifier([loss, ...]) 梯度提升分类 ensemble.GradientBoostingRegressor([loss, ...]) 渐变提升回归 ensemble.IsolationForest([n_estimators, ...]) 隔离森林算法 ensemble.RandomForestClassifier([...]) 随机森林分类器 ensemble.RandomTreesEmbedding([...]) 一个完全随机的树的集成 ensemble.RandomForestRegressor([...]) 随机森林回归器 ensemble.VotingClassifier(estimators[, ...]) 软投票/多数规则分类器   部分依赖 树组合的部分依赖图 ensemble.partial_dependence.partial_dependence(...) 部分依赖target_variables ensemble.partial_dependence.plot_partial_dependence(...) 部分依赖图features   http://cwiki.apachecn.org/pages/viewpage.action?pageId=10030193 6/20
2017­11­5    sklearn.exceptions: Exceptions and warnings(异常和警告) 该sklearn.exceptions模块包括在scikit学习中使用的所有自定义警告和错误类。 API 文档 ­ Scikit­Learn ­ ApacheCN(Apache中文网) exceptions.NotFittedError 如果在拟合前使用估计器,则提升异常类 exceptions.ChangedBehaviorWarning 用于通知用户任何行为变化的警告类 exceptions.ConvergenceWarning 捕捉收敛问题的自定义警告 exceptions.DataConversionWarning 警告用于通知代码中发生的隐式数据转换 exceptions.DataDimensionalityWarning 自定义警告,以通知数据维度的潜在问题 exceptions.EfficiencyWarning 用于通知用户效率低下的警告 exceptions.FitFailedWarning 如果在拟合估计器时出现错误,则使用警告类 exceptions.NonBLASDotWarning 点操作不使用BLAS时使用的警告 exceptions.UndefinedMetricWarning 度量无效时使用的警告      sklearn.feature_extraction: Feature Extraction(特征提取) 该sklearn.feature_extraction模块处理原始数据的特征提取。它目前包括从文本和图像中提取特征的方法。 用户指南:有关详细信息,请参阅特征提取部分。 feature_extraction.DictVectorizer([dtype, ...]) 将特征值映射列表转换为向量 feature_extraction.FeatureHasher([...]) 实现哈希功能,又称哈希技巧   从图像 该sklearn.feature_extraction.image子模块收集实用程序从图像中提取特征。 feature_extraction.image.img_to_graph(img[, ...]) 像素到像素梯度连接的图形 feature_extraction.image.grid_to_graph(n_x, n_y) 像素到像素连接的图形 feature_extraction.image.extract_patches_2d(...) 将2D图像重新整理成一组补丁 feature_extraction.image.reconstruct_from_patches_2d(...) 从所有补丁重构图像 feature_extraction.image.PatchExtractor([...]) 从图像集中提取补丁      从文本 该sklearn.feature_extraction.text子模块收集实用程序从文本文档建立特征向量。 feature_extraction.text.CountVectorizer([...]) 将文本文档的集合转换为令牌计数矩阵 feature_extraction.text.HashingVectorizer([...]) 将文本文档的集合转换为令牌发生的矩阵 feature_extraction.text.TfidfTransformer([...]) 将计数矩阵转换为标准化的tf或tf­idf表示 feature_extraction.text.TfidfVectorizer([...]) 将原始文档的集合转换为TF­IDF功能的矩阵      sklearn.feature_selection: Feature Selection(特征选择) http://cwiki.apachecn.org/pages/viewpage.action?pageId=10030193 7/20
2017­11­5 该sklearn.feature_selection模块实现特征选择算法。它目前包括单变量筛选方法和递归特征消除算法。 用户指南:有关详细信息,请参阅功能选择部分。 API 文档 ­ Scikit­Learn ­ ApacheCN(Apache中文网) feature_selection.GenericUnivariateSelect([...]) 具有可配置策略的单变量特征选择器 feature_selection.SelectPercentile([...]) 根据最高分数百分位数选择功能 feature_selection.SelectKBest([score_func, k]) 根据k最高分选择功能 feature_selection.SelectFpr([score_func, alpha]) 过滤器:根据FPR测试选择低于alpha的p值 feature_selection.SelectFdr([score_func, alpha]) 过滤器:为估计的错误发现率选择p值 feature_selection.SelectFromModel(estimator) 元变压器,用于根据重要性权重选择特征 feature_selection.SelectFwe([score_func, alpha]) 过滤器:选择对应于同系误差率的p值 feature_selection.RFE(estimator[, ...]) 功能排序与递归功能消除 feature_selection.RFECV(estimator[, step, ...]) 功能排序与递归功能消除和交叉验证选择最佳数量的功能 feature_selection.VarianceThreshold([threshold]) 功能选择器可删除所有低方差特征 feature_selection.chi2(X, y) 计算每个非负特征和类之间的平方统计 feature_selection.f_classif(X, y) 计算提供的样本的方差分析F值 feature_selection.f_regression(X, y[, center]) 单变量线性回归测试 feature_selection.mutual_info_classif(X, y) 估计离散目标变量的互信息 feature_selection.mutual_info_regression(X, y) 估计连续目标变量的互信息      sklearn.gaussian_process: Gaussian Processes(高斯过程) 该sklearn.gaussian_process模块实现了基于高斯过程的回归和分类。 用户指南:有关详细信息,请参阅高斯过程部分。 gaussian_process.GaussianProcessRegressor([...]) 高斯过程回归(GPR) gaussian_process.GaussianProcessClassifier([...]) 基于拉普拉斯逼近的高斯过程分类(GPC) 内核: gaussian_process.kernels.Kernel 所有内核的基类 gaussian_process.kernels.Sum(k1, k2) 两个内核k1和k2的和核k1 + k2 gaussian_process.kernels.Product(k1, k2) 两个内核k1和k2的产品内核k1 * k2 gaussian_process.kernels.Exponentiation(...) 通过给定指数来指定内核 gaussian_process.kernels.ConstantKernel([...]) gaussian_process.kernels.WhiteKernel([...]) 恒定内核 白内核 gaussian_process.kernels.RBF([length_scale, ...]) 径向基函数核(又称平方指数核) gaussian_process.kernels.Matern([...]) Matern 内核. gaussian_process.kernels.RationalQuadratic([...]) 理性二次内核 gaussian_process.kernels.ExpSineSquared([...]) 正弦平方内核 gaussian_process.kernels.DotProduct([...]) Dot­Product内核 http://cwiki.apachecn.org/pages/viewpage.action?pageId=10030193 8/20
分享到:
收藏