python Scikit-Learn0.19中文文档.pdf

发布时间：2022-05-31 发布人：admin 分类：说明书资料大小：24.96M 资料格式：pdf 举报版权申诉

cbanyungong-10292319-4744302542904242472.pdf-第1页.png

第1页 / 共304页

cbanyungong-10292319-4744302542904242472.pdf-第2页.png

第2页 / 共304页

cbanyungong-10292319-4744302542904242472.pdf-第3页.png

第3页 / 共304页

cbanyungong-10292319-4744302542904242472.pdf-第4页.png

第4页 / 共304页

cbanyungong-10292319-4744302542904242472.pdf-第5页.png

第5页 / 共304页

cbanyungong-10292319-4744302542904242472.pdf-第6页.png

第6页 / 共304页

cbanyungong-10292319-4744302542904242472.pdf-第7页.png

第7页 / 共304页

cbanyungong-10292319-4744302542904242472.pdf-第8页.png

第8页 / 共304页

API 文档

快速入门

Generalized Linear Models ( 广义线性模型 )

Logistic regression ( 逻辑回归 )

线性和二次判别分析

Support Vector Machines（支持向量机, SVM）

Stochastic Gradient Descent ( 随机梯度下降 )

Nearest Neighbors ( 最近邻 )

Gaussian Processes（高斯过程）

Naive Bayes ( 朴素贝叶斯 )

Ensemble methods（集成方法）

多分类和多标签算法

特征选择

特征提取

半监督

等式回归

概率校准

神经网络模型（监督）

高斯混合模型

流形学习

聚类

双聚类

分解成分中的信号（矩阵分解问题）

协方差估计

新奇和异常检测

密度估计

神经网络模型（无监督）

交叉验证：评估估计器性能

调整估计器的超参数

模型评估：量化预测的质量

模型持久化

管道和FeatureUnion：组合估计

预处理数据

特征提取

无监督降维

随机投影

内核近似

转换预测目标（y）

数据集加载实用程序

计算策略：更大的数据

2017115 API 文档 ScikitLearn ApacheCN（Apache中文网） 20171010 Sklearn 0.19 中文文档校验活动 : http://www.apachecn.org/machinelearning/sklearn/172.html MachineLearning 优酷地址 : http://i.youku.com/apachecn API 文档创建：片刻，最新修改于： 20170711 原文链接 : http://scikitlearn.org/stable/modules/classes.html 译文链接 : http://cwiki.apachecn.org/pages/viewpage.action?pageId=10030193 贡献者 : @ 片刻 @ApacheCN @Apache中文网所有函数和类的确切API，由docstrings给出。API会为所有功能提供预期类型和允许的功能，以及可用于算法的所有参数。这是scikit学习的类和函数参考。有关详细信息，请参阅完整的用户指南，因为类和功能原始规格可能不足以给出其使用的完整指导。 sklearn.base: Base classes and utility functions（基类和效用函数）所有估计量的基类。基础类 base.BaseEstimator scikit学习中所有估计的基础类 base.ClassifierMixin 所有分类器的混合类在scikit学习 base.ClusterMixin 所有聚类估计器的混合类在scikit学习中 base.RegressorMixin 所有回归估计器的混合类在scikit学习 base.TransformerMixin 所有变压器的混合类在scikit学习函数 base.clone(estimator[, safe]) 构造具有相同参数的新估计器 sklearn.cluster: Clustering（聚类）该sklearn.cluster模块收集流行的无监督聚类算法。用户指南：有关详细信息，请参阅“ 集群”部分。类 cluster.AffinityPropagation([damping, ...]) 执行亲和度传播数据聚类 cluster.AgglomerativeClustering([...]) 集聚聚类 cluster.Birch([threshold, branching_factor, ...]) 实现Birch聚类算法 cluster.DBSCAN([eps, min_samples, metric, ...]) 从矢量阵列或距离矩阵执行DBSCAN聚类 cluster.FeatureAgglomeration([n_clusters, ...]) 聚集特征 cluster.KMeans([n_clusters, init, n_init, ...]) K均值聚类 cluster.MiniBatchKMeans([n_clusters, init, ...]) 小批量K均值聚类 cluster.MeanShift([bandwidth, seeds, ...]) 使用平坦内核的平均移位聚类 http://cwiki.apachecn.org/pages/viewpage.action?pageId=10030193 1/20

2017115 API 文档 ScikitLearn ApacheCN（Apache中文网） cluster.SpectralClustering([n_clusters, ...]) 将聚类应用于对规范化拉普拉斯算子的投影函数 cluster.estimate_bandwidth(X[, quantile, ...]) 估计与平均移位算法一起使用的带宽 cluster.k_means(X, n_clusters[, init, ...]) K均值聚类算法 cluster.ward_tree(X[, connectivity, ...]) 基于特征矩阵的区域聚类 cluster.affinity_propagation(S[, ...]) 执行亲和度传播数据聚类 cluster.dbscan(X[, eps, min_samples, ...]) 从矢量阵列或距离矩阵执行DBSCAN聚类 cluster.mean_shift(X[, bandwidth, seeds, ...]) 使用平坦的内核执行数据的平均移位聚类 cluster.spectral_clustering(affinity[, ...]) 将聚类应用于对规范化拉普拉斯算子的投影 sklearn.cluster.bicluster: Biclustering（双聚类）光谱双聚类算法。作者：Kemal Eren许可证：BSD 3条款用户指南：有关详细信息，请参阅Biclustering部分。类 SpectralBiclustering([n_clusters, method, ...]) 光谱双聚类（Kluger，2003） SpectralCoclustering([n_clusters, ...]) 光谱共聚焦算法（Dhillon，2001） sklearn.covariance: Covariance Estimators（协方差估计）该sklearn.covariance模块包括方法和算法，以鲁棒地估计给定一组点的特征的协方差。定义为协方差的倒数的精度矩阵也被估计。协方差估计与高斯图形模型的理论密切相关。用户指南：有关详细信息，请参见协方差估计部分。 covariance.EmpiricalCovariance([...]) 最大似然协方差估计 covariance.EllipticEnvelope([...]) 用于检测高斯分布数据集中异常值的对象 covariance.GraphLasso([alpha, mode, tol, ...]) 具有l1惩罚估计量的稀疏逆协方差估计 covariance.GraphLassoCV([alphas, ...]) 稀疏逆协方差与交叉验证的l1罚款的选择 covariance.LedoitWolf([store_precision, ...]) LedoitWolf估计 covariance.MinCovDet([store_precision, ...]) 最小协方差决定因素（MCD）：协方差的robust估计 covariance.OAS([store_precision, ...]) Oracle近似收缩估计 covariance.ShrunkCovariance([...]) 协变量估计与收缩 covariance.empirical_covariance(X[, ...]) 计算最大似然协方差估计 covariance.ledoit_wolf(X[, assume_centered, ...]) 估计缩小的LedoitWolf协方差矩阵 covariance.shrunk_covariance(emp_cov[, ...]) 计算对角线上收缩的协方差矩阵 covariance.oas(X[, assume_centered]) 使用Oracle近似收缩算法估计协方差 http://cwiki.apachecn.org/pages/viewpage.action?pageId=10030193 2/20

2017115 API 文档 ScikitLearn ApacheCN（Apache中文网） covariance.graph_lasso(emp_cov, alpha[, ...]) l1惩罚协方差估计 sklearn.model_selection: Model Selection（模型选择）用户指南：请参阅交叉验证：评估估计器性能，调整估计器的超参数和学习曲线部分以获取更多详细信息。分割器类 model_selection.KFold([n_splits, shuffle, ...]) K折叠交叉验证器 model_selection.GroupKFold([n_splits]) 具有非重叠组的Kfold迭代器变体 model_selection.StratifiedKFold([n_splits, ...]) 分层K折叠交叉验证器 model_selection.LeaveOneGroupOut() 离开一组交叉验证器 model_selection.LeavePGroupsOut(n_groups) 离开P组交叉验证器 model_selection.LeaveOneOut() model_selection.LeavePOut(p) 一次性交叉验证器 LeavePOut交叉验证器 model_selection.ShuffleSplit([n_splits, ...]) 随机置换交叉验证器 model_selection.GroupShuffleSplit([...]) 随机组交叉验证迭代器 model_selection.StratifiedShuffleSplit([...]) 分层ShuffleSplit交叉验证器 model_selection.PredefinedSplit(test_fold) 预定义分裂交叉验证器 model_selection.TimeSeriesSplit([n_splits]) 时间序列交叉验证器分割函数 model_selection.train_test_split(\*arrays, ...) 将阵列或矩阵拆分成随机列和测试子集 model_selection.check_cv([cv, y, classifier]) 用于构建交叉验证器的输入检查器实用程序超参数优化 model_selection.GridSearchCV(estimator, ...) 对估计器的指定参数值进行详尽搜索 model_selection.RandomizedSearchCV(...[, ...]) 随机搜索超参数 model_selection.ParameterGrid(param_grid) 每个参数的网格具有离散数量的值 model_selection.ParameterSampler(...[, ...]) 发电机对从给定分布采样的参数 model_selection.fit_grid_point(X, y, ...[, ...]) 适合一组参数模型验证 model_selection.cross_val_score(estimator, X) 通过交叉验证评估分数 model_selection.cross_val_predict(estimator, X) 为每个输入数据点生成交叉验证的估计 model_selection.permutation_test_score(...) 评估具有置换的交叉验证分数的意义 model_selection.learning_curve(estimator, X, y) 学习曲线 model_selection.validation_curve(estimator, ...) 验证曲线 http://cwiki.apachecn.org/pages/viewpage.action?pageId=10030193 3/20

API 文档 ScikitLearn ApacheCN（Apache中文网） 2017115 sklearn.datasets: Datasets（数据集）该sklearn.datasets模块包括用于加载数据集的实用程序，包括加载和获取流行参考数据集的方法。它还具有一些人工数据生成器。用户指南：有关详细信息，请参阅数据集加载实用程序部分。装载机 datasets.clear_data_home([data_home]) 删除数据家庭缓存的所有内容 datasets.get_data_home([data_home]) 返回scikitlearn数据目录的路径 datasets.fetch_20newsgroups([data_home, ...]) 加载20个新闻组数据集中的文件名和数据 datasets.fetch_20newsgroups_vectorized([...]) 加载20个新闻组数据集并将其转换为tfidf向量 datasets.load_boston([return_X_y]) 加载并返回波士顿房价数据集（回归） datasets.load_breast_cancer([return_X_y]) 加载并返回乳腺癌威斯康星数据集（分类） datasets.load_diabetes([return_X_y]) 加载并返回糖尿病数据集（回归） datasets.load_digits([n_class, return_X_y]) 加载并返回数字数据集（分类） datasets.load_files(container_path[, ...]) 加载具有子文件夹名称类别的文本文件 datasets.load_iris([return_X_y]) 加载并返回虹膜数据集（分类） datasets.fetch_lfw_pairs([subset, ...]) 在野外（LFW）对数据集中的标记面的装载程序 datasets.fetch_lfw_people([data_home, ...]) 野外（LFW）人物数据集中的标记面的装载程序 datasets.load_linnerud([return_X_y]) 加载并返回linnerud数据集（多元回归） datasets.mldata_filename(dataname) 转换mldata.org文件名中的数据集的原始名称 datasets.fetch_mldata(dataname[, ...]) 获取mldata.org数据集 datasets.fetch_olivetti_faces([data_home, ...]) Olivetti的装载机面向AT＆T的数据集 datasets.fetch_california_housing([...]) 来自StatLib的加州住房数据集的装载机 datasets.fetch_covtype([data_home, ...]) 加载封面类型数据集，必要时下载 datasets.fetch_kddcup99([subset, shuffle, ...]) 加载并返回kddcup 99数据集（分类） datasets.fetch_rcv1([data_home, subset, ...]) 加载RCV1 multilabel数据集，必要时下载 datasets.load_mlcomp(name_or_id[, set_, ...]) 加载从http://mlcomp.org下载的数据集 datasets.load_sample_image(image_name) 加载单个样本图像的numpy数组 datasets.load_sample_images() 加载样品图像进行图像处理 datasets.fetch_species_distributions([...]) 来自Phillips等的物种分布数据集的装载机 datasets.load_svmlight_file(f[, n_features, ...]) 将svmlight / libsvm格式的数据集加载到稀疏的CSR矩阵中 datasets.load_svmlight_files(files[, ...]) 从SVMlight格式的多个文件加载数据集 datasets.dump_svmlight_file(X, y, f[, ...]) 以svmlight / libsvm文件格式转储数据集样本生成器 datasets.make_blobs([n_samples, n_features, ...]) 生成用于聚类的各向同性高斯斑点 http://cwiki.apachecn.org/pages/viewpage.action?pageId=10030193 4/20

2017115 API 文档 ScikitLearn ApacheCN（Apache中文网） datasets.make_classification([n_samples, ...]) 生成随机n类分类问题 datasets.make_circles([n_samples, shuffle, ...]) 在2d中制作一个包含较小圆的大圆 datasets.make_friedman1([n_samples, ...]) 产生“Friedman＃1”回归问题 datasets.make_friedman2([n_samples, noise, ...]) 产生“Friedman＃2”回归问题 datasets.make_friedman3([n_samples, noise, ...]) 产生“Friedman＃3”回归问题 datasets.make_gaussian_quantiles([mean, ...]) 通过分位数生成各向同性高斯和标签样本 datasets.make_hastie_10_2([n_samples, ...]) 生成Hastie等人使用的二进制分类数据 datasets.make_low_rank_matrix([n_samples, ...]) 生成具有钟形奇异值的大多数低阶矩阵 datasets.make_moons([n_samples, shuffle, ...]) 使两个交错半圈 datasets.make_multilabel_classification([...]) 产生一个随机多标签分类问题 datasets.make_regression([n_samples, ...]) 产生随机回归问题 datasets.make_s_curve([n_samples, noise, ...]) 生成S曲线数据集 datasets.make_sparse_coded_signal(n_samples, ...) 生成信号作为字典元素的稀疏组合 datasets.make_sparse_spd_matrix([dim, ...]) 产生一个稀疏的对称确定正矩阵 datasets.make_sparse_uncorrelated([...]) 生成稀疏不相关设计的随机回归问题 datasets.make_spd_matrix(n_dim[, random_state]) 产生一个随机对称，正定矩阵 datasets.make_swiss_roll([n_samples, noise, ...]) 生成瑞士卷数据集 datasets.make_biclusters(shape, n_clusters) 生成一个具有恒定块对角线结构的阵列，用于二聚体 datasets.make_checkerboard(shape, n_clusters) 生成具有块棋盘结构的数组，用于双向聚集 sklearn.decomposition: Matrix Decomposition（矩阵分解）该sklearn.decomposition模块包括矩阵分解算法，其中包括PCA，NMF或ICA。该模块的大多数算法可以被认为是降维技术。用户指南：有关详细信息，请参阅组件中的分解信号（矩阵分解问题）部分。 decomposition.PCA([n_components, copy, ...]) 主成分分析（PCA） decomposition.IncrementalPCA([n_components, ...]) 增量主成分分析（IPCA） decomposition.ProjectedGradientNMF(\*args, ...) 非负矩阵因子分解（NMF） decomposition.KernelPCA([n_components, ...]) 内核主成分分析（KPCA） decomposition.FactorAnalysis([n_components, ...]) 因子分析（FA） decomposition.FastICA([n_components, ...]) FastICA：独立分量分析的快速算法。 decomposition.TruncatedSVD([n_components, ...]) 使用截断的SVD（也称为LSA）进行尺寸缩小 decomposition.NMF([n_components, init, ...]) 非负矩阵因子分解（NMF） decomposition.SparsePCA([n_components, ...]) 稀疏主成分分析（SparsePCA） decomposition.MiniBatchSparsePCA([...]) 小批量稀疏主成分分析 decomposition.SparseCoder(dictionary[, ...]) decomposition.DictionaryLearning([...]) 稀疏编码词典学习 http://cwiki.apachecn.org/pages/viewpage.action?pageId=10030193 5/20

2017115 API 文档 ScikitLearn ApacheCN（Apache中文网） decomposition.MiniBatchDictionaryLearning([...]) 小批量字典学习 decomposition.LatentDirichletAllocation([...]) 潜在的Dirichlet分配与在线变分贝叶斯算法 decomposition.fastica(X[, n_components, ...]) 执行快速独立成分分析 decomposition.dict_learning(X, n_components, ...) 解决词典学习矩阵分解问题 decomposition.dict_learning_online(X[, ...]) 在线解决词典学习矩阵分解问题 decomposition.sparse_encode(X, dictionary[, ...]) 稀疏编码 sklearn.dummy: Dummy estimators（虚拟估计）用户指南：有关详细信息，请参阅模型评估：量化预测部分的质量部分。 dummy.DummyClassifier([strategy, ...]) DummyClassifier是使用简单规则进行预测的分类器 dummy.DummyRegressor([strategy, constant, ...]) DummyRegressor是使用简单规则进行预测的倒数 sklearn.ensemble: Ensemble Methods（集成方法）该sklearn.ensemble模块包括用于分类，回归和异常检测的基于集成的方法。用户指南：有关详细信息，请参阅“ 集成方法”部分。 ensemble.AdaBoostClassifier([...]) 一个AdaBoost分类器 ensemble.AdaBoostRegressor([base_estimator, ...]) AdaBoost回归器 ensemble.BaggingClassifier([base_estimator, ...]) Bagging分类器 ensemble.BaggingRegressor([base_estimator, ...]) Bagging回归器 ensemble.ExtraTreesClassifier([...]) 一个额外的树分类器 ensemble.ExtraTreesRegressor([n_estimators, ...]) 一个额外的树回归器 ensemble.GradientBoostingClassifier([loss, ...]) 梯度提升分类 ensemble.GradientBoostingRegressor([loss, ...]) 渐变提升回归 ensemble.IsolationForest([n_estimators, ...]) 隔离森林算法 ensemble.RandomForestClassifier([...]) 随机森林分类器 ensemble.RandomTreesEmbedding([...]) 一个完全随机的树的集成 ensemble.RandomForestRegressor([...]) 随机森林回归器 ensemble.VotingClassifier(estimators[, ...]) 软投票/多数规则分类器部分依赖树组合的部分依赖图 ensemble.partial_dependence.partial_dependence(...) 部分依赖target_variables ensemble.partial_dependence.plot_partial_dependence(...) 部分依赖图features http://cwiki.apachecn.org/pages/viewpage.action?pageId=10030193 6/20

2017115 sklearn.exceptions: Exceptions and warnings（异常和警告）该sklearn.exceptions模块包括在scikit学习中使用的所有自定义警告和错误类。 API 文档 ScikitLearn ApacheCN（Apache中文网） exceptions.NotFittedError 如果在拟合前使用估计器，则提升异常类 exceptions.ChangedBehaviorWarning 用于通知用户任何行为变化的警告类 exceptions.ConvergenceWarning 捕捉收敛问题的自定义警告 exceptions.DataConversionWarning 警告用于通知代码中发生的隐式数据转换 exceptions.DataDimensionalityWarning 自定义警告，以通知数据维度的潜在问题 exceptions.EfficiencyWarning 用于通知用户效率低下的警告 exceptions.FitFailedWarning 如果在拟合估计器时出现错误，则使用警告类 exceptions.NonBLASDotWarning 点操作不使用BLAS时使用的警告 exceptions.UndefinedMetricWarning 度量无效时使用的警告 sklearn.feature_extraction: Feature Extraction（特征提取）该sklearn.feature_extraction模块处理原始数据的特征提取。它目前包括从文本和图像中提取特征的方法。用户指南：有关详细信息，请参阅特征提取部分。 feature_extraction.DictVectorizer([dtype, ...]) 将特征值映射列表转换为向量 feature_extraction.FeatureHasher([...]) 实现哈希功能，又称哈希技巧从图像该sklearn.feature_extraction.image子模块收集实用程序从图像中提取特征。 feature_extraction.image.img_to_graph(img[, ...]) 像素到像素梯度连接的图形 feature_extraction.image.grid_to_graph(n_x, n_y) 像素到像素连接的图形 feature_extraction.image.extract_patches_2d(...) 将2D图像重新整理成一组补丁 feature_extraction.image.reconstruct_from_patches_2d(...) 从所有补丁重构图像 feature_extraction.image.PatchExtractor([...]) 从图像集中提取补丁从文本该sklearn.feature_extraction.text子模块收集实用程序从文本文档建立特征向量。 feature_extraction.text.CountVectorizer([...]) 将文本文档的集合转换为令牌计数矩阵 feature_extraction.text.HashingVectorizer([...]) 将文本文档的集合转换为令牌发生的矩阵 feature_extraction.text.TfidfTransformer([...]) 将计数矩阵转换为标准化的tf或tfidf表示 feature_extraction.text.TfidfVectorizer([...]) 将原始文档的集合转换为TFIDF功能的矩阵 sklearn.feature_selection: Feature Selection（特征选择） http://cwiki.apachecn.org/pages/viewpage.action?pageId=10030193 7/20

2017115 该sklearn.feature_selection模块实现特征选择算法。它目前包括单变量筛选方法和递归特征消除算法。用户指南：有关详细信息，请参阅功能选择部分。 API 文档 ScikitLearn ApacheCN（Apache中文网） feature_selection.GenericUnivariateSelect([...]) 具有可配置策略的单变量特征选择器 feature_selection.SelectPercentile([...]) 根据最高分数百分位数选择功能 feature_selection.SelectKBest([score_func, k]) 根据k最高分选择功能 feature_selection.SelectFpr([score_func, alpha]) 过滤器：根据FPR测试选择低于alpha的p值 feature_selection.SelectFdr([score_func, alpha]) 过滤器：为估计的错误发现率选择p值 feature_selection.SelectFromModel(estimator) 元变压器，用于根据重要性权重选择特征 feature_selection.SelectFwe([score_func, alpha]) 过滤器：选择对应于同系误差率的p值 feature_selection.RFE(estimator[, ...]) 功能排序与递归功能消除 feature_selection.RFECV(estimator[, step, ...]) 功能排序与递归功能消除和交叉验证选择最佳数量的功能 feature_selection.VarianceThreshold([threshold]) 功能选择器可删除所有低方差特征 feature_selection.chi2(X, y) 计算每个非负特征和类之间的平方统计 feature_selection.f_classif(X, y) 计算提供的样本的方差分析F值 feature_selection.f_regression(X, y[, center]) 单变量线性回归测试 feature_selection.mutual_info_classif(X, y) 估计离散目标变量的互信息 feature_selection.mutual_info_regression(X, y) 估计连续目标变量的互信息 sklearn.gaussian_process: Gaussian Processes（高斯过程）该sklearn.gaussian_process模块实现了基于高斯过程的回归和分类。用户指南：有关详细信息，请参阅高斯过程部分。 gaussian_process.GaussianProcessRegressor([...]) 高斯过程回归（GPR） gaussian_process.GaussianProcessClassifier([...]) 基于拉普拉斯逼近的高斯过程分类（GPC）内核: gaussian_process.kernels.Kernel 所有内核的基类 gaussian_process.kernels.Sum(k1, k2) 两个内核k1和k2的和核k1 + k2 gaussian_process.kernels.Product(k1, k2) 两个内核k1和k2的产品内核k1 * k2 gaussian_process.kernels.Exponentiation(...) 通过给定指数来指定内核 gaussian_process.kernels.ConstantKernel([...]) gaussian_process.kernels.WhiteKernel([...]) 恒定内核白内核 gaussian_process.kernels.RBF([length_scale, ...]) 径向基函数核（又称平方指数核） gaussian_process.kernels.Matern([...]) Matern 内核. gaussian_process.kernels.RationalQuadratic([...]) 理性二次内核 gaussian_process.kernels.ExpSineSquared([...]) 正弦平方内核 gaussian_process.kernels.DotProduct([...]) DotProduct内核 http://cwiki.apachecn.org/pages/viewpage.action?pageId=10030193 8/20

分享到：

赞收藏

资料库

python Scikit-Learn0.19中文文档.pdf

相关推荐

人工智能

热门标签

最新资料