关于科学数据处理的统计学习教程 校验者: 待校验 翻译者: @Loopy 统计学习 随着科学实验数据集规模的快速增长,机器学习机器学习技术正变得越来越重要。它能处理的问题主要包括:建立连接不同观测值的预测函数,对观测值进行分类,或者分析未标记数据集中的结构。 本教程将探讨统计学习。以统计推断为目标,使用机器学习技术,根据手头的数据来得出结论。 Scikit-learn是一个Python模块,它将科学计算的Python包(NumPy, SciPy, matplotlib)集成到了一起。 机器学习: scikit-learn 中的设置以及预估对象 数据集 预估对象 监督学习:从高维观察预测输出变量 最近邻和维度惩罚 线性模型:从回归到稀疏 支持向量机(SVMs) 模型选择:选择估计量及其参数 分数和交叉验证分数 交叉验证生成器 网格搜索和交叉验证估计量 无监督学习: 寻求数据表示 聚类: 对样本数据进行分组 分解: 将一个信号转换成多个成份并且加载 把它们放在一起 模型管道化 用特征面进行人脸识别 开放性问题: 股票市场结构 寻求帮助 项目邮件列表 机器学习从业者的 Q&A 社区