跳到主要内容

Scikit-learn 环境配置

本章介绍如何配置 scikit-learn 开发环境。

安装 Scikit-learn

使用 pip

# 创建虚拟环境(推荐)
python -m venv sklearn-env

# 激活环境 (Linux/Mac)
source sklearn-env/bin/activate

# 激活环境 (Windows)
sklearn-env\Scripts\activate

# 安装 scikit-learn
pip install -U scikit-learn

使用 conda

conda install scikit-learn

依赖项

Scikit-learn 依赖以下库:

依赖最低版本用途
NumPy1.24.1数值计算
SciPy1.10.0科学计算
joblib1.3.0并行计算
threadpoolctl3.2.0线程控制

可选依赖(用于绘图和分析):

  • Matplotlib >= 3.6.1
  • pandas >= 1.5.0
  • seaborn >= 0.12.0

验证安装

import sklearn
import numpy as np
import scipy as sp

# 打印版本
print(f"scikit-learn: {sklearn.__version__}")
print(f"NumPy: {np.__version__}")
print(f"SciPy: {sp.__version__}")

# 测试基本功能
from sklearn.datasets import load_iris
from sklearn.tree import DecisionTreeClassifier

iris = load_iris()
clf = DecisionTreeClassifier()
clf.fit(iris.data, iris.target)
print(f"测试通过!准确率: {clf.score(iris.data, iris.target):.2f}")

常用数据集

内置数据集

from sklearn.datasets import load_iris, load_digits, load_diabetes

# 分类数据集
iris = load_iris() # 鸢尾花数据集
digits = load_digits() # 手写数字数据集

# 回归数据集
diabetes = load_diabetes() # 糖尿病数据集

生成数据集

from sklearn.datasets import make_classification, make_regression

# 分类数据
X, y = make_classification(
n_samples=1000,
n_features=20,
n_informative=15,
n_classes=2,
random_state=42
)

# 回归数据
X, y = make_regression(
n_samples=1000,
n_features=20,
n_informative=15,
noise=10,
random_state=42
)

开发工具推荐

Jupyter Notebook

pip install jupyter notebook
jupyter notebook

VS Code

安装 Python 扩展后,配置:

{
"python.defaultInterpreterPath": "path/to/sklearn-env/bin/python"
}

进一步学习