Scikit-learn 环境配置
本章介绍如何配置 scikit-learn 开发环境。
安装 Scikit-learn
使用 pip
# 创建虚拟环境(推荐)
python -m venv sklearn-env
# 激活环境 (Linux/Mac)
source sklearn-env/bin/activate
# 激活环境 (Windows)
sklearn-env\Scripts\activate
# 安装 scikit-learn
pip install -U scikit-learn
使用 conda
conda install scikit-learn
依赖项
Scikit-learn 依赖以下库:
| 依赖 | 最低版本 | 用途 |
|---|---|---|
| NumPy | 1.24.1 | 数值计算 |
| SciPy | 1.10.0 | 科学计算 |
| joblib | 1.3.0 | 并行计算 |
| threadpoolctl | 3.2.0 | 线程控制 |
可选依赖(用于绘图和分析):
- Matplotlib >= 3.6.1
- pandas >= 1.5.0
- seaborn >= 0.12.0
验证安装
import sklearn
import numpy as np
import scipy as sp
# 打印版本
print(f"scikit-learn: {sklearn.__version__}")
print(f"NumPy: {np.__version__}")
print(f"SciPy: {sp.__version__}")
# 测试基本功能
from sklearn.datasets import load_iris
from sklearn.tree import DecisionTreeClassifier
iris = load_iris()
clf = DecisionTreeClassifier()
clf.fit(iris.data, iris.target)
print(f"测试通过!准确率: {clf.score(iris.data, iris.target):.2f}")
常用数据集
内置数据集
from sklearn.datasets import load_iris, load_digits, load_diabetes
# 分类数据集
iris = load_iris() # 鸢尾花数据集
digits = load_digits() # 手写数字数据集
# 回归数据集
diabetes = load_diabetes() # 糖尿病数据集
生成数据集
from sklearn.datasets import make_classification, make_regression
# 分类数据
X, y = make_classification(
n_samples=1000,
n_features=20,
n_informative=15,
n_classes=2,
random_state=42
)
# 回归数据
X, y = make_regression(
n_samples=1000,
n_features=20,
n_informative=15,
noise=10,
random_state=42
)
开发工具推荐
Jupyter Notebook
pip install jupyter notebook
jupyter notebook
VS Code
安装 Python 扩展后,配置:
{
"python.defaultInterpreterPath": "path/to/sklearn-env/bin/python"
}