Pandas 教程
Pandas 是 Python 数据分析和数据处理的核心库,提供了高效、灵活的数据结构,使数据清洗、转换、分析和可视化变得简单直观。
什么是 Pandas?
Pandas 是一个开源的 Python 数据分析库,由 Wes McKinney 于 2008 年开发。它构建在 NumPy 之上,提供了两种主要的数据结构:
- Series:一维标签化数组
- DataFrame:二维标签化表格数据结构
为什么选择 Pandas?
核心优势
| 特性 | 说明 |
|---|---|
| 高效 | 底层使用 C 语言优化,处理大规模数据速度快 |
| 灵活 | 支持多种数据格式(CSV、Excel、SQL、JSON 等) |
| 功能丰富 | 内置数据清洗、转换、统计分析、时间序列等功能 |
| 易用 | 简洁的 API 设计,代码可读性强 |
| 生态完善 | 与 NumPy、Matplotlib、Scikit-learn 等库无缝集成 |
适用场景
- 数据清洗:处理缺失值、重复值、异常值
- 数据转换:数据类型转换、格式转换、特征工程
- 数据分析:分组统计、透视表、时间序列分析
- 数据可视化:与 Matplotlib、Seaborn 结合进行数据可视化
- 金融分析:股票数据分析、收益率计算、风险评估
安装 Pandas
使用 pip 安装
pip install pandas
使用 conda 安装
conda install pandas
安装可选依赖
# 读取 Excel 文件
pip install openpyxl xlrd
# 读取 HDF5 文件
pip install tables
# 数据库连接
pip install sqlalchemy
验证安装
import pandas as pd
print(pd.__version__)
# 输出: 2.0.3 (版本号可能不同)
快速入门示例
import pandas as pd
import numpy as np
# 创建 DataFrame
df = pd.DataFrame({
'name': ['张三', '李四', '王五', '赵六'],
'age': [25, 30, 35, 28],
'salary': [8000, 12000, 15000, 10000],
'department': ['技术', '销售', '技术', '人事']
})
# 查看数据
print(df.head())
# 基础统计
print(df.describe())
# 按部门分组统计
dept_stats = df.groupby('department').agg({
'salary': ['mean', 'max', 'min'],
'age': 'mean'
})
print(dept_stats)
教程内容概览
本教程将系统地介绍 Pandas 的各个方面:
基础部分
- 数据结构 - Series 和 DataFrame 的创建与操作
- 数据读取与保存 - 从各种格式导入导出数据
- 数据选择与过滤 - 使用 loc、iloc 进行数据选择
- 数据清洗 - 处理缺失值、重复值、异常值
进阶部分
- 数据转换 - apply、map、数据类型转换
- 数据合并 - merge、join、concat 操作
- 分组与聚合 - groupby 和聚合函数
- 透视表 - pivot_table 和交叉表
高级部分
- 时间序列 - 时间索引、重采样、移动窗口
- 高级索引 - MultiIndex 和层次化索引
- 性能优化 - 高效数据处理技巧
- 实战案例 - 真实数据分析项目
学习路径建议
参考资源
下一步
让我们开始学习 Pandas 数据结构,了解 Series 和 DataFrame 的基本概念和操作!