跳到主要内容

Pandas 教程

Pandas 是 Python 数据分析和数据处理的核心库,提供了高效、灵活的数据结构,使数据清洗、转换、分析和可视化变得简单直观。

什么是 Pandas?

Pandas 是一个开源的 Python 数据分析库,由 Wes McKinney 于 2008 年开发。它构建在 NumPy 之上,提供了两种主要的数据结构:

  • Series:一维标签化数组
  • DataFrame:二维标签化表格数据结构

为什么选择 Pandas?

核心优势

特性说明
高效底层使用 C 语言优化,处理大规模数据速度快
灵活支持多种数据格式(CSV、Excel、SQL、JSON 等)
功能丰富内置数据清洗、转换、统计分析、时间序列等功能
易用简洁的 API 设计,代码可读性强
生态完善与 NumPy、Matplotlib、Scikit-learn 等库无缝集成

适用场景

  • 数据清洗:处理缺失值、重复值、异常值
  • 数据转换:数据类型转换、格式转换、特征工程
  • 数据分析:分组统计、透视表、时间序列分析
  • 数据可视化:与 Matplotlib、Seaborn 结合进行数据可视化
  • 金融分析:股票数据分析、收益率计算、风险评估

安装 Pandas

使用 pip 安装

pip install pandas

使用 conda 安装

conda install pandas

安装可选依赖

# 读取 Excel 文件
pip install openpyxl xlrd

# 读取 HDF5 文件
pip install tables

# 数据库连接
pip install sqlalchemy

验证安装

import pandas as pd

print(pd.__version__)
# 输出: 2.0.3 (版本号可能不同)

快速入门示例

import pandas as pd
import numpy as np

# 创建 DataFrame
df = pd.DataFrame({
'name': ['张三', '李四', '王五', '赵六'],
'age': [25, 30, 35, 28],
'salary': [8000, 12000, 15000, 10000],
'department': ['技术', '销售', '技术', '人事']
})

# 查看数据
print(df.head())

# 基础统计
print(df.describe())

# 按部门分组统计
dept_stats = df.groupby('department').agg({
'salary': ['mean', 'max', 'min'],
'age': 'mean'
})
print(dept_stats)

教程内容概览

本教程将系统地介绍 Pandas 的各个方面:

基础部分

  1. 数据结构 - Series 和 DataFrame 的创建与操作
  2. 数据读取与保存 - 从各种格式导入导出数据
  3. 数据选择与过滤 - 使用 loc、iloc 进行数据选择
  4. 数据清洗 - 处理缺失值、重复值、异常值

进阶部分

  1. 数据转换 - apply、map、数据类型转换
  2. 数据合并 - merge、join、concat 操作
  3. 分组与聚合 - groupby 和聚合函数
  4. 透视表 - pivot_table 和交叉表

高级部分

  1. 时间序列 - 时间索引、重采样、移动窗口
  2. 高级索引 - MultiIndex 和层次化索引
  3. 性能优化 - 高效数据处理技巧
  4. 实战案例 - 真实数据分析项目

学习路径建议

参考资源

下一步

让我们开始学习 Pandas 数据结构,了解 Series 和 DataFrame 的基本概念和操作!