Pandas 教程

Pandas 是 Python 数据分析和数据处理的核心库，提供了高效、灵活的数据结构，使数据清洗、转换、分析和可视化变得简单直观。

什么是 Pandas？

Pandas 是一个开源的 Python 数据分析库，由 Wes McKinney 于 2008 年开发。它构建在 NumPy 之上，提供了两种主要的数据结构：

Series：一维标签化数组
DataFrame：二维标签化表格数据结构

为什么选择 Pandas？

核心优势

特性	说明
高效	底层使用 C 语言优化，处理大规模数据速度快
灵活	支持多种数据格式（CSV、Excel、SQL、JSON 等）
功能丰富	内置数据清洗、转换、统计分析、时间序列等功能
易用	简洁的 API 设计，代码可读性强
生态完善	与 NumPy、Matplotlib、Scikit-learn 等库无缝集成

适用场景

数据清洗：处理缺失值、重复值、异常值
数据转换：数据类型转换、格式转换、特征工程
数据分析：分组统计、透视表、时间序列分析
数据可视化：与 Matplotlib、Seaborn 结合进行数据可视化
金融分析：股票数据分析、收益率计算、风险评估

安装 Pandas

使用 pip 安装

pip install pandas

使用 conda 安装

conda install pandas

安装可选依赖

# 读取 Excel 文件
pip install openpyxl xlrd

# 读取 HDF5 文件
pip install tables

# 数据库连接
pip install sqlalchemy

验证安装

import pandas as pd

print(pd.__version__)
# 输出: 2.0.3 (版本号可能不同)

快速入门示例

import pandas as pd
import numpy as np

# 创建 DataFrame
df = pd.DataFrame({
    'name': ['张三', '李四', '王五', '赵六'],
    'age': [25, 30, 35, 28],
    'salary': [8000, 12000, 15000, 10000],
    'department': ['技术', '销售', '技术', '人事']
})

# 查看数据
print(df.head())

# 基础统计
print(df.describe())

# 按部门分组统计
dept_stats = df.groupby('department').agg({
    'salary': ['mean', 'max', 'min'],
    'age': 'mean'
})
print(dept_stats)

教程内容概览

本教程将系统地介绍 Pandas 的各个方面：

基础部分

数据结构 - Series 和 DataFrame 的创建与操作
数据读取与保存 - 从各种格式导入导出数据
数据选择与过滤 - 使用 loc、iloc 进行数据选择
数据清洗 - 处理缺失值、重复值、异常值

进阶部分

数据转换 - apply、map、数据类型转换
数据合并 - merge、join、concat 操作
分组与聚合 - groupby 和聚合函数
透视表 - pivot_table 和交叉表

高级部分

时间序列 - 时间索引、重采样、移动窗口
高级索引 - MultiIndex 和层次化索引
性能优化 - 高效数据处理技巧
实战案例 - 真实数据分析项目

学习路径建议

参考资源

下一步

让我们开始学习 Pandas 数据结构，了解 Series 和 DataFrame 的基本概念和操作！

什么是 Pandas？​

为什么选择 Pandas？​

核心优势​

适用场景​

安装 Pandas​

使用 pip 安装​

使用 conda 安装​

安装可选依赖​

验证安装​

快速入门示例​

教程内容概览​

基础部分​

进阶部分​

高级部分​

学习路径建议​

参考资源​

下一步​