Pandas遍歷DataFrame每一行的多種方法

更新時(shí)間：2025年09月15日 08:51:38 作者：袁袁袁袁滿

Pandas遍歷DataFrame有多種方法：iterrows(返回Series,適合需索引)、itertuples(命名元組,高性能)、apply(向量化計(jì)算)、df.values(最快但無列名),最佳實(shí)踐是優(yōu)先使用向量化操作,避免逐行遍歷,大數(shù)據(jù)推薦dask或swifter加速,下面由小編給大家詳細(xì)說說

1. iterrows() - 返回索引和行數(shù)據(jù)（Series）
2. itertuples() - 返回命名元組（更快）
3. apply() - 對(duì)每行應(yīng)用函數(shù)（推薦）
4. items() - 遍歷列（而非行）
5. 直接轉(zhuǎn)換為 NumPy 數(shù)組（最快）
6. 使用 loc 或 iloc 訪問特定行
性能對(duì)比
最佳實(shí)踐

示例：修改 DataFrame 的某一列

總結(jié)

在 Pandas 中，遍歷 DataFrame 的每一行有多種方法，每種方法適用于不同的場景。以下是常見的幾種方式及其適用場景：

1. iterrows() - 返回索引和行數(shù)據(jù)（Series）

import pandas as pd

df = pd.DataFrame({'A': [1, 2, 3], 'B': ['x', 'y', 'z']})

for index, row in df.iterrows():
    print(f"索引: {index}, A列值: {row['A']}, B列值: {row['B']}")

特點(diǎn)：

返回 (index, Series) 對(duì)，row 是 Pandas Series 對(duì)象。
缺點(diǎn)：性能較差（因?yàn)?row 是 Series，不是原生 Python 類型）。
適用場景：需要訪問行索引和少量數(shù)據(jù)時(shí)。

2. itertuples() - 返回命名元組（更快）

for row in df.itertuples():
    print(f"索引: {row.Index}, A列值: {row.A}, B列值: {row.B}")

特點(diǎn)：

返回 namedtuple，訪問列名更方便（如 row.A 而不是 row['A']）。
優(yōu)點(diǎn)：比 iterrows() 快很多（因?yàn)橹苯硬僮髟M）。
適用場景：需要高性能遍歷，且不需要修改數(shù)據(jù)。

3. apply() - 對(duì)每行應(yīng)用函數(shù)（推薦）

def process_row(row):
    return f"A={row['A']}, B={row['B']}"

df.apply(process_row, axis=1)  # axis=1 表示按行應(yīng)用

特點(diǎn)：

使用向量化操作，比 iterrows() / itertuples() 更快。
適用場景：需要對(duì)每行進(jìn)行計(jì)算并返回新數(shù)據(jù)。

4. items() - 遍歷列（而非行）

for col_name, col_data in df.items():
    print(f"列名: {col_name}")
    print(f"列數(shù)據(jù):\n{col_data}")

特點(diǎn)：

遍歷的是列而不是行。
適用場景：需要按列處理數(shù)據(jù)時(shí)。

5. 直接轉(zhuǎn)換為 NumPy 數(shù)組（最快）

for row in df.values:  # 或 df.to_numpy()
    print(f"A={row[0]}, B={row[1]}")  # 按列索引訪問

特點(diǎn)：

直接操作 NumPy 數(shù)組，速度最快。
缺點(diǎn)：丟失列名，只能按索引訪問。
適用場景：需要極致性能，且不需要列名。

6. 使用 loc 或 iloc 訪問特定行

for i in range(len(df)):
    print(df.loc[i, 'A'])  # 按標(biāo)簽訪問
    print(df.iloc[i, 0])   # 按位置訪問

特點(diǎn)：

適用于隨機(jī)訪問特定行。
缺點(diǎn)：性能較差（每次調(diào)用 loc / iloc 都有開銷）。

性能對(duì)比

方法	速度	適用場景
itertuples()	????	高性能遍歷
apply()	???	向量化操作
iterrows()	?	需要索引時(shí)
df.values	?????	極致性能（無列名）
loc / iloc	?	隨機(jī)訪問

最佳實(shí)踐

盡量避免逐行遍歷，優(yōu)先使用 Pandas 的向量化操作（如 df['A'] * 2）。
如果必須遍歷：
- 需要列名 → itertuples()
- 需要極致性能 → df.values 或 to_numpy()
- 需要修改數(shù)據(jù) → iterrows() 或 apply()
大數(shù)據(jù)處理：考慮 dask 或 swifter 加速。

示例：修改 DataFrame 的某一列

# 方法1：使用 iterrows()（不推薦，慢）
for index, row in df.iterrows():
    df.loc[index, 'B'] = row['B'] + '_modified'

# 方法2：使用 apply()（推薦）
df['B'] = df['B'].apply(lambda x: x + '_modified')

# 方法3：向量化操作（最快）
df['B'] = df['B'] + '_modified'

總結(jié)

需求	推薦方法
高性能遍歷	itertuples()
需要修改數(shù)據(jù)	apply() 或 iterrows()
極致性能	df.values
向量化計(jì)算	直接使用 Pandas/NumPy 操作

盡量避免逐行遍歷，Pandas 的優(yōu)勢在于 向量化計(jì)算！

到此這篇關(guān)于Pandas遍歷DataFrame每一行的多種方法的文章就介紹到這了,更多相關(guān)Pandas遍歷DataFrame每一行內(nèi)容請(qǐng)搜索腳本之家以前的文章或繼續(xù)瀏覽下面的相關(guān)文章希望大家以后多多支持腳本之家！

您可能感興趣的文章:

国产无遮挡裸体免费直播视频,久久精品国产蜜臀av,动漫在线视频一区二区,欧亚日韩一区二区三区,久艹在线免费视频,国产精品美女网站免费,正在播放 97超级视频在线观看,斗破苍穹年番在线观看免费,51最新乱码中文字幕

Pandas遍歷DataFrame每一行的多種方法

目錄

1. iterrows() - 返回索引和行數(shù)據(jù)（Series）

2. itertuples() - 返回命名元組（更快）

3. apply() - 對(duì)每行應(yīng)用函數(shù)（推薦）

4. items() - 遍歷列（而非行）

5. 直接轉(zhuǎn)換為 NumPy 數(shù)組（最快）

6. 使用 loc 或 iloc 訪問特定行

性能對(duì)比

最佳實(shí)踐

示例：修改 DataFrame 的某一列

總結(jié)

相關(guān)文章

最新評(píng)論

大家感興趣的內(nèi)容

最近更新的內(nèi)容

常用在線小工具

国产无遮挡裸体免费直播视频,久久精品国产蜜臀av,动漫在线视频一区二区,欧亚日韩一区二区三区,久艹在线 免费视频,国产精品美女网站免费,正在播放 97超级视频在线观看,斗破苍穹年番在线观看免费,51最新乱码中文字幕

Pandas遍歷DataFrame每一行的多種方法

目錄

1. iterrows() - 返回索引和行數(shù)據(jù)（Series）

2. itertuples() - 返回命名元組（更快）

3. apply() - 對(duì)每行應(yīng)用函數(shù)（推薦）

4. items() - 遍歷列（而非行）

5. 直接轉(zhuǎn)換為 NumPy 數(shù)組（最快）

6. 使用 loc 或 iloc 訪問特定行

性能對(duì)比

最佳實(shí)踐

示例：修改 DataFrame 的某一列

總結(jié)

相關(guān)文章

最新評(píng)論

大家感興趣的內(nèi)容

最近更新的內(nèi)容

常用在線小工具

国产无遮挡裸体免费直播视频,久久精品国产蜜臀av,动漫在线视频一区二区,欧亚日韩一区二区三区,久艹在线免费视频,国产精品美女网站免费,正在播放 97超级视频在线观看,斗破苍穹年番在线观看免费,51最新乱码中文字幕