pandas DataFrame是二维的,所以,它既有列索引,又有行索引
上一篇里只介绍了列索引:
import pandas as pd df = pd.DataFrame({'A': [0, 1, 2], 'B': [3, 4, 5]}) print df # 结果: A B 0 0 3 1 1 4 2 2 5
行索引自动生成了 0,1,2
如果要自己指定行索引和列索引,可以使用 index 和 column 参数:
这个数据是5个车站10天内的客流数据:
ridership_df = pd.DataFrame( data=[[ 0, 0, 2, 5, 0], [1478, 3877, 3674, 2328, 2539], [1613, 4088, 3991, 6461, 2691], [1560, 3392, 3826, 4787, 2613], [1608, 4802, 3932, 4477, 2705], [1576, 3933, 3909, 4979, 2685], [ 95, 229, 255, 496, 201], [ 2, 0, 1, 27, 0], [1438, 3785, 3589, 4174, 2215], [1342, 4043, 4009, 4665, 3033]], index=['05-01-11', '05-02-11', '05-03-11', '05-04-11', '05-05-11', '05-06-11', '05-07-11', '05-08-11', '05-09-11', '05-10-11'], columns=['R003', 'R004', 'R005', 'R006', 'R007'] )
data 参数为一个numpy二维数组, index 参数为行索引, column 参数为列索引
生成的数据以表格形式显示:
R003 R004 R005 R006 R007 05-01-11 0 0 2 5 0 05-02-11 1478 3877 3674 2328 2539 05-03-11 1613 4088 3991 6461 2691 05-04-11 1560 3392 3826 4787 2613 05-05-11 1608 4802 3932 4477 2705 05-06-11 1576 3933 3909 4979 2685 05-07-11 95 229 255 496 201 05-08-11 2 0 1 27 0 05-09-11 1438 3785 3589 4174 2215 05-10-11 1342 4043 4009 4665 3033
下面说下如何获取DataFrame里的值:
1.获取某一列: 直接 ['key']
print(ridership_df['R003']) # 结果: 05-01-11 0 05-02-11 1478 05-03-11 1613 05-04-11 1560 05-05-11 1608 05-06-11 1576 05-07-11 95 05-08-11 2 05-09-11 1438 05-10-11 1342 Name: R003, dtype: int64
2.获取某一行: .loc['key']
print(ridership_df.loc['05-01-11']) # 或者 print(ridership_df.iloc[0]) # 结果: R003 0 R004 0 R005 2 R006 5 R007 0 Name: 05-01-11, dtype: int64
3.获取某一行某一列的某个值:
print(ridership_df.loc['05-05-11','R003']) # 或者 print(ridership_df.iloc[4,0]) # 结果: 1608
4.获取原始的numpy二维数组:
print(ridership_df.values) # 结果: [[ 0 0 2 5 0] [1478 3877 3674 2328 2539] [1613 4088 3991 6461 2691] [1560 3392 3826 4787 2613] [1608 4802 3932 4477 2705] [1576 3933 3909 4979 2685] [ 95 229 255 496 201] [ 2 0 1 27 0] [1438 3785 3589 4174 2215] [1342 4043 4009 4665 3033]]
*注意在这过程中,数据格式如果不一致,会发生转换.
一个综合栗子:
从 ridership_df 找出第一天里客流量最多的车站,然后返回这个车站的日平均客流,以及返回所有车站的平均日客流,作为对比:
def mean_riders_for_max_station(ridership): max_index = ridership.iloc[0].argmax() mean_for_max = ridership[max_index].mean() overall_mean = ridership.values.mean() return (overall_mean, mean_for_max) print mean_riders_for_max_station(ridership_df) # 结果: (2342.6, 3239.9)
以上就是本文的全部内容,希望对大家的学习有所帮助,也希望大家多多支持。
免责声明:本站文章均来自网站采集或用户投稿,网站不提供任何软件下载或自行开发的软件!
如有用户或公司发现本站内容信息存在侵权行为,请邮件告知! 858582#qq.com
白云城资源网 Copyright www.dyhadc.com
暂无“pandas DataFrame 行列索引及值的获取的方法”评论...
RTX 5090要首发 性能要翻倍!三星展示GDDR7显存
三星在GTC上展示了专为下一代游戏GPU设计的GDDR7内存。
首次推出的GDDR7内存模块密度为16GB,每个模块容量为2GB。其速度预设为32 Gbps(PAM3),但也可以降至28 Gbps,以提高产量和初始阶段的整体性能和成本效益。
据三星表示,GDDR7内存的能效将提高20%,同时工作电压仅为1.1V,低于标准的1.2V。通过采用更新的封装材料和优化的电路设计,使得在高速运行时的发热量降低,GDDR7的热阻比GDDR6降低了70%。
更新日志
2025年01月11日
2025年01月11日
- 小骆驼-《草原狼2(蓝光CD)》[原抓WAV+CUE]
- 群星《欢迎来到我身边 电影原声专辑》[320K/MP3][105.02MB]
- 群星《欢迎来到我身边 电影原声专辑》[FLAC/分轨][480.9MB]
- 雷婷《梦里蓝天HQⅡ》 2023头版限量编号低速原抓[WAV+CUE][463M]
- 群星《2024好听新歌42》AI调整音效【WAV分轨】
- 王思雨-《思念陪着鸿雁飞》WAV
- 王思雨《喜马拉雅HQ》头版限量编号[WAV+CUE]
- 李健《无时无刻》[WAV+CUE][590M]
- 陈奕迅《酝酿》[WAV分轨][502M]
- 卓依婷《化蝶》2CD[WAV+CUE][1.1G]
- 群星《吉他王(黑胶CD)》[WAV+CUE]
- 齐秦《穿乐(穿越)》[WAV+CUE]
- 发烧珍品《数位CD音响测试-动向效果(九)》【WAV+CUE】
- 邝美云《邝美云精装歌集》[DSF][1.6G]
- 吕方《爱一回伤一回》[WAV+CUE][454M]