0%

Pandas学习笔记

Pandas in Python

数据筛选

https://blog.csdn.net/g863402758/article/details/53488140

  • 多列数据筛选的逻辑关系记得每组加上圆括号
  • unix时间戳转换
    报错记录:
    1
    2
    3
    data["date"] = pd.to_datetime(data["Timestamp UTC ms"],unit='ms',utc=True).tz_convert('Asia/Shanghai')

    TypeError: index is not a valid DatetimeIndex or PeriodIndex
    关于这个查到一个issue #7846, 但仍不知怎么处理
    最后发现换到index就没报错了

列操作

  • 调整列顺序

    1
    df = df[['user_id','book_id','rating','mark_date']] # 调整列顺序为'user_id','book_id','rating','mark_date'
  • 列删除

    • axis
      1
      data = data.drop(['Room','Day','UTC','Time'],axis=1)
  • 字符串类型列的操作

    1
    data.insert(0,'date',data['UTC'].str[:10])
  • 列改名
    https://www.jianshu.com/p/9e43c7bc26cb

    1
    data = data.rename(columns={'Timestamp UTC ms':'date'})

列数据类型

https://www.jb51.net/article/139630.htm

  • 在对数据进行处理之前应该先查看加载数据的相关信息
    1
    data.info()
  • 修改某一列的数据类型
    1
    data['UTC'] = data['UTC'].astype('str')