在DataFrame中新建列赋值后全部为NaN的问题释疑
在pandas中,有时候我们对一个df以如下方式新创建一个列,然后用一个Series赋值给新建的列,但是发现得到的新列的值全部为NaN,这是什么原因呢?
df['newColumn']=df_other['otherColumn']
注意以上赋值方式中,等号右边为一个Series,这时就需要考虑这个Series的index和df的index是否一致,如果不一致,那么就会造成在不一致的索引上的值全部为NaN,所以这个问题就是由Series赋值,索引不一致造成的。因为Series本身就带有索引,赋值时,还会同时按顺序进行两者的索引匹配,只有索引匹配上的行才会成功赋值,而没有匹配上的就会为NaN。
当我们不想要这种匹配,只想直接把df_other['otherColumn']的值赋给df['newColumn']时,只需去掉索引即可,可以通过list(df_other['otherColumn'])或者df_other['otherColumn'].values等方式进行转化,这样就可以避免这个问题。