今天看啥  ›  专栏  ›  Python学习交流

数据科学家带你用使用NumPy和Pandas进行Python式数据清理!

Python学习交流  · 公众号  · Python  · 2018-04-18 16:08
>>> import pandas as pd>>> import numpy as np例如,在上一节使用的数据集中,可以想象到,图书管理员如果需要搜索记录,他也许输入的是书籍的唯一标识符( Identifier 列):>>> df['Identifier'].is_uniqueTrue让我们用 set_index 来替换现有的索引>>> df.get_dtype_counts()object 6其中出版日期一列,如果将其转化为数字类型更有意义,所以我们可以进行如下计算:很好!本节完成了!我们将用这两个函数来清理 Place of Publication 一列,因为此列包含字符串。以下是该列的内容:我们发现某些行中,出版地被其他不必要的信息包围着。如果观察更多值,我们会发现只有出版地包含 ‘London’ 或者 ‘Oxford’ 的行才会出现这种情况。我们来看看两条特定的数据:与 np.where 结合:管我们可以使 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照