看啥推荐读物
专栏名称: 机器学习初学者
号主黄博Github全球排名前90,3.6万Star!致力于为初学者提供学习路线和基础资料,公众号可以当作随身小抄,文章很全,建议收藏!点击菜单可以进入学习!
今天看啥  ›  专栏  ›  机器学习初学者

【Python】Pandas groupby加速处理数据

机器学习初学者  · 公众号  ·  · 2021-11-09 12:00
在使用pandas的时候,经常会用到groupby这个函数来对数据进行分组统计,同时可以使用 apply函数很方便的对分组之后的数据进行处理。def data_process(x): # process return ...result = df.groupby('user_id').apply(data_process)使用joblib进行加速但是如果数据非常多的时候(比如几千万条数据),运行的效率是比较低的,因为这个时候只使用了一个CPU线程,所以当数据非常多的时候,处理起来会很慢。这个时候CPU其他的核是空闲的,所以考虑使用joblib来多线程加速。from joblib import Parallel, delayeddef data_process(x): # process return ...def applyParallel(dfGrouped, func): res = Parallel(n_jobs=4)(delayed(func)(group) for name, group in dfGrouped) return pd.concat(res)result = applyParallel(df.groupby('user_id'), data_process)使用pandarallel ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照