专栏名称: 中国人工智能学会
关注中国人工智能学会官方公共账号,收取学会的科普信息、新闻动态、活动预告及人工智能领域科技前沿信息。
今天看啥  ›  专栏  ›  中国人工智能学会

深思考丨如何使用Pandas处理超过内存容量的大规模数据

中国人工智能学会  · 公众号  · AI  · 2020-10-29 16:27
转自 AI前线作者 | Sara A. Metwalli译者 | 盖磊策划 | 陈思处理大规模数据集时常是棘手的事情,尤其在内存无法完全加载数据的情况下。在资源受限的情况下,可以使用 Python Pandas 提供的一些功能,降低加载数据集的内存占用。可用技术包括压缩、索引和数据分块。开展数据科学项目中的一个重要步骤,就是从 API 下载数据并加载到本地内存,之后才能处理数据。在上述过程中需要解决一些问题,其中之一就是数据量过大。如果数据量超出本机内存的容量,项目执行就会产生问题。对此有哪些解决方案?有多种解决数据量过大问题的方法。它们或是消耗时间,或是需要增加投资。可能的解决方案投资解决:新购有能力处理整个数据集,具有更强 CPU 和更大内存的计算机。或 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照