今天看啥  ›  专栏  ›  InfoQ

如何用 Python 在笔记本上分析 100GB 数据?

InfoQ  · 公众号  · 科技媒体  · 2020-02-16 10:00
作者丨Jovan Veljanoski译者 | 李梦策划 | 万佳许多组织都想尽可能多地收集和利用数据,从而改进业务、增加收入和提升影响力。因此,数据科学家们要面对 50GB,甚至 500GB 数据集的场景变得越来越普遍。目前,这些数据集处理起来有点麻烦。就大小而言,它们可以放进你笔记本电脑的硬盘里,但却无法装入内存。所以,仅仅打开和查看它们就很困难,更何况进一步探索和分析。处理这样的数据集时,一般有 3 种策略。第 1 种是对数据进行子抽样,但它有一个明显缺点:可能因忽略部分数据而错失关键信息,甚至误解数据表达的含义。第 2 种是使用分布式计算。虽然在某些情况下这是一种有效的方法,但是管理和维护集群会带来巨大开销。想象一下,要为一个刚超出内存 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照