本文最初发表在 Towards>
处理大数据可能很棘手。不会有人喜欢“内存不足”的错误提示。也不会有人愿意等待代码运行。更别说会有人乐意抛弃 Python。
如果你遇到这些问题,请不要绝望!我将在本文中为你提供一些技巧,并介绍一些即将问世的库,帮助你高效地处理大数据。我还会为你提供解决方案,解决那些无法适合内存的代码问题。而这一切都将会在 Python 中进行。
是最流行科学和数值计算编程语言。对于清理代码和探索性数据分析来说,是最受欢迎的。
在 Python 中使用 Pandas,可以让你处理比 Microsoft Excel 或 Google Sheets 更多的数据。
SQL 数据库在存储数据方面非常流行,但是 Python 生态系统在表达性、测试性、可再现性以及快速执行数据分析、统计和机器学习的能力方面,比 SQL 有很多优势。
不幸的是,如果你是在本地工作的话,那么,Pandas 所能处理的数据量将会受到你机器上的物理内存容量限制。但如果你在云端中工作,更多的内存需求又意味着需要耗费更多的资金。
无论你的代码在哪里运行,你都希望操作能够快速进行,这样你就可以完成任务!
总是要做的事情
如果你听说过或看到过关于加速代码的建议,那么你一定看到过警告: 不要过早优化!
诚然 ,这是一条好建议。但懂得一些技巧也是很聪明的做法,这样你才能写出干净、快速的代码。
对于任何规模的数据集来说,下面三种做法都是良好的编码实践。
如果你发现自己正在申请,请想想你是否真的需要这样做。它将会遍历行或列。向量化方法通常速度更快,代码更少,因此它们是一个双赢的方法。
要避免使用其他在数据上循环的 Pandas Series 和>applymap、、
ittertuples
。在>replace方法,而不是任何其他选项,这样可以节省大量时间。
请注意,这些建议可能不适用于非常少量的数据,但在这种情况下,风险很低,所以谁在乎呢?
这就涉及到我们最重要的规则
如果可以,就继续用 Pandas。这是快乐的源泉。
如果你没有问题,也不希望数据膨胀,就不要担心这些问题。但在某些时候,你会遇到一个大数据集,然后你会想知道该怎么做。让我们来看一些技巧。
处理相当大的数据(大约数百万行)
与基本相同,但它是作为>
由于存在一些问题,请注意查看文档。
Pandas 在幕后使用的是 Numexpr。Numexpr 还可以与 NumPy 一起工作。向 Chris Conlan 致敬,感谢他的著作《Fast Python》(《快速 Python》),正是这本书,我才知道了 Numexpr。Chris 这本书是一本学习如何加速 Python 代码的优秀读物。
处理真正的大数据(大约数千万行以上)
未来处理大数据需要注意/尝试的事项
以下三个方案是截止 2020 年年中的前沿方案。预计将会出现配置问题和早期 API。如果你是在本地 CPU 上工作,这些方案不太可能满足你的需求。但它们看起来都很有前途,值得关注。
其他关于代码速度和大数据的知识
计时操作
如果你想在 Jupyter Notebook 中进行计时操作,你可以使用或魔法命令。它们都在单行或真个代码单元中工作。
运行一次,而运行代码多次(默认值为 7)。一定要查看文档,了解其中的微妙之处。
如果你在脚本或 Notebook 中,可以导入时间模块,检查运行某些代码前后的时间,并找出差异。
在进行测试时间时,请注意不同的机器和软件版本可能会导致差异。如果要重复测试的话,缓存有时候会产生误导。正如所有的实验一样,要尽可能保持一切不变。
存储大数据
GitHub 的最大文件大小为。如果你想使用 GitHub 对大文件进行版本化,你可以使用Git Large File Storage(Git 大文件存储)扩展。
除非你愿意,否则请确保你没有将文件自动上传到 Dropbox、iCloud 或其他自动备份服务。
想了解更多吗?
Pandas 文档中,有关于提高性能和扩展到大型数据集的部分。本文其中一些想法就是根据这些章节改编而来。
总结
你已经了解了如何编写更快的代码,你也了解了如何处理大数据和真正的大数据。最后,你还了解到了一些新出的库,它们在处理大数据方面可能会继续变得越来越流行。
我希望本文能够对你有所帮助。
作者介绍:
Jeff Hale,技术撰稿人,撰写数据科学相关的文章,如 Python、SQL、Docker 和其他技术主题。并维护数据科学资源邮件列表:原文链接: