Python + pandas + chunksize 如何分块分组再汇总统计? - V2EX

首页注册登录

V2EX = way to explore

V2EX 是一个关于分享和探索的地方

现在注册

已注册用户请登录

推荐学习书目

› Learn Python the Hard Way

Python Sites

› PyPI - Python Package Index

› http://diveintopython.org/toc/index.html

› Pocoo

值得关注的项目

› PyPy

› Celery

› Jinja2

› Read the Docs

› gevent

› pyenv

› Stackless Python

› Beautiful Soup

› 结巴中文分词

› Green Unicorn

› Sentry

› Shovel

› pytest

Python 编程

› pep8 Checker

Styles

› PEP 8

› Google Python Style Guide

› Code Style from The Hitchhiker's Guide

这是一个创建于 2699 天前的主题，其中的信息可能已经有所发展或是发生改变。

有一个很大的文件内容是一行一个 MD5 值我需要统计每个 MD5 出现的次数
如果直接 pandas.read_csv 会 MemoryError
一行一行读+字典也行但不是我要的

怎么使用分块读取然后分组统计再汇总?
loop = True
chunkSize = 100000
chunks = []

while loop:
try:
chunk = data.get_chunk(chunkSize)
chunks.append(chunk)
except StopIteration:
loop = False
print("Iteration is stopped.")

df = pd.concat(chunks, ignore_index=True)

8 条回复 • 2017-08-10 19:44:57 +08:00

1

ferstar

2017-08-10 16:03:15 +08:00

刚好手上有个类似的数据集，唯一与楼主不同的是每一行是一个[100, 150]的整数，我是这样统计的：
---
```python
from collections import Counter

import pandas as pd

size = 2 ** 10
counter = Counter()
for chunk in pd.read_csv('file.csv', header=None, chunksize=size):
counter.update([i[0] for i in chunk.values])

print(counter)

```
---
大概输出如下：
```
Counter({100: 41,
101: 40,
102: 40,
...
150: 35})
```

2

caomaocao

2017-08-10 16:33:30 +08:00

Counter() 或者 Mapreduce 的思想做哦~

3

chuanqirenwu

2017-08-10 19:18:38 +08:00

dask 一行搞定。

dd.groupby().count()，和 pandas 一样的 API，但是把 fill in memory 拓展到 fill in disk。

4

zhusimaji

2017-08-10 19:22:59 +08:00 via iPhone

Counter 可以试试，有分布式观景首选 mapreduce

5

zhusimaji

2017-08-10 19:24:08 +08:00 via iPhone

分布式环境

6

zhusimaji

2017-08-10 19:33:11 +08:00 via iPhone

@chuanqirenwu 学习新姿势，一般数据量大都是实用 spark 完成计算，刚去看了下 dask，不错的包

7

liprais

2017-08-10 19:43:35 +08:00 via iPhone

sort | uniq -c

8

notsobad

2017-08-10 19:44:57 +08:00

用 shell 比较简单

cat x.txt | sort | uniq -c

关于 · 帮助文档 · 博客 · API · FAQ · 实用小工具 · 1015 人在线 最高记录 6679 ·

Select Language

创意工作者们的社区

World is powered by solitude

VERSION: 3.9.8.5 · 22ms · UTC 19:54 · PVG 03:54 · LAX 11:54 · JFK 14:54
Developed with CodeLauncher
♥ Do have faith in what you're doing.