给一段输入文字,统计所有2-gram及出现次数。dataset有100G怎么办?你有100台32-bit机器(4G内存),怎么分发给100台机器处理?瓶颈在哪里?
1
mengzhuo 2015-04-21 17:15:50 +08:00 via iPhone
不是排序就简单了
按id分呗 100台分别一台一个g 然后分别搜索 加上启示的index 搞定 |