研究过机器学习的 xdm，求提供一个优化的思路

V2EX = way to explore

V2EX 是一个关于分享和探索的地方

现在注册

已注册用户请登录

V2EX 提问指南

这是一个创建于 724 天前的主题，其中的信息可能已经有所发展或是发生改变。

背景如下

超大规模（几万亿）稀疏样本拆分成几十万 /上百万的规模进行聚类，现在使用的是 Python Sklearn 库里的 MiniBatchKMeans ，据说还是达不到业务要求

已知：现有方案只有单机场景，应该只能在 Sklearn 的基础上优化

我的任务是要比库的方法有性能提升，看了几天源码，没有什么思路...达不到性能提升的话，这工作应该是悬了

有没有优化过这一块的 xd 提供一点想法？

10 条回复 • 2022-12-27 11:41:08 +08:00

paopjian

2022-12-27 09:50:20 +08:00

几万亿的数据还是单机,这得用 CPU 跑好久吧,看着就麻烦

winglight2016

2022-12-27 10:30:32 +08:00

这么大数据量不是很容易搞吗？ KNN 、SVM 一个个试过去啊，或者直接 pycaret 自动优化一把，没有比这个更轻松的工作了呀

zooo

2022-12-27 10:33:11 +08:00

找 GPU 跑

ifzzzh

2022-12-27 10:36:08 +08:00

先降维？或者用 LSH 近似聚类？

LaurelHarmon

2022-12-27 10:41:25 +08:00 via Android

好好做下特征工程

jaredyam

2022-12-27 10:46:25 +08:00

你全程没提过特征处理的步骤，直接塞？建议从数据入手，没人要求你必须和一个算法死磕吧？

lookStupiToForce

2022-12-27 10:48:31 +08:00

稀疏矩阵不搞特征工程等于自己给自己下降头喂屎

shoumu

2022-12-27 10:56:07 +08:00

几万亿拆分这一步是怎么做的？

qzwmjv

2022-12-27 11:30:03 +08:00

先挑点特征预聚类，这个量，真的不上分布式么，单机跑到猴年马月

governcoco

2022-12-27 11:41:08 +08:00

你先清理一下数据吧，把没有意义的特征或者有问题的数据删一下。