有两个集合,取集合中对象的经纬度,计算两者之间的距离。 之前写的是双重 for 循环遍历,然后取两对象的经纬度计算距离然后落库。但是现在数据量太大了 一个集合是 20000+,另一个集合是 50000+,这样要计算 10e 次,请问有啥优化方法吗?
1
tairan2006 2021-04-05 21:15:17 +08:00 via Android
并行算啊……map reduce 不都老生常谈了
|
2
godlovesxcjtest 2021-04-05 21:23:41 +08:00
java8 开始的 stream 可以用一下:parallelStream 可以并行计算,算是一种优化的思路
|
3
Cyzc OP @godlovesxcjtest
谢谢老哥,感觉 parallelStream 效率还是不够高,感谢 |
4
Cyzc OP @tairan2006
没接触过 mapreduce..... |
5
jmc891205 2021-04-05 22:07:40 +08:00
这两个集合每次都是全新的?还是说其中有一些数据是老的不变的?
直觉上你应该从系统设计上去考虑如何避免重复的计算 |
7
yeqizhang 2021-04-05 22:48:59 +08:00 via Android
落库啥意思? 10 亿全存了?这需求是什么啊?
|
8
akira 2021-04-06 02:00:30 +08:00
先弄清楚你需要的结果是什么,是 10e 个结果么,应该不是。
不是的话 那就要根据具体情况具体分析了呀 是要最近的 2 个点的距离,还是最远的,还是什 |
9
uselessVisitor 2021-04-06 08:26:04 +08:00
有顺序要求吗?没有就起多线程算
|
10
zqjnew 2021-04-06 08:59:39 +08:00
1 、 确定计算精度, 将经纬度合为 一大范围后的 值
2 、并行计算, 讲集合的数据均分成 CPU 数量个线程处理 3 、用 CUDA 或 GPU 进行计算 |
11
xxxyh 2021-04-06 09:51:52 +08:00
不清楚需求的背景,猜测一下是想一次计算所有结果存下来以后直接查。如果是这种情况的话,反正只跑一次,就不用太在意计算的过程,反正 10 亿次的计算是少不了的,落库比较慢,至少比计算慢得多。基于这个前提,不如花时间想想后面的查询怎么优化
|
12
dqzcwxb 2021-04-06 11:23:06 +08:00
动态规划+并行
|
13
cubecube 2021-04-06 16:18:11 +08:00
你这个需求应该不完整,经度和纬度的集合不可能无脑组合都是合理的?首先要找出方法确定在第一个集合经度已知时,第二个集合的取值范围
不然怎么优化都是暴力算。 |