l*********r 发帖数: 122 | 1 面试碰到过好几回,问一个基本算法,答出来之后就被followup问如果data size超大
概如何处理。。。
sorting相关的基本上就往MR上靠,不知道还有没有其他思路?
刚刚被问了一个KNN如何处理大数据,这个该怎么答呢? 谢谢! |
S*******y 发帖数: 55 | 2 真实经历,一次和三哥面试官聊了好久他都不满意,最后结束了问他你怎么办,他说你
可以random sample只用一小部分数据,心里顿时一万头草泥马奔过
【在 l*********r 的大作中提到】 : 面试碰到过好几回,问一个基本算法,答出来之后就被followup问如果data size超大 : 概如何处理。。。 : sorting相关的基本上就往MR上靠,不知道还有没有其他思路? : 刚刚被问了一个KNN如何处理大数据,这个该怎么答呢? 谢谢!
|
m******e 发帖数: 82 | |
r*****s 发帖数: 1815 | 4 hot keyword或者url是这样的。。。
: 真实经历,一次和三哥面试官聊了好久他都不满意,最后结束了问他你怎么办,
他说你
: 可以random sample只用一小部分数据,心里顿时一万头草泥马奔过
【在 S*******y 的大作中提到】 : 真实经历,一次和三哥面试官聊了好久他都不满意,最后结束了问他你怎么办,他说你 : 可以random sample只用一小部分数据,心里顿时一万头草泥马奔过
|
z*******h 发帖数: 346 | 5 Data points一多,KNN会巨慢。要是我就这么说,first ask if the data has high
dimensionality. If they say no, well, we can use KD-tree to speed up K-NN.
If they say yes, I'd say you cannot use the original K-NN, you will have to
cut corners. for example, instead of using all data points, only pick the
most important ones (close to decision boundary). see https://link.springer.
com/article/10.1023%2FA%3A1007626913721?LI=true
【在 l*********r 的大作中提到】 : 面试碰到过好几回,问一个基本算法,答出来之后就被followup问如果data size超大 : 概如何处理。。。 : sorting相关的基本上就往MR上靠,不知道还有没有其他思路? : 刚刚被问了一个KNN如何处理大数据,这个该怎么答呢? 谢谢!
|
D**********0 发帖数: 1022 | 6 那这个真是太厉害了。
【在 S*******y 的大作中提到】 : 真实经历,一次和三哥面试官聊了好久他都不满意,最后结束了问他你怎么办,他说你 : 可以random sample只用一小部分数据,心里顿时一万头草泥马奔过
|
l*********r 发帖数: 122 | 7 关键是我上来就答了用KD tree做KNN,然后被追问数据量大该怎么办 。。。
to
springer.
【在 z*******h 的大作中提到】 : Data points一多,KNN会巨慢。要是我就这么说,first ask if the data has high : dimensionality. If they say no, well, we can use KD-tree to speed up K-NN. : If they say yes, I'd say you cannot use the original K-NN, you will have to : cut corners. for example, instead of using all data points, only pick the : most important ones (close to decision boundary). see https://link.springer. : com/article/10.1023%2FA%3A1007626913721?LI=true
|
l*********r 发帖数: 122 | 8 难道讨论的是GD?
【在 S*******y 的大作中提到】 : 真实经历,一次和三哥面试官聊了好久他都不满意,最后结束了问他你怎么办,他说你 : 可以random sample只用一小部分数据,心里顿时一万头草泥马奔过
|