由买买提看人间百态

boards

本页内容为未名空间相应帖子的节选和存档,一周内的贴子最多显示50字,超过一周显示500字 访问原贴
JobHunting版 - 请教F家和T家最近的一道常见题
相关主题
请教一个海量数据处理的题给后人贡献一下 pg那个游戏公司的面试题目
一个概率+编程题。ZocDoc Skype 面经 (update:已经悲剧)
How to find median of a stream of integers ?请教一个面试题
Yelp 面经我来说说bloomreach。。。
贡献两个面经吧请教一面试问题
请教一道产生随机数的问题报个BB面经
Google电面面试问bloom filter,reservoir sampling过分么?
明天onsite,求下bless了这道google面经体咋做
相关话题的讨论汇总
话题: sample话题: sampling话题: reservior话题: data话题: 概率
进入JobHunting版参与讨论
1 (共1页)
t**********g
发帖数: 3388
1
streaming data coming in, 要求sample data,按照1/K的概率sample.应该怎么做
u*****o
发帖数: 1224
2
Reservior sampling?
a*****u
发帖数: 1712
3
wiki了一下,这个方法不错啊

【在 u*****o 的大作中提到】
: Reservior sampling?
c********p
发帖数: 1969
4
Mark
z****e
发帖数: 54598
5
每次看到这个我就想起了河马
总是想过去调戏丫的

【在 u*****o 的大作中提到】
: Reservior sampling?
y*****h
发帖数: 97
6

Reservior sampling是取k个sample, 这个题是以1/k去sample,也就是说总共有n个数
的话最后会有n/k个sample。

【在 u*****o 的大作中提到】
: Reservior sampling?
k*******s
发帖数: 134
7
没太看明白什么意思,但是是下面这个意思吗
http://en.wikipedia.org/wiki/Count%E2%80%93min_sketch
y*****h
发帖数: 97
8

你引用的这个是估计海量数据中的top k frequent items
lz指的题目是在海量数据中以1/k的概率sample item

【在 k*******s 的大作中提到】
: 没太看明白什么意思,但是是下面这个意思吗
: http://en.wikipedia.org/wiki/Count%E2%80%93min_sketch

v***n
发帖数: 562
9
mark
t******i
发帖数: 483
10
mark
相关主题
请教一道产生随机数的问题给后人贡献一下 pg那个游戏公司的面试题目
Google电面ZocDoc Skype 面经 (update:已经悲剧)
明天onsite,求下bless了请教一个面试题
进入JobHunting版参与讨论
b***r
发帖数: 4186
11
mark

【在 t**********g 的大作中提到】
: streaming data coming in, 要求sample data,按照1/K的概率sample.应该怎么做
a******e
发帖数: 710
12
那顺序读一遍,每个元素以1/k的概率记下来不就可以了么?

【在 y*****h 的大作中提到】
:
: 你引用的这个是估计海量数据中的top k frequent items
: lz指的题目是在海量数据中以1/k的概率sample item

t**********g
发帖数: 3388
13
streaming data coming in, 要求sample data,按照1/K的概率sample.应该怎么做
u*****o
发帖数: 1224
14
Reservior sampling?
a*****u
发帖数: 1712
15
wiki了一下,这个方法不错啊

【在 u*****o 的大作中提到】
: Reservior sampling?
c********p
发帖数: 1969
16
Mark
z****e
发帖数: 54598
17
每次看到这个我就想起了河马
总是想过去调戏丫的

【在 u*****o 的大作中提到】
: Reservior sampling?
y*****h
发帖数: 97
18

Reservior sampling是取k个sample, 这个题是以1/k去sample,也就是说总共有n个数
的话最后会有n/k个sample。

【在 u*****o 的大作中提到】
: Reservior sampling?
k*******s
发帖数: 134
19
没太看明白什么意思,但是是下面这个意思吗
http://en.wikipedia.org/wiki/Count%E2%80%93min_sketch
y*****h
发帖数: 97
20

你引用的这个是估计海量数据中的top k frequent items
lz指的题目是在海量数据中以1/k的概率sample item

【在 k*******s 的大作中提到】
: 没太看明白什么意思,但是是下面这个意思吗
: http://en.wikipedia.org/wiki/Count%E2%80%93min_sketch

相关主题
我来说说bloomreach。。。面试问bloom filter,reservoir sampling过分么?
请教一面试问题这道google面经体咋做
报个BB面经一个经典的随机数的问题。求教。
进入JobHunting版参与讨论
v***n
发帖数: 562
21
mark
t******i
发帖数: 483
22
mark
b***r
发帖数: 4186
23
mark

【在 t**********g 的大作中提到】
: streaming data coming in, 要求sample data,按照1/K的概率sample.应该怎么做
a******e
发帖数: 710
24
那顺序读一遍,每个元素以1/k的概率记下来不就可以了么?

【在 y*****h 的大作中提到】
:
: 你引用的这个是估计海量数据中的top k frequent items
: lz指的题目是在海量数据中以1/k的概率sample item

p******d
发帖数: 63
25
data stream怎么知道n的?

【在 y*****h 的大作中提到】
:
: 你引用的这个是估计海量数据中的top k frequent items
: lz指的题目是在海量数据中以1/k的概率sample item

l*****a
发帖数: 14598
26
读一个counter++

【在 p******d 的大作中提到】
: data stream怎么知道n的?
g*****g
发帖数: 212
27
说的没错,觉得的是问的有问题。

【在 a******e 的大作中提到】
: 那顺序读一遍,每个元素以1/k的概率记下来不就可以了么?
p******d
发帖数: 63
28
如果用reservoir sampling的话需要预先知道sample的数量,需要扫两遍data stream
:第一遍算总数n;第二遍用reservoir sampling取n/k个sample。但问题是data
stream一般只能扫一遍吧?
直接以概率1/k决定是否保留当前sample听着更合理,但好像又太简单了。

【在 l*****a 的大作中提到】
: 读一个counter++
i**h
发帖数: 424
29
I think OP misstated the problem. 1/k sampling only requires 1/k randomized
probability per sample, which is too easy as an interview problem.
做过一个类似的问题,稍难一些:从stream data中提取k个sample,要求每个数据有相
同的机率被提取。难在stream长度未知。需要动态决定取舍。
x*****p
发帖数: 1707
30
Exactly

【在 a******e 的大作中提到】
: 那顺序读一遍,每个元素以1/k的概率记下来不就可以了么?
1 (共1页)
进入JobHunting版参与讨论
相关主题
这道google面经体咋做贡献两个面经吧
一个经典的随机数的问题。求教。请教一道产生随机数的问题
几个面试问题 求解答一下啊 (转载)Google电面
youtube data scientist 面经明天onsite,求下bless了
请教一个海量数据处理的题给后人贡献一下 pg那个游戏公司的面试题目
一个概率+编程题。ZocDoc Skype 面经 (update:已经悲剧)
How to find median of a stream of integers ?请教一个面试题
Yelp 面经我来说说bloomreach。。。
相关话题的讨论汇总
话题: sample话题: sampling话题: reservior话题: data话题: 概率