请教F家和T家最近的一道常见题 - JobHunting版

本页内容为未名空间相应帖子的节选和存档，一周内的贴子最多显示50字，超过一周显示500字访问原贴

JobHunting版 - 请教F家和T家最近的一道常见题

相关主题
● 请教一个海量数据处理的题	● 给后人贡献一下 pg那个游戏公司的面试题目
● 一个概率+编程题。	● ZocDoc Skype 面经 (update:已经悲剧）
● How to find median of a stream of integers ?	● 请教一个面试题
● Yelp 面经	● 我来说说bloomreach。。。
● 贡献两个面经吧	● 请教一面试问题
● 请教一道产生随机数的问题	● 报个BB面经
● Google电面	● 面试问bloom filter,reservoir sampling过分么？
● 明天onsite，求下bless了	● 这道google面经体咋做

相关话题的讨论汇总
话题: sample话题: sampling话题: reservior话题: data话题: 概率

进入JobHunting版参与讨论

(共1页)

t**********g
发帖数: 3388

streaming data coming in, 要求sample data，按照1/K的概率sample.应该怎么做

u*****o
发帖数: 1224

Reservior sampling?

a*****u
发帖数: 1712

wiki了一下，这个方法不错啊

【在 u*****o 的大作中提到】

: Reservior sampling?

c********p
发帖数: 1969

Mark

z****e
发帖数: 54598

每次看到这个我就想起了河马
总是想过去调戏丫的

【在 u*****o 的大作中提到】

: Reservior sampling?

y*****h
发帖数: 97

Reservior sampling是取k个sample，这个题是以1/k去sample，也就是说总共有n个数
的话最后会有n/k个sample。

【在 u*****o 的大作中提到】

: Reservior sampling?

k*******s
发帖数: 134

没太看明白什么意思，但是是下面这个意思吗
http://en.wikipedia.org/wiki/Count%E2%80%93min_sketch

y*****h
发帖数: 97

你引用的这个是估计海量数据中的top k frequent items
lz指的题目是在海量数据中以1/k的概率sample item

【在 k*******s 的大作中提到】

: 没太看明白什么意思，但是是下面这个意思吗
: http://en.wikipedia.org/wiki/Count%E2%80%93min_sketch

v***n
发帖数: 562

mark

t******i
发帖数: 483

mark

相关主题
● 请教一道产生随机数的问题	● 给后人贡献一下 pg那个游戏公司的面试题目
● Google电面	● ZocDoc Skype 面经 (update:已经悲剧）
● 明天onsite，求下bless了	● 请教一个面试题
进入JobHunting版参与讨论

b***r
发帖数: 4186

mark

【在 t**********g 的大作中提到】

: streaming data coming in, 要求sample data，按照1/K的概率sample.应该怎么做

a******e
发帖数: 710

那顺序读一遍，每个元素以1/k的概率记下来不就可以了么？

【在 y*****h 的大作中提到】

:
: 你引用的这个是估计海量数据中的top k frequent items
: lz指的题目是在海量数据中以1/k的概率sample item

t**********g
发帖数: 3388

streaming data coming in, 要求sample data，按照1/K的概率sample.应该怎么做

u*****o
发帖数: 1224

Reservior sampling?

a*****u
发帖数: 1712

wiki了一下，这个方法不错啊

【在 u*****o 的大作中提到】

: Reservior sampling?

c********p
发帖数: 1969

Mark

z****e
发帖数: 54598

每次看到这个我就想起了河马
总是想过去调戏丫的

【在 u*****o 的大作中提到】

: Reservior sampling?

y*****h
发帖数: 97

Reservior sampling是取k个sample，这个题是以1/k去sample，也就是说总共有n个数
的话最后会有n/k个sample。

【在 u*****o 的大作中提到】

: Reservior sampling?

k*******s
发帖数: 134

没太看明白什么意思，但是是下面这个意思吗
http://en.wikipedia.org/wiki/Count%E2%80%93min_sketch

y*****h
发帖数: 97

你引用的这个是估计海量数据中的top k frequent items
lz指的题目是在海量数据中以1/k的概率sample item

【在 k*******s 的大作中提到】

: 没太看明白什么意思，但是是下面这个意思吗
: http://en.wikipedia.org/wiki/Count%E2%80%93min_sketch

相关主题
● 我来说说bloomreach。。。	● 面试问bloom filter,reservoir sampling过分么？
● 请教一面试问题	● 这道google面经体咋做
● 报个BB面经	● 一个经典的随机数的问题。求教。
进入JobHunting版参与讨论

v***n
发帖数: 562

mark

t******i
发帖数: 483

mark

b***r
发帖数: 4186

mark

【在 t**********g 的大作中提到】

: streaming data coming in, 要求sample data，按照1/K的概率sample.应该怎么做

a******e
发帖数: 710

那顺序读一遍，每个元素以1/k的概率记下来不就可以了么？

【在 y*****h 的大作中提到】

:
: 你引用的这个是估计海量数据中的top k frequent items
: lz指的题目是在海量数据中以1/k的概率sample item

p******d
发帖数: 63

data stream怎么知道n的？

【在 y*****h 的大作中提到】

:
: 你引用的这个是估计海量数据中的top k frequent items
: lz指的题目是在海量数据中以1/k的概率sample item

l*****a
发帖数: 14598

读一个counter++

【在 p******d 的大作中提到】

: data stream怎么知道n的？

g*****g
发帖数: 212

说的没错，觉得的是问的有问题。

【在 a******e 的大作中提到】

: 那顺序读一遍，每个元素以1/k的概率记下来不就可以了么？

p******d
发帖数: 63

如果用reservoir sampling的话需要预先知道sample的数量，需要扫两遍data stream
：第一遍算总数n；第二遍用reservoir sampling取n/k个sample。但问题是data
stream一般只能扫一遍吧？
直接以概率1/k决定是否保留当前sample听着更合理，但好像又太简单了。

【在 l*****a 的大作中提到】

: 读一个counter++

i**h
发帖数: 424

I think OP misstated the problem. 1/k sampling only requires 1/k randomized
probability per sample, which is too easy as an interview problem.
做过一个类似的问题，稍难一些：从stream data中提取k个sample，要求每个数据有相
同的机率被提取。难在stream长度未知。需要动态决定取舍。

x*****p
发帖数: 1707

Exactly

【在 a******e 的大作中提到】

: 那顺序读一遍，每个元素以1/k的概率记下来不就可以了么？

(共1页)

进入JobHunting版参与讨论

相关主题
● 这道google面经体咋做	● 贡献两个面经吧
● 一个经典的随机数的问题。求教。	● 请教一道产生随机数的问题
● 几个面试问题求解答一下啊 (转载)	● Google电面
● youtube data scientist 面经	● 明天onsite，求下bless了
● 请教一个海量数据处理的题	● 给后人贡献一下 pg那个游戏公司的面试题目
● 一个概率+编程题。	● ZocDoc Skype 面经 (update:已经悲剧）
● How to find median of a stream of integers ?	● 请教一个面试题
● Yelp 面经	● 我来说说bloomreach。。。

相关话题的讨论汇总
话题: sample话题: sampling话题: reservior话题: data话题: 概率

#	版面	帖数(主题数)
-	全站	4871 (796)
1	Military	3777 (569)
2	Stock	341 (51)
3	Joke	117 (17)
4	History	116 (3)
5	Automobile	100 (9)
6	USANews	55 (9)
7	Midlife	45 (1)
8	Headline	41 (41)
9	Dreamer	33 (13)
10	FleaMarket	32 (20)
11	Living	30 (7)

boards

未名新帖统计// 7月16日

历史上的今天