boards

本页内容为未名空间相应帖子的节选和存档,一周内的贴子最多显示50字,超过一周显示500字 访问原贴
JobHunting版 - 问一道(大)数据 algorithm
相关主题
One question on Careercup
问一道数据结构题
求推荐algorithms网络课程
面试的时候可以用STL吗
有人Amazon面试需要写off-line的两个小时的code的吗?
请推荐 算法 和数据结构 的经典书
外行求推荐C++入门书籍 (转载)
请教一下大家
弱弱的问问跟hash有关的问题
关于算法的学习,求建议
相关话题的讨论汇总
话题: positive话题: negative话题: 100k话题: length话题: ppl
进入JobHunting版参与讨论
1 (共1页)
n*****3
发帖数: 1584
1
请教大家一下:
两组人, POSITIVE 和 Negative ,
say
POSITIVE 100K ppl,
Negative 900K ppl.
基本的数据结构 是 人的 ID 和 length of stay(待了几天)。
ID length of stay(days)
ppl-0000001 8
ppl-0000002 10
...
目的是 sample Negative 组 出来 100K 人 ,
which one-to-one match the Positive 组 人
的 length of stay(待了几天),
这样 match 完, 两组人的 100K 个 length of stay(待了几天)
完全一样.
当然如果 negative
组人 有多个 match 一个 POSITIVE 组人 , 任取一个就好了。
想用 c++ 写 ,use STL/Map hash,
不知有没好的算法哦 ,
or 更好的 STL 数据结构/算法 可用?
因为是 准备 写成 RCPP for R, 现在不考虑用
并行 Solution.
谢谢。
n*****3
发帖数: 1584
2
the for loop will take a long time to finish;
I want to figure out some good algorithm/Data strucute
to speed it up. Thanks.

【在 n*****3 的大作中提到】
: 请教大家一下:
: 两组人, POSITIVE 和 Negative ,
: say
: POSITIVE 100K ppl,
: Negative 900K ppl.
: 基本的数据结构 是 人的 ID 和 length of stay(待了几天)。
: ID length of stay(days)
: ppl-0000001 8
: ppl-0000002 10
: ...

Y****a
发帖数: 243
3
为什么发在这里?发在统计或者数据科学版更合适吧。
我的问题是,这样取样的原因是什么?这样就相当于假设停留的时间和结果(正负)之间
是无关的。可总觉得这样假设有风险。有可能把重要的因子忽略了。
如果确实可以这样假设,那停留的时间是有限的吗?如果有,先n遍历一下数据计算分
布,然后,再跟据正负数据的分布,从每个bin里随机取相应个数的数据。
我不是搞算法的,这个只是一个可能的思路。
n*****3
发帖数: 1584
4

very good point; 但是我们需要 create some features based on the stop time(of
Position population), but there is NO stop time for negative population.
so we have to use this "case control" approach....
停留的时间是很有限的 一些; 但数据量不小,遍历再匹配 要很久啊。

【在 Y****a 的大作中提到】
: 为什么发在这里?发在统计或者数据科学版更合适吧。
: 我的问题是,这样取样的原因是什么?这样就相当于假设停留的时间和结果(正负)之间
: 是无关的。可总觉得这样假设有风险。有可能把重要的因子忽略了。
: 如果确实可以这样假设,那停留的时间是有限的吗?如果有,先n遍历一下数据计算分
: 布,然后,再跟据正负数据的分布,从每个bin里随机取相应个数的数据。
: 我不是搞算法的,这个只是一个可能的思路。

1 (共1页)
进入JobHunting版参与讨论
相关主题
关于算法的学习,求建议
【请问】bloomberg 面试准备
你们花了多久读clrs?
大牛来看,关于推荐几本面试书。
计算化学转行CS找工作半年够了么?
想狠抓一下数据结构和算法, 请推荐资料
大家有没有算过自己准备面试期间写了多少行代码?
为什么面试要问那些工作中从来不会遇到的算法?
数据结构有什么好的网络课程?
新生求问本版大牛如何准备脱坑刷题找工作
相关话题的讨论汇总
话题: positive话题: negative话题: 100k话题: length话题: ppl