问一道(大)数据 algorithm - JobHunting版 - 未名存档

本页内容为未名空间相应帖子的节选和存档，一周内的贴子最多显示50字，超过一周显示500字访问原贴

JobHunting版 - 问一道(大)数据 algorithm

相关主题
● One question on Careercup
● 问一道数据结构题
● 求推荐algorithms网络课程
● 面试的时候可以用STL吗
● 有人Amazon面试需要写off-line的两个小时的code的吗？
● 请推荐算法和数据结构的经典书
● 外行求推荐C＋＋入门书籍 (转载)
● 请教一下大家
● 弱弱的问问跟hash有关的问题
● 关于算法的学习，求建议

相关话题的讨论汇总
话题: positive话题: negative话题: 100k话题: length话题: ppl

进入JobHunting版参与讨论

1

(共1页)

n*****3 发帖数: 1584	1 请教大家一下：两组人， POSITIVE 和 Negative ， say POSITIVE 100K ppl， Negative 900K ppl. 基本的数据结构是人的 ID 和 length of stay（待了几天）。 ID length of stay(days) ppl-0000001 8 ppl-0000002 10 ... 目的是 sample Negative 组出来 100K 人 , which one-to-one match the Positive 组人的 length of stay（待了几天），这样 match 完, 两组人的 100K 个 length of stay（待了几天）完全一样. 当然如果 negative 组人有多个 match 一个 POSITIVE 组人，任取一个就好了。想用 c++ 写，use STL／Map hash，不知有没好的算法哦， or 更好的 STL 数据结构／算法可用？因为是准备写成 RCPP for R, 现在不考虑用并行 Solution. 谢谢。
n*****3 发帖数: 1584	2 the for loop will take a long time to finish; I want to figure out some good algorithm/Data strucute to speed it up. Thanks. 【在 n*****3 的大作中提到】 : 请教大家一下： : 两组人， POSITIVE 和 Negative ， : say : POSITIVE 100K ppl， : Negative 900K ppl. : 基本的数据结构是人的 ID 和 length of stay（待了几天）。 : ID length of stay(days) : ppl-0000001 8 : ppl-0000002 10 : ...
Y****a 发帖数: 243	3 为什么发在这里？发在统计或者数据科学版更合适吧。我的问题是，这样取样的原因是什么？这样就相当于假设停留的时间和结果(正负)之间是无关的。可总觉得这样假设有风险。有可能把重要的因子忽略了。如果确实可以这样假设，那停留的时间是有限的吗？如果有，先n遍历一下数据计算分布，然后，再跟据正负数据的分布，从每个bin里随机取相应个数的数据。我不是搞算法的，这个只是一个可能的思路。
n*****3 发帖数: 1584	4 very good point; 但是我们需要 create some features based on the stop time(of Position population), but there is NO stop time for negative population. so we have to use this "case control" approach.... 停留的时间是很有限的一些；但数据量不小，遍历再匹配要很久啊。【在 Y****a 的大作中提到】 : 为什么发在这里？发在统计或者数据科学版更合适吧。 : 我的问题是，这样取样的原因是什么？这样就相当于假设停留的时间和结果(正负)之间 : 是无关的。可总觉得这样假设有风险。有可能把重要的因子忽略了。 : 如果确实可以这样假设，那停留的时间是有限的吗？如果有，先n遍历一下数据计算分 : 布，然后，再跟据正负数据的分布，从每个bin里随机取相应个数的数据。 : 我不是搞算法的，这个只是一个可能的思路。

1

(共1页)

进入JobHunting版参与讨论

相关主题
● 关于算法的学习，求建议
● 【请问】bloomberg 面试准备
● 你们花了多久读clrs?
● 大牛来看，关于推荐几本面试书。
● 计算化学转行CS找工作半年够了么？
● 想狠抓一下数据结构和算法，请推荐资料
● 大家有没有算过自己准备面试期间写了多少行代码？
● 为什么面试要问那些工作中从来不会遇到的算法？
● 数据结构有什么好的网络课程？
● 新生求问本版大牛如何准备脱坑刷题找工作

相关话题的讨论汇总
话题: positive话题: negative话题: 100k话题: length话题: ppl