由买买提看人间百态

boards

本页内容为未名空间相应帖子的节选和存档,一周内的贴子最多显示50字,超过一周显示500字 访问原贴
Statistics版 - 请教: 关于面试 被问到 large data sets
相关主题
面试有被问到how to analyze large data sets到底怎么样handle large date set(面试常问问题
Help: How to work with large data sets?请教sas base 70题里第29题。。。
多大的data算是large data set?请问有谁在工作中用过big data,有问题请教
求助:即将遭遇统计的第一个电话面试Capital One Data Scientist 电面
一个sas问题的解决方法讨论SQL find distinct values in large table (转载)
logistic regression question如何read multiple lines into one record in sas
请教一个关与SAS data的问题[open question] how to deal with a very large data set? Like data cleaning.
诚心请教大data set到底该怎么分析?请问工作中的large data experience
相关话题的讨论汇总
话题: 数据话题: data话题: large话题: sets话题: 面试
进入Statistics版参与讨论
1 (共1页)
E****2
发帖数: 247
1
有几次在电话面试时, 被问到: 你有处理large data sets 的经验吗?
我只是很笼统地回答,有.因为: 本人现在在药厂工作. 工作中也有很大的数据. 但我们
的数据是关于病人的.数据大时, 就是,每个病人有很多个records or say rows. 在处
理上并没有什么大的不同,除了数据极大是,有时需要运行的时间长一些.我担心没有答
到关键.
位置是marketing analysis, business analysis 方面的,请教大侠们,在这个行业中,
是指变量, variables 很多呢,还是仅仅是数据records 多呢? interviewer 想知道什
么呢? 有那些关键要回答呢? 在这个行业中,处理大数据用到什么techniques?
非常感谢!!
E****2
发帖数: 247
2
真遗憾,没有人回. 有什么关键的吗?? 我可能会拿到当面的面试, 希望能答到关键点.
谢谢!!

【在 E****2 的大作中提到】
: 有几次在电话面试时, 被问到: 你有处理large data sets 的经验吗?
: 我只是很笼统地回答,有.因为: 本人现在在药厂工作. 工作中也有很大的数据. 但我们
: 的数据是关于病人的.数据大时, 就是,每个病人有很多个records or say rows. 在处
: 理上并没有什么大的不同,除了数据极大是,有时需要运行的时间长一些.我担心没有答
: 到关键.
: 位置是marketing analysis, business analysis 方面的,请教大侠们,在这个行业中,
: 是指变量, variables 很多呢,还是仅仅是数据records 多呢? interviewer 想知道什
: 么呢? 有那些关键要回答呢? 在这个行业中,处理大数据用到什么techniques?
: 非常感谢!!

B****n
发帖数: 11290
3
一般而言 藥廠的數據不會太大 尤其是那種clinical trials 通常不會到百萬級
business的就不同了 比方像顧客傾向的調查 可以從他們公司網站收集到非常多的數據
變量也有可能很多

【在 E****2 的大作中提到】
: 有几次在电话面试时, 被问到: 你有处理large data sets 的经验吗?
: 我只是很笼统地回答,有.因为: 本人现在在药厂工作. 工作中也有很大的数据. 但我们
: 的数据是关于病人的.数据大时, 就是,每个病人有很多个records or say rows. 在处
: 理上并没有什么大的不同,除了数据极大是,有时需要运行的时间长一些.我担心没有答
: 到关键.
: 位置是marketing analysis, business analysis 方面的,请教大侠们,在这个行业中,
: 是指变量, variables 很多呢,还是仅仅是数据records 多呢? interviewer 想知道什
: 么呢? 有那些关键要回答呢? 在这个行业中,处理大数据用到什么techniques?
: 非常感谢!!

E****2
发帖数: 247
4
Thank you so much! You are right. Oh, I understand that the clinical trial's
data's "Large" is not in the same order as in business.
Can you tell some techniques used to deal with the large data sets in
business?

【在 B****n 的大作中提到】
: 一般而言 藥廠的數據不會太大 尤其是那種clinical trials 通常不會到百萬級
: business的就不同了 比方像顧客傾向的調查 可以從他們公司網站收集到非常多的數據
: 變量也有可能很多

z**k
发帖数: 378
5
药厂数据也有很大的,in vitro的数据常常可以看到以G甚至T做单位的。
我觉得大样本数据最重要就是要keep organized,硬件的东西要懂一点,知道数据该放
哪里,怎么放,
要怎么index,怎么cache,各种统计模型优化问题的近似解法也要懂一些。
我还没有看到一个系统的讲解如何处理大样本数据的理论,所以我想大部分的问题都应
该是open
question,你随便看几个方法,面试时讲明白就好了。

trial's

【在 E****2 的大作中提到】
: Thank you so much! You are right. Oh, I understand that the clinical trial's
: data's "Large" is not in the same order as in business.
: Can you tell some techniques used to deal with the large data sets in
: business?

B****n
发帖数: 11290
6
I am not in that field. So I will leave this questions for the real experts
on this board.

's

【在 E****2 的大作中提到】
: Thank you so much! You are right. Oh, I understand that the clinical trial's
: data's "Large" is not in the same order as in business.
: Can you tell some techniques used to deal with the large data sets in
: business?

f****r
发帖数: 1140
7
统计模型优化问题的近似解法?请问这个方面具体指什么?
我能想到的大数据优化,只有SAS方面的优化,比如少sort,index之类的。
还有啥具体的吗?有经验的过来讲下吧。

【在 z**k 的大作中提到】
: 药厂数据也有很大的,in vitro的数据常常可以看到以G甚至T做单位的。
: 我觉得大样本数据最重要就是要keep organized,硬件的东西要懂一点,知道数据该放
: 哪里,怎么放,
: 要怎么index,怎么cache,各种统计模型优化问题的近似解法也要懂一些。
: 我还没有看到一个系统的讲解如何处理大样本数据的理论,所以我想大部分的问题都应
: 该是open
: question,你随便看几个方法,面试时讲明白就好了。
:
: trial's

p********a
发帖数: 5352
8
主要是指INSURANCE CLAIMS DATA, CREDIT RECORDS DATA吧。大的数据一般指MILLION
级别以上的数据,VARIABLE数目没什么明确规定,但大部分都在100以上。这里主要考
的是CODING的效率问题。我看见有些人上来就把几个大DATA JOIN,产生200多G的数据
的,到最后还算不出结果的。
z**k
发帖数: 378
9
我没有太多用SAS处理大样本数据的经验,我都是直接处理,比如很简单的Loss
function,在海量样本
的时候怎么找近似的minimum,或者怎么用近似的方法来fit svm,就连最简单的
regression,到大样
本数据都会变得很复杂,这些都是常遇到的问题。
我觉得优化是要合理得Sort和Index,如果你答题的时候能从memory和硬盘的角度分析
问题,再结合那
些基本的原则和算法,我想还是可以过这一关的。

【在 f****r 的大作中提到】
: 统计模型优化问题的近似解法?请问这个方面具体指什么?
: 我能想到的大数据优化,只有SAS方面的优化,比如少sort,index之类的。
: 还有啥具体的吗?有经验的过来讲下吧。

s*r
发帖数: 2757
10
i guess you can read olo*2 's blog. I see several posters about optimization
there
相关主题
logistic regression question到底怎么样handle large date set(面试常问问题
请教一个关与SAS data的问题请教sas base 70题里第29题。。。
诚心请教大data set到底该怎么分析?请问有谁在工作中用过big data,有问题请教
进入Statistics版参与讨论
E****2
发帖数: 247
11
Thanks so much for every one!!
I have read all the replies till this moment and got main idea about this. I
will try to do some homework in advacne according to the suggestions here!!
Again, Thanks every one!!
Having this broad is really helpful for us..

【在 E****2 的大作中提到】
: 有几次在电话面试时, 被问到: 你有处理large data sets 的经验吗?
: 我只是很笼统地回答,有.因为: 本人现在在药厂工作. 工作中也有很大的数据. 但我们
: 的数据是关于病人的.数据大时, 就是,每个病人有很多个records or say rows. 在处
: 理上并没有什么大的不同,除了数据极大是,有时需要运行的时间长一些.我担心没有答
: 到关键.
: 位置是marketing analysis, business analysis 方面的,请教大侠们,在这个行业中,
: 是指变量, variables 很多呢,还是仅仅是数据records 多呢? interviewer 想知道什
: 么呢? 有那些关键要回答呢? 在这个行业中,处理大数据用到什么techniques?
: 非常感谢!!

r********3
发帖数: 2998
12
1. Varaibles比较多的话,处理方法首先是人工选择一些相关的出来。另外,有一些
PCA啊,clustering之类的办法可以reduce dimensions.
2. records比较多的话,处理办法,一个是sample。另外你得用数据库,database。然
后通过SQL的分页查询来提取数据。至于数据处理,如果规模真的很大,可以考虑分布
式计算,比如MapReduce之类的平台。

【在 E****2 的大作中提到】
: 有几次在电话面试时, 被问到: 你有处理large data sets 的经验吗?
: 我只是很笼统地回答,有.因为: 本人现在在药厂工作. 工作中也有很大的数据. 但我们
: 的数据是关于病人的.数据大时, 就是,每个病人有很多个records or say rows. 在处
: 理上并没有什么大的不同,除了数据极大是,有时需要运行的时间长一些.我担心没有答
: 到关键.
: 位置是marketing analysis, business analysis 方面的,请教大侠们,在这个行业中,
: 是指变量, variables 很多呢,还是仅仅是数据records 多呢? interviewer 想知道什
: 么呢? 有那些关键要回答呢? 在这个行业中,处理大数据用到什么techniques?
: 非常感谢!!

h*******c
发帖数: 248
13
here is my definition of large data sets:
- when "sort" the data is not an option
- when you have to concern physical memory of the machine
- when you have to use temporary intermediate files
- when you concern about algorithm's complexity
E****2
发帖数: 247
14
Thanks!! it is very helpful.

【在 r********3 的大作中提到】
: 1. Varaibles比较多的话,处理方法首先是人工选择一些相关的出来。另外,有一些
: PCA啊,clustering之类的办法可以reduce dimensions.
: 2. records比较多的话,处理办法,一个是sample。另外你得用数据库,database。然
: 后通过SQL的分页查询来提取数据。至于数据处理,如果规模真的很大,可以考虑分布
: 式计算,比如MapReduce之类的平台。

E****2
发帖数: 247
15
Good definitions!
Thanks a lot!!

【在 h*******c 的大作中提到】
: here is my definition of large data sets:
: - when "sort" the data is not an option
: - when you have to concern physical memory of the machine
: - when you have to use temporary intermediate files
: - when you concern about algorithm's complexity

N**D
发帖数: 10322
16
T is called big years ago
now is P
G is nothing

【在 z**k 的大作中提到】
: 药厂数据也有很大的,in vitro的数据常常可以看到以G甚至T做单位的。
: 我觉得大样本数据最重要就是要keep organized,硬件的东西要懂一点,知道数据该放
: 哪里,怎么放,
: 要怎么index,怎么cache,各种统计模型优化问题的近似解法也要懂一些。
: 我还没有看到一个系统的讲解如何处理大样本数据的理论,所以我想大部分的问题都应
: 该是open
: question,你随便看几个方法,面试时讲明白就好了。
:
: trial's

n*****s
发帖数: 10232
17
p=1024t?

【在 N**D 的大作中提到】
: T is called big years ago
: now is P
: G is nothing

N**D
发帖数: 10322
18
right

【在 n*****s 的大作中提到】
: p=1024t?
1 (共1页)
进入Statistics版参与讨论
相关主题
请问工作中的large data experience一个sas问题的解决方法讨论
R program helplogistic regression question
sas base 70的两道题请教一个关与SAS data的问题
如何用R处理大文件诚心请教大data set到底该怎么分析?
面试有被问到how to analyze large data sets到底怎么样handle large date set(面试常问问题
Help: How to work with large data sets?请教sas base 70题里第29题。。。
多大的data算是large data set?请问有谁在工作中用过big data,有问题请教
求助:即将遭遇统计的第一个电话面试Capital One Data Scientist 电面
相关话题的讨论汇总
话题: 数据话题: data话题: large话题: sets话题: 面试