由买买提看人间百态

boards

本页内容为未名空间相应帖子的节选和存档,一周内的贴子最多显示50字,超过一周显示500字 访问原贴
JobHunting版 - 请问什么叫data modeling
相关主题
Electronic Arts job openings on Redwood City, CA[Job Opening] Model Validation positions in DC area
【工作机会】Model Risk Roles in IB (TKO and HK)data model confusion
招 Senior modeling analyst and modeling analyst 1 in San Antonio,TXTitle Source referral: data analyst/modeler
怎么样的码农工作算是“技术不高” “学不到东西”?[招人] VP Model Validation Analyst
state farm phone interview (转载)招 Senior modeling analyst
请教一下"update & balance a model" (转载)为什么面试程序员要问算法题?
statistical score modeling, and scoring models 是什么东西? (转载)找工作流水账(2)
两个offer选择 (转载)找工作流水账(3)
相关话题的讨论汇总
话题: data话题: modeling话题: modelling话题: 统计话题: model
进入JobHunting版参与讨论
1 (共1页)
f**********3
发帖数: 295
1
被问道,没有听说过这是什么
看了维基百科,觉得不知所云
http://en.wikipedia.org/wiki/Data_modeling
有没大牛介绍一下学习资料? 谢谢!
z****e
发帖数: 54598
2
没有什么学习材料,我觉得目前这块还处于扯蛋的地步
所谓model就是数据结构的抽象,data model就是抽象结构化的数据结构
稍微不同于本科数据结构课程里面学的list, set,map那些
这种数据结构一般是硬盘上的数据结构
modeling就是通过一个抽象化过程把model给建立起来
然后所有的数据都能够通过这种model来存放
db就是这种玩意下的产物,先建一个schema,然后根据schema这个结构
来实现具体的table,来存放具体的数据,里面有pk,fk这些东西
however
现在没有人care这些东西,结构化的数据需要大量的资源予以整理,而且很不灵活
现在都在挖掘,如何从无结构或者说很少的结构中抽取出你想要的结果
大量应用了统计等数学,东肥2012年那个列表里面
知识点有很大一部分是是关于这个的技术,比如tf idf这些
不过话说回来,统计本身也有model,但是这个model更象是一个动词
而非一般data model的那样,像是一个名词
或者说statistical modelling比data modelling,那恐怕是要高级一点
至少从我接触的感觉,data modelling里面扯蛋的居多,一节课说了半天
都不知道在干嘛,都是混,但是statistical modelling,那个牛逼
的的确确apply了math,要有一定数学功底才听得懂
当然也不是那么困难就是了,因为不需要证明那些model
记怎么用,难度算中上吧,跟数学证明还是难度不在一个层面上
但是比data modelling难度要高一个层级
z****e
发帖数: 54598
3
data modelling这种课,教什么er图这些,这个现在都给information system专业去上了
很多女孩子学这个,尤其印度女的喜欢读这个,他们出来直接找ba的工作
但是statistical modelling这种东西,一般至少也是master以上
而且本科最好学过统计线性代数这些,还有算法
不过算法在统计面前,你就可以感觉出来差别
大部分难点都是统计,而不是算法,甚至本科学的那些算法,真心不难,远不如统计顶用
因为面对无结构,或者结构混乱的数据,复杂度计算其实派不上太大用场
因为无结构要变成有意义的数据是从无到有的一个过程,这是最难的
统计工具尤其擅长把没有任何意义的东西变成有意义,make sense,统计用来做这个
算法复杂度是优化,从100000000到<10,这个难度下降很多,这就跟老张那个证明一样
老张的证明牛逼就牛逼在,他证明了从无限到有限,虽然这个有限很大
离最后2的距离还有点远
但是毕竟有限之内,比起无限到有限,一般来说,会容易很多
不过因为是cs课,所以有时候统计modelling也叫算法
反正互相换,哪个单词牛逼就用哪个
说到底,最后都难在数学上,离开了数学,其他就是扯蛋
数学三个层级,几何分析代数是主流,这个最难,难到学了想死
统计是应用数学,难度下降一个档次,也很难,但是如果不考证明,就不难
最后是算术,就是复杂度理论,优化理论,属于数学里面最低级的一档
这个真没有骗人,这三个我都正儿八经混过,难度还就是这么依次递减
z****e
发帖数: 54598
4
关于data modelling我能想到稍微有点难度的应该算是topology
图论,算一维拓扑,这个算几何,牛逼了,进入主流了
当你需要integrate database的时候
你可以根据metadata建一个topology,然后用dp优化你的图
牛逼了,刷leetcode的东西总算也用上了
g*****g
发帖数: 34805
5
就是你要开发一个应用,应用需要存储一些数据对象,把这些对象定义出来的过程。

【在 f**********3 的大作中提到】
: 被问道,没有听说过这是什么
: 看了维基百科,觉得不知所云
: http://en.wikipedia.org/wiki/Data_modeling
: 有没大牛介绍一下学习资料? 谢谢!

j**********3
发帖数: 3211
6
我也想要ba工作。。。

上了
顶用

【在 z****e 的大作中提到】
: data modelling这种课,教什么er图这些,这个现在都给information system专业去上了
: 很多女孩子学这个,尤其印度女的喜欢读这个,他们出来直接找ba的工作
: 但是statistical modelling这种东西,一般至少也是master以上
: 而且本科最好学过统计线性代数这些,还有算法
: 不过算法在统计面前,你就可以感觉出来差别
: 大部分难点都是统计,而不是算法,甚至本科学的那些算法,真心不难,远不如统计顶用
: 因为面对无结构,或者结构混乱的数据,复杂度计算其实派不上太大用场
: 因为无结构要变成有意义的数据是从无到有的一个过程,这是最难的
: 统计工具尤其擅长把没有任何意义的东西变成有意义,make sense,统计用来做这个
: 算法复杂度是优化,从100000000到<10,这个难度下降很多,这就跟老张那个证明一样

c***z
发帖数: 6348
7
大牛犀利
把我模模糊糊的对于DB的感觉一针见血的总结出来了
DB完全就是削足适履,一帮子不懂统计的人折腾个schema
等你需要数据去建模的时候,啥都没有,还得到clickstream里面去抽取
不如就直接HDFS把所有东西存了,让我自己来弄数据
最最倒霉的是,DB这帮人掌握了话语权,你还非得陪他们玩

【在 z****e 的大作中提到】
: 没有什么学习材料,我觉得目前这块还处于扯蛋的地步
: 所谓model就是数据结构的抽象,data model就是抽象结构化的数据结构
: 稍微不同于本科数据结构课程里面学的list, set,map那些
: 这种数据结构一般是硬盘上的数据结构
: modeling就是通过一个抽象化过程把model给建立起来
: 然后所有的数据都能够通过这种model来存放
: db就是这种玩意下的产物,先建一个schema,然后根据schema这个结构
: 来实现具体的table,来存放具体的数据,里面有pk,fk这些东西
: however
: 现在没有人care这些东西,结构化的数据需要大量的资源予以整理,而且很不灵活

h********3
发帖数: 2075
8
data modeling大致有2类方法。
第一类叫做generative model,就是找若干函数与参数,能够尽量产生与观测样本一模
一样的数据。简单来说,就是找一个joint probability, P(X,Y)。
http://en.wikipedia.org/wiki/Generative_model
第二类叫做discriminative model, 就是找若干函数与参数,能够尽量区分样本。简
单来说,就是找一个conditional probability, P(Y|X)。
http://en.wikipedia.org/wiki/Discriminative_model
c***z
发帖数: 6348
9
我胡乱说说
掌握data modeling的思路,好像就是把思维方式由row-wise 到 column-wise 的一个
转变
z****e
发帖数: 54598
10
是滴,我有同感
column based的东西比较便于统计
所以我很喜欢用c*
比起来,doc-based的那几个就不太适合
做个统计费老大劲了
一点一点数过去,不知道数到什么时候去
统计学家你多说点,我最近需要扯蛋
目前处于扯不出蛋的状态,急需科普

【在 c***z 的大作中提到】
: 我胡乱说说
: 掌握data modeling的思路,好像就是把思维方式由row-wise 到 column-wise 的一个
: 转变

相关主题
请教一下"update & balance a model" (转载)[Job Opening] Model Validation positions in DC area
statistical score modeling, and scoring models 是什么东西? (转载)data model confusion
两个offer选择 (转载)Title Source referral: data analyst/modeler
进入JobHunting版参与讨论
s*****r
发帖数: 43070
11
这是技术层面的,想搞data modeling,必须对所在领域的business logic非常熟悉,
比如在本版上面发个贴,需要有哪些table,哪些table会增加entry,哪些table记录状
态,都是讲究

上了
顶用

【在 z****e 的大作中提到】
: data modelling这种课,教什么er图这些,这个现在都给information system专业去上了
: 很多女孩子学这个,尤其印度女的喜欢读这个,他们出来直接找ba的工作
: 但是statistical modelling这种东西,一般至少也是master以上
: 而且本科最好学过统计线性代数这些,还有算法
: 不过算法在统计面前,你就可以感觉出来差别
: 大部分难点都是统计,而不是算法,甚至本科学的那些算法,真心不难,远不如统计顶用
: 因为面对无结构,或者结构混乱的数据,复杂度计算其实派不上太大用场
: 因为无结构要变成有意义的数据是从无到有的一个过程,这是最难的
: 统计工具尤其擅长把没有任何意义的东西变成有意义,make sense,统计用来做这个
: 算法复杂度是优化,从100000000到<10,这个难度下降很多,这就跟老张那个证明一样

r****t
发帖数: 10904
12
外行觉得就是统计建模解释数据的一个行当。

【在 f**********3 的大作中提到】
: 被问道,没有听说过这是什么
: 看了维基百科,觉得不知所云
: http://en.wikipedia.org/wiki/Data_modeling
: 有没大牛介绍一下学习资料? 谢谢!

c***z
发帖数: 6348
13
大牛想弄hardcore还是softcore
前者扯deep learning
后者扯Bayes inference
我都试过,效果不错
doc-based的可以扯topic mining, latent Dirichlet allocation, locality
sensitivity hashing
都很适合CS背景的人

【在 z****e 的大作中提到】
: 是滴,我有同感
: column based的东西比较便于统计
: 所以我很喜欢用c*
: 比起来,doc-based的那几个就不太适合
: 做个统计费老大劲了
: 一点一点数过去,不知道数到什么时候去
: 统计学家你多说点,我最近需要扯蛋
: 目前处于扯不出蛋的状态,急需科普

c***z
发帖数: 6348
14
完全同意大牛说的
补充一点
搞技术的,你要跟人家扯business
搞business的,要跟人家扯技术
但是要深入浅出,引人入胜

【在 s*****r 的大作中提到】
: 这是技术层面的,想搞data modeling,必须对所在领域的business logic非常熟悉,
: 比如在本版上面发个贴,需要有哪些table,哪些table会增加entry,哪些table记录状
: 态,都是讲究
:
: 上了
: 顶用

z****e
发帖数: 54598
15
Bayes inference
这个好,多谢多谢

【在 c***z 的大作中提到】
: 大牛想弄hardcore还是softcore
: 前者扯deep learning
: 后者扯Bayes inference
: 我都试过,效果不错
: doc-based的可以扯topic mining, latent Dirichlet allocation, locality
: sensitivity hashing
: 都很适合CS背景的人

j**********3
发帖数: 3211
16
mark我也想知道
1 (共1页)
进入JobHunting版参与讨论
相关主题
找工作流水账(3)state farm phone interview (转载)
第一次onsite感想请教一下"update & balance a model" (转载)
简历上需要照片吗?statistical score modeling, and scoring models 是什么东西? (转载)
一个contractor的工作机会 (转载)两个offer选择 (转载)
Electronic Arts job openings on Redwood City, CA[Job Opening] Model Validation positions in DC area
【工作机会】Model Risk Roles in IB (TKO and HK)data model confusion
招 Senior modeling analyst and modeling analyst 1 in San Antonio,TXTitle Source referral: data analyst/modeler
怎么样的码农工作算是“技术不高” “学不到东西”?[招人] VP Model Validation Analyst
相关话题的讨论汇总
话题: data话题: modeling话题: modelling话题: 统计话题: model