关于数据仓库的讨论汇总 - 话题女王

全部话题 - 话题: 数据仓库

y*****n
发帖数: 1

数据仓库是一个有意义的论题。
我下周准备在公司开一个数据仓库的讨论班，谁能够提供一些有关数据仓库的资料或者是
相关的网站信息。谢谢

B***i
发帖数: 297

'最近Gartner发布了2013年度BI和分析的魔力四象限图，同时Wikibon也发布了2013年
大数据市场预测，两份报告都明确指出，随着分析正在成为企业IT的核心，昔日的BI-
ETL-EDW分析范型已经完全落伍，不再适用。'
我这干了多年的'数据仓库'就完啦？以后都是'大数据'　和Hadoop天下？呜呼！
'数据仓库'还有多少年的寿命呀？

o*******8
发帖数: 249

来自主题: Database版 - 数据仓库update 大表

目前在做的数据仓库的一个项目。维度表需要drop掉几个column，drop完以后要重新合
并数据，删掉相同的行，然后update fact 表里的FK。
维度表一共400M 行, 需要清理其中的300M 行（4年的数据），清理目标目前看能压缩
到15M，所以值得清理。
有6个FACT 表，每个表大概 2.5B 行
每个维度表和fact 表都有大概10个左右的index
初步的策略是
1，在维度表里加一个flag 列和 NEW PK 列，把要删掉的行 flag = 1，并且给一个
新值给NEW PK
2，用维度表里的 NEW PK 去update fact 的FK
3，等 UAT 通过后把维度表里 flag = 1 的删除
4，目前不太想动index，因为建一个index 很费时间
这个过程SQL 不难写，无非就是计算NEW PK 和 flag 的值，然后 update。
难点是数据量太大，时间太长，有哪些好办法可以大大缩短时间的？

k*z
发帖数: 4704

来自主题: Statistics版 - 问一个初级的问题关于数据仓库的维度 (转载)

【以下文字转载自 Database 讨论区】
发信人: kiz (泥偶), 信区: Database
标题: 问一个初级的问题关于数据仓库的维度
发信站: BBS 未名空间站 (Tue Nov 12 15:20:30 2013, 美东)
如果我的OLTP表是一个宽表。里面有时间，地点，产品，产品属性，产品厂商，运营数
据等等。
现在数据是每天同步到ODS一个Staging数据库里。
如果我想把这个宽表拆成多个维度，和最后的事实表-运营数据。
我怎么让两个表里的维度key统一呢？如果增加了一个维度的值的话，怎么处理呢？这
个key怎么自增加，怎么保持唯一。
说的有点笼统，但是请尽量回答。谢谢。
一般来说生产库的表不会是宽表，但是我们这个数据库本身就是给前台用的优化过的逻
辑表。所以基本我们需要的东西都有了。

c*******s
发帖数: 4

来自主题: JobHunting版 - 数据仓库，求推荐

大家好：
我在国内工作超过5年，主要从事ETL、数据仓库类的建模、开发、测试、管理等工
作。数据Teradata 和 Oracle. 熟悉UNIX以及shell脚本等。同时也从事过J2EE工作(
CRM，STRUTS，老架构了)。大家有谁可以帮忙推荐的留下E-Mail.我把简历发给你。
谢谢了。

j********x
发帖数: 2330

来自主题: JobHunting版 - '大数据'干掉了'数据仓库'?

big-data长大了，比data warehouse更大了，也不能说是big data干死了数据仓库

k*z
发帖数: 4704

来自主题: Database版 - 问一个初级的问题关于数据仓库的维度

比如
我现在的表是
国家，省，城市，店名，年，月，日，时间，收入，费用，毛利，纯利，收银员，提成
比，提成
这个表本身是逻辑表，也就是个view, 是给前台经理通过一个User Form看的,应该是从
OLTP系统join多个表得来的，但是因为种种愿因吧。反正我没办法去拿到最原始的各个
table了。
我现在就把这个表当作我的原始数据了。我自己来重新构建这个数据仓库，理论上来
说，我要把这个表拆成多个维度的表和一张事实表-业务表。例如：
地理纬度:geokey 国家，省，城市
店面维度：geokey, storekey, 店名
时间维度: timekey，年，月，日
雇员维度：employeekey, titlekey, 雇员名，性别，年龄，etc
职位维度： titlekey, 职位，提成比
事实表（业务表): geokey, timekey, employeekey, 收入，收入，费用，毛利，纯利
我的问题是如何生成这些Key，然后如何维护这些Key。
生成的时候怎么保持唯一，维护的时候怎么保持唯一还有怎么增量添加。

k*z
发帖数: 4704

来自主题: Statistics版 - 问一个初级的问题关于数据仓库的维度 (转载)

比如
我现在的表是
国家，省，城市，店名，年，月，日，时间，收入，费用，毛利，纯利，收银员，提成
比，提成
这个表本身是逻辑表，也就是个view, 是给前台经理通过一个User Form看的,应该是从
OLTP系统join多个表得来的，但是因为种种愿因吧。反正我没办法去拿到最原始的各个
table了。
我现在就把这个表当作我的原始数据了。我自己来重新构建这个数据仓库，理论上来
说，我要把这个表拆成多个维度的表和一张事实表-业务表。例如：
地理纬度:geokey 国家，省，城市
店面维度：geokey, storekey, 店名
时间维度: timekey，年，月，日
雇员维度：employeekey, titlekey, 雇员名，性别，年龄，etc
职位维度： titlekey, 职位，提成比
事实表（业务表): geokey, timekey, employeekey, 收入，收入，费用，毛利，纯利
我的问题是如何生成这些Key，然后如啊何维护这些Key。
生成的时候怎么保持唯一，维护的时候怎么保持唯一还有怎么增量添加。

b********2
发帖数: 13

来自主题: JobMarket版 - 上海大数据公司诚招各路海外大数据英才

所有如下工作岗位都是基于上海。公司网站：WWW.Datageek.com.cn
All positions are located in Shanghai, China, and open to all levels of
experiences & skills. That's why salary for each position is open.
If you are suitable and interested in any of the following positions, please
write email to: [email protected]/* */ / [email protected]/* */
When writing to us, you must indicate which position you are interested in
or applying for.
--------------------------------------------------
公司简介
--------------------... 阅读全帖

发帖数: 1

来自主题: JobHunting版 - 猎头招聘BI分析数据仓储巴巴旗下物流平台－P7经理,P9总监 (转载)

【以下文字转载自 SanFrancisco 讨论区】
发信人: Kiwi20 (), 信区: SanFrancisco
标题: 猎头招聘BI分析数据仓储巴巴旗下物流平台－P7经理,P9总监
发信站: BBS 未名空间站 (Sat Feb 25 19:32:26 2017, 美东)
阿里巴巴齐下物流平台，邀请你加入未来世界级物流业巨无霸。Pre-IPO 机会，期权配
发的最佳时期，稳定的高成长机会。
现招募如下职位：
1. 职位名称：数据仓库专家
招聘人数：2
级别：P7 经理级别
部门：数据运营部
工作地点：杭州市
发布日期：2017-02-09
职能类别：技术类-数据
失效日期：2017-04-16
工作年限：三年以上
学历要求：本科
岗位要求：
1 从事数据仓库领域工作至少2年以上，熟悉数据仓库模型设计方法论，并有实际模型
设计及ETL开发经验
2 掌握大型数据库开发技术，如Oracle、Teradata、DB2、Mysql等等掌握至少其中一种
，灵活运用SQL实现海量数据ETL加工处理
3 熟悉数据仓库领域知识和管理技能，包括但不局限：元数据管理、数据质量、性能调... 阅读全帖

发帖数: 1

来自主题: SanFrancisco版 - 猎头招聘BI分析数据仓储巴巴旗下物流平台－P7经理,P9总监

阿里巴巴齐下物流平台，邀请你加入未来世界级物流业巨无霸。Pre-IPO 机会，期权配
发的最佳时期，稳定的高成长机会。
现招募如下职位：
1. 职位名称：数据仓库专家
招聘人数：2
级别：P7 经理级别
部门：数据运营部
工作地点：杭州市
发布日期：2017-02-09
职能类别：技术类-数据
失效日期：2017-04-16
工作年限：三年以上
学历要求：本科
岗位要求：
1 从事数据仓库领域工作至少2年以上，熟悉数据仓库模型设计方法论，并有实际模型
设计及ETL开发经验
2 掌握大型数据库开发技术，如Oracle、Teradata、DB2、Mysql等等掌握至少其中一种
，灵活运用SQL实现海量数据ETL加工处理
3 熟悉数据仓库领域知识和管理技能，包括但不局限：元数据管理、数据质量、性能调
优等
4 有从事分布式数据存储与计算平台应用开发经验，熟悉Hadoop生态相关技术并有相关
实践经验着优先
5 掌握一门或多门编程语言优先，如Java、Python、Perl等
6 最好熟悉Linux系统及常规shell处理命令
7 良好的语言沟通与表达能力和自我驱动动力
岗位描述：1 参... 阅读全帖

d********w
发帖数: 363

来自主题: JobHunting版 - 后Hadoop时代的大数据架构

http://dongfei.baijia.baidu.com/article/54768
提到大数据分析平台，不得不说Hadoop系统，Hadoop到现在也超过10年的历史了，很多
东西发生了变化，版本也从0.x进化到目前的2.6版本。我把2012年后定义成后Hadoop平
台时代，这不是说不用Hadoop，而是像NoSQL （Not Only SQL）那样，有其他的选型补
充。我在知乎上也写过Hadoop的一些入门文章如何学习Hadoop - 董飞的回答，为了给
大家有个铺垫，简单讲一些相关开源组件。
背景篇
Hadoop: 开源的数据分析平台，解决了大数据（大到一台计算机无法进行存储，一台计
算机无法在要求的时间内进行处理）的可靠存储和处理。适合处理非结构化数据，包括
HDFS，MapReduce基本组件。
HDFS：提供了一种跨服务器的弹性数据存储系统。
MapReduce：技术提供了感知数据位置的标准化处理流程：读取数据，对数据进行映射
（Map），使用某个键值对数据进行重排，然后对数据进行化简（Reduce）得到最终的
输出。
Amazon Elastic Map Red... 阅读全帖

d********w
发帖数: 363

来自主题: JobHunting版 - 后Hadoop时代的大数据架构

m***r
发帖数: 359

来自主题: DataSciences版 - 大数据日报 2015年3月楼

大数据日报 2015-03-09
@好东西传送门出品, 过刊见
http://bd.memect.com
订阅：给 [email protected]
/* */ 发封空信，标题: 订阅大数据日报
更好看的HTML版
http://bd.memect.com/archive/2015-03-09/short.html
1) 【The Spark Big Data Analytics Platform】 by @爱可可-爱生活
关键词：分析, 计算框架, 资源, PDF, Spark, 幻灯片
[幻灯]《The Spark Big Data Analytics Platform》 [1] 200+页的Spark大数据分析
讲义，内容覆盖Scala介绍、Spark数据探索、 Spark Streaming流处理、GraphX图分析
等，相当不错云: [2]
[1] https://www.sics.se/~amir/files/download/slides/csl_workshop.pdf
[2] http://pan.baidu.com/s/1rqczG
2) 【Me... 阅读全帖

H****g
发帖数: 14447

来自主题: Military版 - 汪洋向财政官员推荐《正在到来的数据革命》

大数据时代的“中国梦”——共识网专访涂子沛
发布时间:2012-07-24 08:19 作者:嘉宾：涂子沛 |采访人：杨传银、郑子蒙字号：大
中小点击: 6398次
涂子沛在接受共识网专访（郑子蒙 / 摄）
嘉宾简介：涂子沛，信息技术从业者，多家报刊网站专栏作家，华南理工大学公共
政策研究院副教授。曾在国内的公共部门和信息领域工作十年，后辞去公职赴美读书，
获卡内基梅隆大学信息技术科学硕士、公共管理硕士学位。新著有《大数据：正在到来
的数据革命》一书，已由广西师范大学出版社出版。
访谈时间：2012年7月2日下午
访谈地点：广西师范大学出版社（北京贝贝特出版顾问有限公司）
一、大数据：正在到来的数据革命
杨传银：您写《大数据：正在到来的数据革命》这本书的初衷在哪里？您说这不是
一本纯粹谈技术的书，而是以技术为背景探讨人和社会的关系的书，这个观察和写作的
角度是从什么时候开始建立的？
涂子沛：这本书应该说是时代浪潮的一个产物。我是理工科出身，大学毕业后我的
第一份工作就是数据库程序员。十几年之后，我在美国的第一份工作是数据仓库程序员
，从数据库变成了数据仓库，这也是我们从小数据... 阅读全帖

m***r
发帖数: 359

来自主题: DataSciences版 - 大数据日报 2015年2月楼

大数据日报 2015-02-08
@好东西传送门出品, 过刊见
http://bd.memect.com
订阅：给 [email protected]
/* */ 发封空信，标题: 订阅大数据日报
更好看的HTML版
http://bd.memect.com/archive/2015-02-08/short.html
1) 【CIO Network: Making Use of Imperfect Big Data】 by @爱可可-爱生活
关键词：应用, Amy Braverman, 视频
[视频]《CIO Network: Making Use of Imperfect Big Data》 [1] NASA的Amy
Braverman博士访谈，讲#大数据#时代如何用不同的数据集，形成有意义的结论，应对
大数据的不完美。要想清楚最主要的问题、数据采集渠道，采用新的统计工具，分布数
据的处理是大问题云: [2]
[1] http://www.wsj.com/video/cio-network-making-use-of-imperfect-big-data/727E3... 阅读全帖

发帖数: 1

来自主题: Military版 - 关税大棒打到自己 20多亿斤肉在美国仓库堆积成山(转载)

当地时间7月23日，美国农业部公布6月的冷藏库数据。其中肉类（包括禽类肉、猪牛等
红肉）总冷藏量已经超过23.7亿磅（约合21.5亿斤），超出一年前的储藏量。媒体分析
称，这是受美国关税政策影响，出口遇挫。
不过，6月的部分肉类，比如猪肉的冷藏量比5月相对减少。路透社表示，这得益于夏天
烧烤季，对肉的需求增多。
但报道也表示，就算国内需求增加，也无法取代出口，只能导致肉类在美国国内堆积如
山。
根据美国农业部23日公布的数据，仓库冷藏禽肉总量约为13.6亿磅（约合12.3亿斤）。
较上月增长3%，较去年增长6%。
仓库冷藏红肉总量约为10亿磅（约合9亿斤）。较上月下降7%，但较去年仍增长5%。其
中，猪腩虽然较5月下降16%，却比去年多了130%。
禽肉和红肉总冷藏量已经超过23.7亿磅。在23日美国农业部正式公布数据之前，《华尔
街日报》在22日就曾提前报道称，农业分析师表示，美国的肉类冷藏量已经突破25亿磅
。这一消息迅速得到了其他媒体，如《华盛顿邮报》、美国新闻网站“axios”、“今
日俄罗斯”（RT）等的转载、引述。
农业分析师表示，美国消费者对肉类的需求正在增长，但还不足以... 阅读全帖

d********w
发帖数: 363

来自主题: JobHunting版 - 大数据创业公司篇

这里面创业公司太多了，包含BI工具，数据存储和挖掘，应用等，我就简单说一些我感
兴趣的，其他的可以参考。
Palantir：超过百亿美金估值，已经是超级独角兽，就单独列出来。Peter Thiel创办
大数据公司。数据集成、信息管理和定量的分析。连接到商业、专有和公共数据集，
并发现趋势、关系和异常，包括预测分析。
##############
Database
MemSQL: 号称最快的内存数据库。
GraphSQL：高效、大容量的图形数据库和分析平台，创始人是国人。
MongoDB: 分布式文件存储的数据库
DataStax：主力开发Cassandra。
Hadoop
Altiscale: 提供的Hadoop作为一种服务（HAAS）
Qubole：Hadoop服务提供商，Pinterest也是它的客户
Splice Machine: 基于Hadoop的实时大数据技术公司，支持SQL 事务处理，并针对OLAP
和OLAP 应用进行实时优化处理
机器学习
Paxata：应用机器学习技术处理大数据难题
0xdata：H2O 的算法是面向业务流程——欺诈或趋势预测
Everstrin... 阅读全帖

m***r
发帖数: 359

来自主题: DataSciences版 - 大数据日报 2015年2月楼

大数据日报 2015-02-05
@好东西传送门出品, 过刊见
http://bd.memect.com
订阅：给 [email protected]
/* */ 发封空信，标题: 订阅大数据日报
更好看的HTML版
http://bd.memect.com/archive/2015-02-05/short.html
1) 【大数据解决方案:国美在线Apache Hadoop的大数据平台】 by @中国云计算论坛
关键词：计算框架, Hadoop
【大数据解决方案:国美在线Apache Hadoop的大数据平台】·Hadoop数据仓库有效实现
数据整合，存储商品数据、用户数据、交易数据、库存数据、物流数据等的最实时数据
。通过大数据平台的实时SQL分析引擎关联分析，更加高效、快速、全面的生产业务报
表 [1]
[1] http://www.thebigdata.cn/Hadoop/13398.html
2) 【手把手教你用Docker部署一个MongoDB集群】 by @DockerOne
关键词：数据库, 虚拟化, Docker, MongoDB, 容器
【手把手教... 阅读全帖

m***r
发帖数: 359

来自主题: DataSciences版 - 大数据日报 2015年3月楼

大数据日报 2015-03-03
@好东西传送门出品, 过刊见
http://bd.memect.com
订阅：给 [email protected]
/* */ 发封空信，标题: 订阅大数据日报
更好看的HTML版
http://bd.memect.com/archive/2015-03-03/short.html
1) 【如何挑选合适的大数据或Hadoop平台?】 by @酷勤网-程序员的那点事
关键词：计算框架, Hadoop
《如何挑选合适的大数据或Hadoop平台?》IBM、Oracle、SAP、甚至Microsoft等几乎所
有的大型软件提供商都采用了Hadoop。然而，当你已经决定要使用Hadoop来处理大数据
时，首先碰到的问题就是如何开始以及选择哪一种产品。 [1] （来自：百度空间）
[1] http://www.kuqin.com/shuoit/20150225/344912.html
长微博图：http://ww3.sinaimg.cn/large/a1ab8e59jw1epslmfxhnfj20c85zikjl.jpg
2) 【10x系列之C... 阅读全帖

m***r
发帖数: 359

来自主题: DataSciences版 - 大数据日报 2015年3月楼

发帖数: 1

来自主题: JobMarket版 - 【滴滴出行】【大数据Java工程师/架构师】--中国北京

岗位职责：
1.负责大数据相关产品设计和开发，参与需求分析，系统分析及详细设计
2 负责滴滴数据平台系统的架构&开发，系统承载数据报表、工具平台、数据服务及大
数据可视化相关项目
3.负责数据可视化及数据服务项目架构&开发
任职要求：
1. 研究生或以上学历，计算机相关专业，3年以上工作经验，1年以上大数据相关产
品研发经验
2.JAVA基础扎实，理解io、多线程、集合等基础知识，对JVM原理有一定的了解；
3.熟悉Python/shell等一种或多种脚本语言
4.熟悉大型分布式系统设计与开发，熟悉各种web缓存、消息队列技术原理。在实际项
目中使用过redis、kafka。
5.熟悉MySQL数据库原理及常用优化方法
6.具备良好的工程意识，熟悉git代码管理流程，熟悉maven项目管理工具。
7.熟悉hadoop，有MapReduce开发经验，了解YARN。
8.密切关注大数据相关技术的发展趋势,有hadoop/hbase/Kafka/flume/Zookeeper/
spark/kylin/es等相关技术研究或开发经验者优先
滴滴出行3年多时间，发展到5千人的规模，大数据作... 阅读全帖

a*****c
发帖数: 2086

来自主题: Military版 - 双十一又要到了，让我们看看这次淘宝在大规模数据上表现如何

有些人啊，没有真正的去做过一个project，没有深入去参与其中的开发，就在那里想
当然的发表评论。真正做下去了才知道会碰到多少问题需要去考虑去解决的。一个短时
间内承受巨大交易量，要做到不能当机，让用户不感到速度变慢，购物历史和更新记录
不能冲突，背后采用怎样技术才能支撑，我还是贴个淘宝技术的科普吧。
【编者按】对于淘宝网而言，2012年的“双十一”是一个交易里程碑，是一个购物狂欢
日，在这个“神棍节”里，淘宝创下191亿元的交易额，在交易的背后隐藏着哪些复杂
技术？
你发现快要过年了，于是想给你的女朋友买一件毛衣，你打开了www.taobao.com。这时
你的浏览器首先查询DNS服务器，将www.taobao.com转换成ip地址。不过首先你会发现
，你在不同的地区或者不同的网络（电信、联通、移动）的情况下，转换后的IP地址很
可能是不一样的，这首先涉及到负载均衡的第一步，通过DNS解析域名时将你的访问分
配到不同的入口，同时尽可能保证你所访问的入口是所有入口中可能较快的一个 (这和
后文的CDN不一样)。
你通过这个入口成功的访问了www.taobao.com的实际的入口IP... 阅读全帖

m***r
发帖数: 359

来自主题: DataSciences版 - 大数据日报 2015年3月楼

大数据日报 2015-03-16
@好东西传送门出品, 过刊见
http://bd.memect.com
订阅：给 [email protected]
/* */ 发封空信，标题: 订阅大数据日报
更好看的HTML版
http://bd.memect.com/archive/2015-03-16/short.html
1) 【Kitematic官方文档汇总】 by @DockerOne
关键词：虚拟化, Docker, 容器
【Kitematic官方文档汇总】周末DockerOne组织翻译了Kitematic的官方文档，
Kitematic是一个 Docker GUI 工具，它可以在 Mac 上更快速、更简单的运行Docker。
接下来也将支持Windows，从Twitter了解到Kitematic的重点也会在Windows上。 [1]
[1] http://dockerone.com/article/254
2) 【有哪些优秀的 Scala 开源项目？】 by @hongjiang_wang
关键词：计算框架, Kafka, Spark, 流计算
我在 @知乎回答了... 阅读全帖

d****n
发帖数: 12461

来自主题: JobHunting版 - '大数据'干掉了'数据仓库'?

要说大数据，搞离子对撞的科学家10多年以前就处理上亿的数据了，并且给我们带来了
重要的经验：
要让数据有用，就得扔掉99.5%以上的无关数据，给剩下的0.5%的数据匹配上理论解释
，最后发出paper。
所以虽然说大数据的前景不可限量，但是现在主要是几个卖产品的公司在给几个引导市
场的公司宣传概念。

h********3
发帖数: 2075

来自主题: JobHunting版 - '大数据'干掉了'数据仓库'?

对。真正的大数据是在自然科学界。互联网所有数据加起来，还真的不比不过欧洲高速
粒子对撞机1分钟产生的数据。
早在N年前，NASA就搜索行星的项目对大数据分析提出过挑战。那个挑战也远大于现在
互联网数据。

B***i
发帖数: 297

来自主题: JobHunting版 - '大数据'干掉了'数据仓库'?

新的数据革命，关系到我们每个人. 用Hadoop, NoSQL 技术，这里有帖子。这是数据的
的方向因为大量数据在网上。

g*****g
发帖数: 34805

来自主题: Programming版 - 大数据

所谓大数据，是指处理超出传统关系数据库，数据仓库处理能力的，必须用成百上千台
机器并行处理的一些方法。标志性的就是以AWS为首的云计算，以及以Hadoop为首的一
系列框架，使得海量计算可以在企业里普及。这是关系数据库在企业普及之后的一次明
显计算能力提升。
任何东西都有源头，绝大多数技术革新都是以前技术的改进，不等于就是忽悠。云计算
之前就有主机托管，不等于云计算是忽悠。社交网络诞生之前就有BBS，不妨碍社交网
络赚钱。微信之前就有QQ，不妨碍whatsapp买190亿。
谈到大数据版上最可笑的论点就是一是比大，另一个是比早。个人电脑出现的时候，既
不比小型机快，更不比大型机早，不妨碍它是技术革命。而井喷更是90年代IBM兼容机
进入平民级消费，而不是80年代Mac刚出来的时候。同样企业计算80年代之前就有，在
90年代才开始普及，从VB到Java，一系列码农职位都是这时候出现的。之前CS还不如EE
和外贸专业火爆。
一个技术井喷，往往是普及的时候。我成天强调做饼，普及恰恰是饼迅速做大，热钱迅
速流入，个人有可能跟随IPO获利的时候。海量数据处理，最大最早，无疑都是卫星云
图处理，N... 阅读全帖

发帖数: 1

来自主题: JobMarket版 - 【滴滴出行】【大数据--后台算法工程师】--中国北京

工作职责：
1. 服务器端后台算法系统的开发，重构与维护。
2. 后端数据处理、数据分析系统优化。
岗位要求：
1. 3年以上互联网公司开发经验，从事过大型系统的架构与研发工作。
2. 熟练使用C++/Python/Java语言，熟悉各种开源类库的使用与开发.
3. 熟悉机器学习系统架构，有机器学习系统开发经验者优先。
4. 对并行系统流程熟悉，熟悉MySQL与Hive SQL优化，有Hive/Spark/HBase等开发经验
者优先。
5. 较强的学习、分析问题的能力，良好的团队合作意识与跨部门沟通的能力。
6. 开源社区贡献代码者优先。
滴滴出行3年多时间，发展到5千人的规模，大数据作为我们最重要的部门，正为滴滴出
行打造智能的一站式出行平台(目前平台的服务包括专车、快车、顺风车、出租车、巴
士、代驾、试驾等业务)。在这里，你既可以跟国际一流的机器学习专家学习到实用的
机器学习技术，又能够深度接触公司最核心的业务，直接参与到一线产品的研究和开发
当中，提升自己的业务能力，同时还有一份优厚的工资在等着你。还在犹豫什么，赶紧
投简历到[email protected]/* ... 阅读全帖

k*z
发帖数: 4704

来自主题: Database版 - 问一个初级的问题关于数据仓库的维度

如果我的OLTP表是一个宽表。里面有时间，地点，产品，产品属性，产品厂商，运营数
据等等。
现在数据是每天同步到ODS一个Staging数据库里。
如果我想把这个宽表拆成多个维度，和最后的事实表-运营数据。
我怎么让两个表里的key同意呢？如果增加了一个维度的值的话，怎么处理呢？
说的有点笼统，但是请尽量回答。谢谢。
一般来说生产库的表不会是宽表，但是我们这个数据库本身就是给前台用的优化过的逻
辑表。所以基本我们需要的东西都有了。

w****r
发帖数: 15252

来自主题: JobHunting版 - '大数据'干掉了'数据仓库'?

什么是大数据

l*********y
发帖数: 1431

来自主题: JobHunting版 - '大数据'干掉了'数据仓库'?

Tera or Peta bytes级别的数据

r****o
发帖数: 1950

来自主题: JobHunting版 - '大数据'干掉了'数据仓库'?

大数据跟存储有关系吗?

t***j
发帖数: 2620

来自主题: JobHunting版 - '大数据'干掉了'数据仓库'?

搞理科的科学家为了发垃圾paper manipulate数据，工科的data minibg可不是这么作
的。

[发表自未名空间手机版 - m.mitbbs.com]

s**********o
发帖数: 14359

来自主题: Database版 - 问一个初级的问题关于数据仓库的维度

懂了，你看不到人OLTP的MODEL，只是看到人用的VIEW，所以你根本不知道别人的DATA
MODEL是什么，你等于要重新NORMALIZE到自己的MODEL里，重新清理数据FITIN你的
NORMALIZED MODEL里，
数据清理干净后，再重新建DW，当然这些KEY是你自己建的，跟原来的MODEL没关系

k*z
发帖数: 4704

来自主题: Database版 - 问一个初级的问题关于数据仓库的维度

yes，有什么教程么？怎么建这个Key？这个diagram我也能画出来，但是这个key一般都
是怎么建啊？说白了就是怎么生成？应该建什么Key我也大概知道，
理论上说：
应该是增加一个城市，geokey在地区维度上就要自增一，同理加一个雇员就要在雇员表
里自增1，但是我这个数据是从宽表里面来的，每次有新数据进来，我岂不是要都要每
一行的每个维度都要lookup一下么？

o*******8
发帖数: 249

来自主题: Database版 - 数据仓库update 大表

“ 非要 UPDATE 的地方，也要在清除大部分存檔數據之後進行”
---请问能详细解释下这是什么意思吗？
维度表数据450G，index 220G。fact表一个表数据1700G，index 1300G，有6个fact表
。建这么多这么大的新表加index也要很长时间吧。。
锁表也考虑过，打算按时间分成小的batch做loop，比如三个月一个batch。然后肯定是
周末做。希望一天能做完，但是现在初步测试算了下总时间大大超过一天了。

x******r
发帖数: 367

来自主题: DataSciences版 - 组建互联网公司数据团队

大家好！
大家有没有组建互联网公司数据团队的建议？除了数据仓库/数据挖掘等，还要注意一
些什么？。主要是有没有系统性的阐述文章？谢谢。

t****y
发帖数: 545

来自主题: BuildingWeb版 - startup寻找精通web开发，数据库/仓库的partner