由买买提看人间百态

topics

全部话题 - 话题: 数据仓库
1 2 3 4 5 6 7 8 9 10 下页 末页 (共10页)
y*****n
发帖数: 1
1
来自主题: Database版 - 关于数据仓库的讨论
数据仓库是一个有意义的论题。
我下周准备在公司开一个数据仓库的讨论班,谁能够提供一些有关数据仓库的资料或者是
相关的网站信息。谢谢
B***i
发帖数: 297
2
来自主题: JobHunting版 - '大数据'干掉了'数据仓库'?
'最近Gartner发布了2013年度BI和分析的魔力四象限图,同时Wikibon也发布了2013年
大数据市场预测,两份报告都明确指出,随着分析正在成为企业IT的核心,昔日的BI-
ETL-EDW分析范型已经完全落伍,不再适用。'
我这干了多年的'数据仓库'就完啦?以后都是'大数据' 和Hadoop天下?呜呼!
'数据仓库'还有多少年的寿命呀?
o*******8
发帖数: 249
3
来自主题: Database版 - 数据仓库update 大表
目前在做的数据仓库的一个项目。维度表需要drop掉几个column,drop完以后要重新合
并数据,删掉相同的行,然后update fact 表里的FK。
维度表一共400M 行, 需要清理其中的300M 行 (4年的数据),清理目标目前看能压缩
到15M,所以值得清理。
有6个FACT 表,每个表大概 2.5B 行
每个维度表和fact 表都有大概10个左右的index
初步的策略是
1, 在维度表里加一个flag 列 和 NEW PK 列,把要删掉的行 flag = 1,并且给一个
新值给NEW PK
2,用维度表里的 NEW PK 去update fact 的FK
3,等 UAT 通过后 把维度表里 flag = 1 的删除
4,目前不太想动index,因为建一个index 很费时间
这个过程SQL 不难写,无非就是计算NEW PK 和 flag 的值,然后 update。
难点是数据量太大,时间太长,有哪些好办法可以大大缩短时间的?
k*z
发帖数: 4704
4
【 以下文字转载自 Database 讨论区 】
发信人: kiz (泥偶), 信区: Database
标 题: 问一个初级的问题关于数据仓库的维度
发信站: BBS 未名空间站 (Tue Nov 12 15:20:30 2013, 美东)
如果我的OLTP表是一个宽表。里面有时间,地点,产品,产品属性,产品厂商,运营数
据等等。
现在数据是每天同步到ODS一个Staging数据库里。
如果我想把这个宽表拆成 多个维度,和最后的事实表-运营数据。
我怎么让两个表里的维度key统一呢?如果增加了一个维度的值的话,怎么处理呢?这
个key怎么自增加,怎么保持唯一。
说的有点笼统,但是请尽量回答。谢谢。
一般来说生产库的表不会是宽表,但是我们这个数据库本身就是给前台用的优化过的逻
辑表。所以基本我们需要的东西都有了。
c*******s
发帖数: 4
5
来自主题: JobHunting版 - 数据仓库,求推荐
大家好:
我在国内工作超过5年,主要从事ETL、数据仓库类的建模、开发、测试、管理等工
作。数据Teradata 和 Oracle. 熟悉UNIX以及shell脚本等。同时也从事过J2EE工作(
CRM,STRUTS,老架构了)。大家有谁可以帮忙推荐的留下E-Mail.我把简历发给你。
谢谢了。
j********x
发帖数: 2330
6
来自主题: JobHunting版 - '大数据'干掉了'数据仓库'?
big-data长大了,比data warehouse更大了,也不能说是big data干死了数据仓库
k*z
发帖数: 4704
7
比如
我现在的表是
国家,省,城市,店名,年,月,日,时间,收入,费用,毛利,纯利,收银员,提成
比,提成
这个表本身是逻辑表,也就是个view, 是给前台经理通过一个User Form看的,应该是从
OLTP系统join多个表得来的,但是因为种种愿因吧。反正我没办法去拿到最原始的各个
table了。
我现在就把这个表当作我的原始数据了。 我自己来重新构建这个数据仓库,理论上来
说,我要把这个表拆成多个维度的表和一张事实表-业务表。例如:
地理纬度:geokey 国家,省,城市
店面维度:geokey, storekey, 店名
时间维度: timekey, 年,月,日
雇员维度:employeekey, titlekey, 雇员名,性别,年龄,etc
职位维度: titlekey, 职位,提成比
事实表(业务表): geokey, timekey, employeekey, 收入,收入,费用,毛利,纯利
我的问题是如何生成这些Key,然后如何维护这些Key。
生成的时候怎么保持唯一,维护的时候怎么保持唯一还有怎么增量添加。
k*z
发帖数: 4704
8
比如
我现在的表是
国家,省,城市,店名,年,月,日,时间,收入,费用,毛利,纯利,收银员,提成
比,提成
这个表本身是逻辑表,也就是个view, 是给前台经理通过一个User Form看的,应该是从
OLTP系统join多个表得来的,但是因为种种愿因吧。反正我没办法去拿到最原始的各个
table了。
我现在就把这个表当作我的原始数据了。 我自己来重新构建这个数据仓库,理论上来
说,我要把这个表拆成多个维度的表和一张事实表-业务表。例如:
地理纬度:geokey 国家,省,城市
店面维度:geokey, storekey, 店名
时间维度: timekey, 年,月,日
雇员维度:employeekey, titlekey, 雇员名,性别,年龄,etc
职位维度: titlekey, 职位,提成比
事实表(业务表): geokey, timekey, employeekey, 收入,收入,费用,毛利,纯利
我的问题是如何生成这些Key,然后如啊何维护这些Key。
生成的时候怎么保持唯一,维护的时候怎么保持唯一还有怎么增量添加。
b********2
发帖数: 13
9
所有如下工作岗位都是基于上海。公司网站:WWW.Datageek.com.cn
All positions are located in Shanghai, China, and open to all levels of
experiences & skills. That's why salary for each position is open.
If you are suitable and interested in any of the following positions, please
write email to: [email protected]/* */ / [email protected]/* */
When writing to us, you must indicate which position you are interested in
or applying for.
--------------------------------------------------
公司简介
--------------------... 阅读全帖

发帖数: 1
10
【 以下文字转载自 SanFrancisco 讨论区 】
发信人: Kiwi20 (), 信区: SanFrancisco
标 题: 猎头招聘BI分析数据仓储 巴巴旗下物流平台-P7经理,P9总监
发信站: BBS 未名空间站 (Sat Feb 25 19:32:26 2017, 美东)
阿里巴巴齐下物流平台,邀请你加入未来世界级物流业巨无霸。Pre-IPO 机会,期权配
发的最佳时期,稳定的高成长机会。
现招募如下职位:
1. 职位名称:数据仓库专家
招聘人数:2
级别:P7 经理级别
部门:数据运营部
工作地点:杭州市
发布日期:2017-02-09
职能类别:技术类-数据
失效日期:2017-04-16
工作年限:三年以上
学历要求:本科
岗位要求:
1 从事数据仓库领域工作至少2年以上,熟悉数据仓库模型设计方法论,并有实际模型
设计及ETL开发经验
2 掌握大型数据库开发技术,如Oracle、Teradata、DB2、Mysql等等掌握至少其中一种
,灵活运用SQL实现海量数据ETL加工处理
3 熟悉数据仓库领域知识和管理技能,包括但不局限:元数据管理、数据质量、性能调... 阅读全帖

发帖数: 1
11
阿里巴巴齐下物流平台,邀请你加入未来世界级物流业巨无霸。Pre-IPO 机会,期权配
发的最佳时期,稳定的高成长机会。
现招募如下职位:
1. 职位名称:数据仓库专家
招聘人数:2
级别:P7 经理级别
部门:数据运营部
工作地点:杭州市
发布日期:2017-02-09
职能类别:技术类-数据
失效日期:2017-04-16
工作年限:三年以上
学历要求:本科
岗位要求:
1 从事数据仓库领域工作至少2年以上,熟悉数据仓库模型设计方法论,并有实际模型
设计及ETL开发经验
2 掌握大型数据库开发技术,如Oracle、Teradata、DB2、Mysql等等掌握至少其中一种
,灵活运用SQL实现海量数据ETL加工处理
3 熟悉数据仓库领域知识和管理技能,包括但不局限:元数据管理、数据质量、性能调
优等
4 有从事分布式数据存储与计算平台应用开发经验,熟悉Hadoop生态相关技术并有相关
实践经验着优先
5 掌握一门或多门编程语言优先,如Java、Python、Perl等
6 最好熟悉Linux系统及常规shell处理命令
7 良好的语言沟通与表达能力和自我驱动动力
岗位描述:1 参... 阅读全帖
d********w
发帖数: 363
12
来自主题: JobHunting版 - 后Hadoop时代的大数据架构
http://dongfei.baijia.baidu.com/article/54768
提到大数据分析平台,不得不说Hadoop系统,Hadoop到现在也超过10年的历史了,很多
东西发生了变化,版本也从0.x进化到目前的2.6版本。我把2012年后定义成后Hadoop平
台时代,这不是说不用Hadoop,而是像NoSQL (Not Only SQL)那样,有其他的选型补
充。我在知乎上也写过Hadoop的一些入门文章 如何学习Hadoop - 董飞的回答,为了给
大家有个铺垫,简单讲一些相关开源组件。
背景篇
Hadoop: 开源的数据分析平台,解决了大数据(大到一台计算机无法进行存储,一台计
算机无法在要求的时间内进行处理)的可靠存储和处理。适合处理非结构化数据,包括
HDFS,MapReduce基本组件。
HDFS:提供了一种跨服务器的弹性数据存储系统。
MapReduce:技术提供了感知数据位置的标准化处理流程:读取数据,对数据进行映射
(Map),使用某个键值对数据进行重排,然后对数据进行化简(Reduce)得到最终的
输出。
Amazon Elastic Map Red... 阅读全帖
d********w
发帖数: 363
13
来自主题: JobHunting版 - 后Hadoop时代的大数据架构
http://dongfei.baijia.baidu.com/article/54768
提到大数据分析平台,不得不说Hadoop系统,Hadoop到现在也超过10年的历史了,很多
东西发生了变化,版本也从0.x进化到目前的2.6版本。我把2012年后定义成后Hadoop平
台时代,这不是说不用Hadoop,而是像NoSQL (Not Only SQL)那样,有其他的选型补
充。我在知乎上也写过Hadoop的一些入门文章 如何学习Hadoop - 董飞的回答,为了给
大家有个铺垫,简单讲一些相关开源组件。
背景篇
Hadoop: 开源的数据分析平台,解决了大数据(大到一台计算机无法进行存储,一台计
算机无法在要求的时间内进行处理)的可靠存储和处理。适合处理非结构化数据,包括
HDFS,MapReduce基本组件。
HDFS:提供了一种跨服务器的弹性数据存储系统。
MapReduce:技术提供了感知数据位置的标准化处理流程:读取数据,对数据进行映射
(Map),使用某个键值对数据进行重排,然后对数据进行化简(Reduce)得到最终的
输出。
Amazon Elastic Map Red... 阅读全帖
m***r
发帖数: 359
14
来自主题: DataSciences版 - 大数据日报 2015年3月楼
大数据日报 2015-03-09
@好东西传送门 出品, 过刊见
http://bd.memect.com
订阅:给 [email protected]
/* */ 发封空信, 标题: 订阅大数据日报
更好看的HTML版
http://bd.memect.com/archive/2015-03-09/short.html
1) 【The Spark Big Data Analytics Platform】 by @爱可可-爱生活
关键词:分析, 计算框架, 资源, PDF, Spark, 幻灯片
[幻灯]《The Spark Big Data Analytics Platform》 [1] 200+页的Spark大数据分析
讲义,内容覆盖Scala介绍、Spark数据探索、 Spark Streaming流处理、GraphX图分析
等,相当不错 云: [2]
[1] https://www.sics.se/~amir/files/download/slides/csl_workshop.pdf
[2] http://pan.baidu.com/s/1rqczG
2) 【Me... 阅读全帖
H****g
发帖数: 14447
15
大数据时代的“中国梦”——共识网专访涂子沛
发布时间:2012-07-24 08:19 作者:嘉宾:涂子沛 |采访人:杨传银、郑子蒙 字号:大
中 小 点击: 6398次
涂子沛在接受共识网专访 (郑子蒙 / 摄)
嘉宾简介:涂子沛,信息技术从业者,多家报刊网站专栏作家,华南理工大学公共
政策研究院副教授。曾在国内的公共部门和信息领域工作十年,后辞去公职赴美读书,
获卡内基梅隆大学信息技术科学硕士、公共管理硕士学位。新著有《大数据:正在到来
的数据革命》一书,已由广西师范大学出版社出版。
访谈时间:2012年7月2日下午
访谈地点:广西师范大学出版社(北京贝贝特出版顾问有限公司)
一、大数据:正在到来的数据革命
杨传银:您写《大数据:正在到来的数据革命》这本书的初衷在哪里?您说这不是
一本纯粹谈技术的书,而是以技术为背景探讨人和社会的关系的书,这个观察和写作的
角度是从什么时候开始建立的?
涂子沛:这本书应该说是时代浪潮的一个产物。我是理工科出身,大学毕业后我的
第一份工作就是数据库程序员。十几年之后,我在美国的第一份工作是数据仓库程序员
,从数据库变成了数据仓库,这也是我们从小数据... 阅读全帖
m***r
发帖数: 359
16
来自主题: DataSciences版 - 大数据日报 2015年2月楼
大数据日报 2015-02-08
@好东西传送门 出品, 过刊见
http://bd.memect.com
订阅:给 [email protected]
/* */ 发封空信, 标题: 订阅大数据日报
更好看的HTML版
http://bd.memect.com/archive/2015-02-08/short.html
1) 【CIO Network: Making Use of Imperfect Big Data】 by @爱可可-爱生活
关键词:应用, Amy Braverman, 视频
[视频]《CIO Network: Making Use of Imperfect Big Data》 [1] NASA的Amy
Braverman博士访谈,讲#大数据#时代如何用不同的数据集,形成有意义的结论,应对
大数据的不完美。要想清楚最主要的问题、数据采集渠道,采用新的统计工具,分布数
据的处理是大问题 云: [2]
[1] http://www.wsj.com/video/cio-network-making-use-of-imperfect-big-data/727E3... 阅读全帖

发帖数: 1
17
当地时间7月23日,美国农业部公布6月的冷藏库数据。其中肉类(包括禽类肉、猪牛等
红肉)总冷藏量已经超过23.7亿磅(约合21.5亿斤),超出一年前的储藏量。媒体分析
称,这是受美国关税政策影响,出口遇挫。
不过,6月的部分肉类,比如猪肉的冷藏量比5月相对减少。路透社表示,这得益于夏天
烧烤季,对肉的需求增多。
但报道也表示,就算国内需求增加,也无法取代出口,只能导致肉类在美国国内堆积如
山。
根据美国农业部23日公布的数据,仓库冷藏禽肉总量约为13.6亿磅(约合12.3亿斤)。
较上月增长3%,较去年增长6%。
仓库冷藏红肉总量约为10亿磅(约合9亿斤)。较上月下降7%,但较去年仍增长5%。其
中,猪腩虽然较5月下降16%,却比去年多了130%。
禽肉和红肉总冷藏量已经超过23.7亿磅。在23日美国农业部正式公布数据之前,《华尔
街日报》在22日就曾提前报道称,农业分析师表示,美国的肉类冷藏量已经突破25亿磅
。这一消息迅速得到了其他媒体,如《华盛顿邮报》、美国新闻网站“axios”、“今
日俄罗斯”(RT)等的转载、引述。
农业分析师表示,美国消费者对肉类的需求正在增长,但还不足以... 阅读全帖
d********w
发帖数: 363
18
来自主题: JobHunting版 - 大数据创业公司篇
这里面创业公司太多了,包含BI工具,数据存储和挖掘,应用等,我就简单说一些我感
兴趣的,其他的可以参考。
Palantir:超过百亿美金估值,已经是超级独角兽,就单独列出来。Peter Thiel创办
大数据公司。数据集成、 信息管理和定量的分析。连接到商业、 专有和公共数据集,
并发现趋势、 关系和异常,包括预测分析。
##############
Database
MemSQL: 号称最快的内存数据库。
GraphSQL:高效、大容量的图形数据库和分析平台,创始人是国人。
MongoDB: 分布式文件存储的数据库
DataStax:主力开发Cassandra。
Hadoop
Altiscale: 提供的Hadoop作为一种服务(HAAS)
Qubole:Hadoop服务提供商,Pinterest也是它的客户
Splice Machine: 基于Hadoop的实时大数据技术公司,支持SQL 事务处理,并针对OLAP
和OLAP 应用进行实时优化处理
机器学习
Paxata:应用机器学习技术处理大数据难题
0xdata:H2O 的算法是面向业务流程——欺诈或趋势预测
Everstrin... 阅读全帖
m***r
发帖数: 359
19
来自主题: DataSciences版 - 大数据日报 2015年2月楼
大数据日报 2015-02-05
@好东西传送门 出品, 过刊见
http://bd.memect.com
订阅:给 [email protected]
/* */ 发封空信, 标题: 订阅大数据日报
更好看的HTML版
http://bd.memect.com/archive/2015-02-05/short.html
1) 【大数据解决方案:国美在线Apache Hadoop的大数据平台】 by @中国云计算论坛
关键词:计算框架, Hadoop
【大数据解决方案:国美在线Apache Hadoop的大数据平台】·Hadoop数据仓库有效实现
数据整合,存储商品数据、用户数据、交易数据、库存数据、物流数据等的最实时数据
。通过大数据平台的实时SQL分析引擎关 联分析,更加高效、快速、全面的生产业务报
表 [1]
[1] http://www.thebigdata.cn/Hadoop/13398.html
2) 【手把手教你用Docker部署一个MongoDB集群】 by @DockerOne
关键词:数据库, 虚拟化, Docker, MongoDB, 容器
【手把手教... 阅读全帖
m***r
发帖数: 359
20
来自主题: DataSciences版 - 大数据日报 2015年3月楼
大数据日报 2015-03-03
@好东西传送门 出品, 过刊见
http://bd.memect.com
订阅:给 [email protected]
/* */ 发封空信, 标题: 订阅大数据日报
更好看的HTML版
http://bd.memect.com/archive/2015-03-03/short.html
1) 【如何挑选合适的大数据或Hadoop平台?】 by @酷勤网-程序员的那点事
关键词:计算框架, Hadoop
《如何挑选合适的大数据或Hadoop平台?》IBM、Oracle、SAP、甚至Microsoft等几乎所
有的大型软件提供商都采用了Hadoop。然而,当你已经决定要使用Hadoop来处理大数据
时,首先碰到的问题就是如何开始以及选择哪一种产品。 [1] (来自: 百度空间)
[1] http://www.kuqin.com/shuoit/20150225/344912.html
长微博图:http://ww3.sinaimg.cn/large/a1ab8e59jw1epslmfxhnfj20c85zikjl.jpg
2) 【10x系列之C... 阅读全帖
m***r
发帖数: 359
21
来自主题: DataSciences版 - 大数据日报 2015年3月楼
大数据日报 2015-03-03
@好东西传送门 出品, 过刊见
http://bd.memect.com
订阅:给 [email protected]
/* */ 发封空信, 标题: 订阅大数据日报
更好看的HTML版
http://bd.memect.com/archive/2015-03-03/short.html
1) 【如何挑选合适的大数据或Hadoop平台?】 by @酷勤网-程序员的那点事
关键词:计算框架, Hadoop
《如何挑选合适的大数据或Hadoop平台?》IBM、Oracle、SAP、甚至Microsoft等几乎所
有的大型软件提供商都采用了Hadoop。然而,当你已经决定要使用Hadoop来处理大数据
时,首先碰到的问题就是如何开始以及选择哪一种产品。 [1] (来自: 百度空间)
[1] http://www.kuqin.com/shuoit/20150225/344912.html
长微博图:http://ww3.sinaimg.cn/large/a1ab8e59jw1epslmfxhnfj20c85zikjl.jpg
2) 【10x系列之C... 阅读全帖

发帖数: 1
22
岗位职责:
1.负责大数据相关产品设计和开发,参与需求分析,系统分析及详细设计
2 负责滴滴数据平台系统的架构&开发,系统承载数据报表、工具平台、数据服务及大
数据可视化相关项目
3.负责数据可视化及数据服务项目架构&开发
任职要求:
1. 研究生或以上学历,计算机相关专业,3年以上工作经验,1年以上大数据相关产
品研发经验
2.JAVA基础扎实,理解io、多线程、集合等基础知识,对JVM原理有一定的了解;
3.熟悉Python/shell等一种或多种脚本语言
4.熟悉大型分布式系统设计与开发,熟悉各种web缓存、消息队列技术原理。在实际项
目中使用过redis、kafka。
5.熟悉MySQL数据库原理及常用优化方法
6.具备良好的工程意识,熟悉git代码管理流程,熟悉maven项目管理工具。
7.熟悉hadoop,有MapReduce开发经验,了解YARN。
8.密切关注大数据相关技术的发展趋势,有hadoop/hbase/Kafka/flume/Zookeeper/
spark/kylin/es等相关技术研究或开发经验者优先
滴滴出行3年多时间,发展到5千人的规模,大数据作... 阅读全帖
a*****c
发帖数: 2086
23
有些人啊,没有真正的去做过一个project,没有深入去参与其中的开发,就在那里想
当然的发表评论。真正做下去了才知道会碰到多少问题需要去考虑去解决的。一个短时
间内承受巨大交易量,要做到不能当机,让用户不感到速度变慢,购物历史和更新记录
不能冲突,背后采用怎样技术才能支撑,我还是贴个淘宝技术的科普吧。
【编者按】对于淘宝网而言,2012年的“双十一”是一个交易里程碑,是一个购物狂欢
日,在这个“神棍节”里,淘宝创下191亿元的交易额,在交易的背后隐藏着哪些复杂
技术?
你发现快要过年了,于是想给你的女朋友买一件毛衣,你打开了www.taobao.com。这时
你的浏览器首先查询DNS服务器,将www.taobao.com转换成ip地址。不过首先你会发现
,你在不同的地区或者不同的网络(电信、联通、移动)的情况下,转换后的IP地址很
可能是 不一样的,这首先涉及到负载均衡的第一步,通过DNS解析域名时将你的访问分
配到不同的入口,同时尽可能保证你所访问的入口是所有入口中可能较快的一个 (这和
后文的CDN不一样)。
你通过这个入口成功的访问了www.taobao.com的实际的入口IP... 阅读全帖
m***r
发帖数: 359
24
来自主题: DataSciences版 - 大数据日报 2015年3月楼
大数据日报 2015-03-16
@好东西传送门 出品, 过刊见
http://bd.memect.com
订阅:给 [email protected]
/* */ 发封空信, 标题: 订阅大数据日报
更好看的HTML版
http://bd.memect.com/archive/2015-03-16/short.html
1) 【Kitematic官方文档汇总】 by @DockerOne
关键词:虚拟化, Docker, 容器
【Kitematic官方文档汇总】周末DockerOne组织翻译了Kitematic的官方文档,
Kitematic是一个 Docker GUI 工具,它可以在 Mac 上更快速、更简单的运行Docker。
接下来也将支持Windows,从Twitter了解到Kitematic的重点也会在Windows上。 [1]
[1] http://dockerone.com/article/254
2) 【有哪些优秀的 Scala 开源项目?】 by @hongjiang_wang
关键词:计算框架, Kafka, Spark, 流计算
我在 @知乎 回答了... 阅读全帖
d****n
发帖数: 12461
25
来自主题: JobHunting版 - '大数据'干掉了'数据仓库'?
要说大数据,搞离子对撞的科学家10多年以前就处理上亿的数据了,并且给我们带来了
重要的经验:
要让数据有用,就得扔掉99.5%以上的无关数据,给剩下的0.5%的数据匹配上理论解释
,最后发出paper。
所以虽然说大数据的前景不可限量,但是现在主要是几个卖产品的公司在给几个引导市
场的公司宣传概念。
h********3
发帖数: 2075
26
来自主题: JobHunting版 - '大数据'干掉了'数据仓库'?
对。真正的大数据是在自然科学界。互联网所有数据加起来,还真的不比不过欧洲高速
粒子对撞机1分钟产生的数据。
早在N年前,NASA就搜索行星的项目对大数据分析提出过挑战。那个挑战也远大于现在
互联网数据。
B***i
发帖数: 297
27
来自主题: JobHunting版 - '大数据'干掉了'数据仓库'?
新的数据革命,关系到我们每个人. 用Hadoop, NoSQL 技术,这里有帖子。这是数据的
的方向因为大量数据在网上。
g*****g
发帖数: 34805
28
来自主题: Programming版 - 大数据
所谓大数据,是指处理超出传统关系数据库,数据仓库处理能力的,必须用成百上千台
机器并行处理的一些方法。标志性的就是以AWS为首的云计算,以及以Hadoop为首的一
系列框架,使得海量计算可以在企业里普及。这是关系数据库在企业普及之后的一次明
显计算能力提升。
任何东西都有源头,绝大多数技术革新都是以前技术的改进,不等于就是忽悠。云计算
之前就有主机托管,不等于云计算是忽悠。社交网络诞生之前就有BBS,不妨碍社交网
络赚钱。微信之前就有QQ,不妨碍whatsapp买190亿。
谈到大数据版上最可笑的论点就是一是比大,另一个是比早。个人电脑出现的时候,既
不比小型机快,更不比大型机早,不妨碍它是技术革命。而井喷更是90年代IBM兼容机
进入平民级消费,而不是80年代Mac刚出来的时候。同样企业计算80年代之前就有,在
90年代才开始普及,从VB到Java,一系列码农职位都是这时候出现的。之前CS还不如EE
和外贸专业火爆。
一个技术井喷,往往是普及的时候。我成天强调做饼,普及恰恰是饼迅速做大,热钱迅
速流入,个人有可能跟随IPO获利的时候。海量数据处理,最大最早,无疑都是卫星云
图处理,N... 阅读全帖

发帖数: 1
29
工作职责:
1. 服务器端后台算法系统的开发, 重构与维护。
2. 后端数据处理、数据分析系统优化。
岗位要求:
1. 3年以上互联网公司开发经验,从事过大型系统的架构与研发工作。
2. 熟练使用C++/Python/Java语言,熟悉各种开源类库的使用与开发.
3. 熟悉机器学习系统架构,有机器学习系统开发经验者优先。
4. 对并行系统流程熟悉,熟悉MySQL与Hive SQL优化,有Hive/Spark/HBase等开发经验
者优先。
5. 较强的学习、分析问题的能力,良好的团队合作意识与跨部门沟通的能力。
6. 开源社区贡献代码者优先。
滴滴出行3年多时间,发展到5千人的规模,大数据作为我们最重要的部门,正为滴滴出
行打造智能的一站式出行平台(目前平台的服务包括专车、快车、顺风车、出租车、巴
士、代驾、试驾等业务)。在这里,你既可以跟国际一流的机器学习专家学习到实用的
机器学习技术,又能够深度接触公司最核心的业务,直接参与到一线产品的研究和开发
当中,提升自己的业务能力,同时还有一份优厚的工资在等着你。还在犹豫什么,赶紧
投简历到[email protected]/* ... 阅读全帖
k*z
发帖数: 4704
30
如果我的OLTP表是一个宽表。里面有时间,地点,产品,产品属性,产品厂商,运营数
据等等。
现在数据是每天同步到ODS一个Staging数据库里。
如果我想把这个宽表拆成 多个维度,和最后的事实表-运营数据。
我怎么让两个表里的key同意呢?如果增加了一个维度的值的话,怎么处理呢?
说的有点笼统,但是请尽量回答。谢谢。
一般来说生产库的表不会是宽表,但是我们这个数据库本身就是给前台用的优化过的逻
辑表。所以基本我们需要的东西都有了。
w****r
发帖数: 15252
31
来自主题: JobHunting版 - '大数据'干掉了'数据仓库'?
什么是大数据
l*********y
发帖数: 1431
32
来自主题: JobHunting版 - '大数据'干掉了'数据仓库'?
Tera or Peta bytes级别的数据
r****o
发帖数: 1950
33
来自主题: JobHunting版 - '大数据'干掉了'数据仓库'?
大数据跟存储有关系吗?
t***j
发帖数: 2620
34
来自主题: JobHunting版 - '大数据'干掉了'数据仓库'?
搞理科的科学家为了发垃圾paper manipulate数据,工科的data minibg可不是这么作
的。

[发表自未名空间手机版 - m.mitbbs.com]
s**********o
发帖数: 14359
35
懂了,你看不到人OLTP的MODEL,只是看到人用的VIEW,所以你根本不知道别人的DATA
MODEL是什么,你等于要重新NORMALIZE到自己的MODEL里,重新清理数据FITIN你的
NORMALIZED MODEL里,
数据清理干净后,再重新建DW,当然这些KEY是你自己建的,跟原来的MODEL没关系
k*z
发帖数: 4704
36
yes,有什么教程么?怎么建这个Key?这个diagram我也能画出来,但是这个key一般都
是怎么建啊?说白了就是怎么生成?应该建什么Key我也大概知道,
理论上说:
应该是增加一个城市,geokey在地区维度上就要自增一,同理加一个雇员就要在雇员表
里自增1,但是我这个数据是从宽表里面来的,每次有新数据进来,我岂不是要都要每
一行的每个维度都要lookup一下么?
o*******8
发帖数: 249
37
来自主题: Database版 - 数据仓库update 大表
“ 非要 UPDATE 的地方, 也要在清除大部分存檔數據之後進行”
---请问能详细解释下这是什么意思吗?
维度表数据450G,index 220G。fact表一个表数据1700G,index 1300G,有6个fact表
。建这么多这么大的新表加index也要很长时间吧。。
锁表也考虑过,打算按时间分成小的batch做loop,比如三个月一个batch。然后肯定是
周末做。希望一天能做完,但是现在初步测试算了下总时间大大超过一天了。
x******r
发帖数: 367
38
来自主题: DataSciences版 - 组建互联网公司数据团队
大家好!
大家有没有组建互联网公司数据团队的建议?除了数据仓库/数据挖掘等,还要注意一
些什么?。主要是有没有系统性的阐述文章?谢谢。
t****y
发帖数: 545
39
手头有个项目,缺一个partner,如果精通web前台开发,数据库/数据仓库应用的大侠
看看有没有合作机会。如果人在Dallas最好。
站内联系。
t****y
发帖数: 545
40
手头有个项目,缺一个partner,如果精通web前台开发,数据库/数据仓库应用的大侠
看看有没有合作机会。如果人在Dallas最好。
站内联系。
t****y
发帖数: 545
41
想投身于startup的朋友,如果精通web前台开发,数据库/数据仓库应用的大侠看看有
没有合作机会。如果人在Dallas最好。
站内联系。
t****y
发帖数: 545
42
手头有个项目,缺一个partner,如果精通web前台开发,数据库/数据仓库应用的大侠
看看有没有合作机会。如果人在Dallas最好。
站内联系。
s**********o
发帖数: 14359
43
精通WEB前台开发,又精通数据库,还精通数据仓库
低于一年30万的工作不接吧
t****y
发帖数: 545
44
手头有个项目,缺一个partner,如果精通web前台开发,数据库/数据仓库应用的大侠
看看有没有合作机会。如果人在Dallas最好。
站内联系。
s**********o
发帖数: 14359
45
精通WEB前台开发,又精通数据库,还精通数据仓库
低于一年30万的工作不接吧
t****y
发帖数: 545
46
手头有个项目,缺一个partner,如果精通web前台开发,数据库/数据仓库应用的大侠
看看有没有合作机会。如果人在Dallas最好。
站内联系。
t****y
发帖数: 545
47
手头有个项目,缺一个partner,如果精通web前台开发,数据库/数据仓库应用的大侠
看看有没有合作机会。如果人在Dallas最好。
站内联系。
s**********o
发帖数: 14359
48
你等于重新给人建NORMALIZED DATA MODEL啊,怎么建你自己说了算,
不是城市一个TABLE,雇员一个TABLE吗。是的,进来一个数据你就要
LOOKUP一下,没有的再去添加。你看不到人的MODEL本来就是在COPY别人,
看不到的东西,只能自己管理了。如果VIEW里能看到EMPLOYEE_ID和CITY_ID
的话你可以直接用他们的,CITY_ID的可能很小
s**********o
发帖数: 14359
49
搞不清楚别人的MODEL,你连是一对一还是一对多都不知道,很容易搞错,
而且有些数据你的VIEW不一定有的,比如PRODUCT到底有哪些洲不能卖啊,
你只看到卖到哪里去了,不能卖到哪里不知道的。比如有的EMPLOYEE一个
也没卖出去,你也不知道这个EMPLOYEE的存在,如果有REPORT让你统计,看男的卖了
多少女的卖了多少,你的VIEW里估计没有EMPLOYEE的性别,根本就做不了。
基本是瞎子摸象。
k*z
发帖数: 4704
50
en, 看来必须想办法把IT搞定,把原始数据搞来。
1 2 3 4 5 6 7 8 9 10 下页 末页 (共10页)