由买买提看人间百态

boards

本页内容为未名空间相应帖子的节选和存档,一周内的贴子最多显示50字,超过一周显示500字 访问原贴
Database版 - ETL解决方案(讨论)
相关主题
about Oracle RAC... some thoughtsETL tool or Shellscript&Sql
career choices - Data warehouse/BI vs OLTP大家绝不觉得干DB这行挺难进步的?
best practices for sql developerBI+Big Data+CRM 项目实践
2 new openings, SQL server DBA, DB developer一个好帖子
求大量数据每天更新的解决方案MySQL Question
Enterprise data warehouse team is looking for developers anIs very-large database the same w/ datawarehouse?
BI难在哪?我用sql server,visual studio,ssis做,就是扯控件,非常简单自如啊。ACCESS的数据量求教
公司有一个SSAS Cube是MOLAP。速度满,一直崩溃问个初级问题.不要笑话
相关话题的讨论汇总
话题: etl话题: 数据库话题: abstract话题: 小时话题: bottleneck
进入Database版参与讨论
1 (共1页)
k*******z
发帖数: 2368
1
比如讲,有这么两个数据库,一个是产品,OLTP的。一个是做报告用的,星形。每天晚
上有ETL把产品的新数据发布到星形报告数据库。
问题:产品数据库是24/7,而且数据量很大。ETL要把新数据(过去的24小时产生的)
冗余化,发布到报告数据库上,就要消耗差不多也是24个小时的时间或者更多。如何解
决/改善这种滞后的情况?可能的瓶颈在哪里?
B*****g
发帖数: 34098
2
你这个星行数据库是哪个?

【在 k*******z 的大作中提到】
: 比如讲,有这么两个数据库,一个是产品,OLTP的。一个是做报告用的,星形。每天晚
: 上有ETL把产品的新数据发布到星形报告数据库。
: 问题:产品数据库是24/7,而且数据量很大。ETL要把新数据(过去的24小时产生的)
: 冗余化,发布到报告数据库上,就要消耗差不多也是24个小时的时间或者更多。如何解
: 决/改善这种滞后的情况?可能的瓶颈在哪里?

y****w
发帖数: 3747
3
dbms? 数据抽取靠什么?etl工具?replication?找瓶颈与其我们猜不如你找下log,
看看每部分都花了多少时间。
你说得太概括,别人不好插手。

【在 k*******z 的大作中提到】
: 比如讲,有这么两个数据库,一个是产品,OLTP的。一个是做报告用的,星形。每天晚
: 上有ETL把产品的新数据发布到星形报告数据库。
: 问题:产品数据库是24/7,而且数据量很大。ETL要把新数据(过去的24小时产生的)
: 冗余化,发布到报告数据库上,就要消耗差不多也是24个小时的时间或者更多。如何解
: 决/改善这种滞后的情况?可能的瓶颈在哪里?

s**********0
发帖数: 266
4
如果一个ETL 处理之前一天数据要24小时或更多, 那这ETL设计绝对有问题。 查查你
的bottleneck在哪? 我想一般来说光复制OLTP一天的raw data 不应该超过1小时, 剩
下的时间肯定都是花在data processing上了?

【在 k*******z 的大作中提到】
: 比如讲,有这么两个数据库,一个是产品,OLTP的。一个是做报告用的,星形。每天晚
: 上有ETL把产品的新数据发布到星形报告数据库。
: 问题:产品数据库是24/7,而且数据量很大。ETL要把新数据(过去的24小时产生的)
: 冗余化,发布到报告数据库上,就要消耗差不多也是24个小时的时间或者更多。如何解
: 决/改善这种滞后的情况?可能的瓶颈在哪里?

l******t
发帖数: 660
5
多大的数据量啊?是incremental load 还是full load? 我们处理10tb的data也就几个
小时完工了,一般的ETL都有专门的monitor工具run一下, 一般的bottleneck就是pull
data cross network, transformation, 还有index rebuild. 最有可能是pull data
cross network, 如果硬件条件还可以的话
k*******z
发帖数: 2368
6
我只是举个例子让大家随便想。没有具体案例。
假如说,ETL不是用第三方工具,只是自己开发的SQL代码based on database link。
找log看时间应该就可以发现瓶颈。但是抽取24小时的数据不会比原系统插入更花时间
吗?再加上数据传输(比如,从欧洲拿到北美),再把这些数据插入到报告系统。不会
跟化时间吗?

【在 y****w 的大作中提到】
: dbms? 数据抽取靠什么?etl工具?replication?找瓶颈与其我们猜不如你找下log,
: 看看每部分都花了多少时间。
: 你说得太概括,别人不好插手。

y****w
发帖数: 3747
7
only ABSTRACT can answer ABSTRACT.
so the answer is: every part can be the bottleneck, the excuse can be
hardware, network, code, business logic, etc.

【在 k*******z 的大作中提到】
: 我只是举个例子让大家随便想。没有具体案例。
: 假如说,ETL不是用第三方工具,只是自己开发的SQL代码based on database link。
: 找log看时间应该就可以发现瓶颈。但是抽取24小时的数据不会比原系统插入更花时间
: 吗?再加上数据传输(比如,从欧洲拿到北美),再把这些数据插入到报告系统。不会
: 跟化时间吗?

k*******z
发帖数: 2368
8
然!讨论结束。

【在 y****w 的大作中提到】
: only ABSTRACT can answer ABSTRACT.
: so the answer is: every part can be the bottleneck, the excuse can be
: hardware, network, code, business logic, etc.

g***l
发帖数: 18555
9
SLOWLY CHANGE MULTIDIMENSION WIZARD
z******4
发帖数: 4716
10
哇,好久都没做技术了,上一次大数据量已经是几年前的事情了,好怀念啊
确实是,每一个部分都有可能
例如,我以前做移动项目,每天CDR 5000万记录,我记得是加载到数据库40分钟,头疼
的不是加载,而是后期报表,每天要从1TB的CDR话单表中提取数据,比较耗时。后来直
接建立话单临时表,4点开始加载,8点所有报表刷新完毕。这个项目的麻烦是cube的增
量刷新,用的MS,很好
后来做银行,加载要要16个小时,因为不是architect,也不是etl leader,就没管。
头疼的是data mart fact table的刷新,因为业务逻辑复杂,一个简单的对公业务fact
table有时要3哥小时,懒得调优,因为客户接受
一般来说,大数据量哪里都会有瓶颈。最麻烦的是就是月末全量刷新
至于工具,随便了,你擅长那种,就用那种,C也可以。SQL也可以
DW以后不打算玩了,呵呵,做后台没前台风光,没前途,已经放弃了
1 (共1页)
进入Database版参与讨论
相关主题
问个初级问题.不要笑话求大量数据每天更新的解决方案
数据据库的老版本的性能问题?Enterprise data warehouse team is looking for developers an
Oracle 看来还有很长的路BI难在哪?我用sql server,visual studio,ssis做,就是扯控件,非常简单自如啊。
请教sql server DB 大侠公司有一个SSAS Cube是MOLAP。速度满,一直崩溃
about Oracle RAC... some thoughtsETL tool or Shellscript&Sql
career choices - Data warehouse/BI vs OLTP大家绝不觉得干DB这行挺难进步的?
best practices for sql developerBI+Big Data+CRM 项目实践
2 new openings, SQL server DBA, DB developer一个好帖子
相关话题的讨论汇总
话题: etl话题: 数据库话题: abstract话题: 小时话题: bottleneck