ETL解决方案（讨论） - Database版 - 未名存档

本页内容为未名空间相应帖子的节选和存档，一周内的贴子最多显示50字，超过一周显示500字访问原贴

Database版 - ETL解决方案（讨论）

相关主题
● about Oracle RAC... some thoughts	● ETL tool or Shellscript&Sql
● career choices - Data warehouse/BI vs OLTP	● 大家绝不觉得干DB这行挺难进步的？
● best practices for sql developer	● BI+Big Data+CRM 项目实践
● 2 new openings, SQL server DBA, DB developer	● 一个好帖子
● 求大量数据每天更新的解决方案	● MySQL Question
● Enterprise data warehouse team is looking for developers an	● Is very-large database the same w/ datawarehouse?
● BI难在哪？我用sql server,visual studio，ssis做，就是扯控件，非常简单自如啊。	● ACCESS的数据量求教
● 公司有一个SSAS Cube是MOLAP。速度满，一直崩溃	● 问个初级问题.不要笑话

相关话题的讨论汇总
话题: etl话题: 数据库话题: abstract话题: 小时话题: bottleneck

进入Database版参与讨论

1

(共1页)

k*******z 发帖数: 2368	1 比如讲，有这么两个数据库，一个是产品，OLTP的。一个是做报告用的，星形。每天晚上有ETL把产品的新数据发布到星形报告数据库。问题：产品数据库是24/7，而且数据量很大。ETL要把新数据（过去的24小时产生的）冗余化，发布到报告数据库上，就要消耗差不多也是24个小时的时间或者更多。如何解决/改善这种滞后的情况？可能的瓶颈在哪里？
B*****g 发帖数: 34098	2 你这个星行数据库是哪个？【在 k*******z 的大作中提到】 : 比如讲，有这么两个数据库，一个是产品，OLTP的。一个是做报告用的，星形。每天晚 : 上有ETL把产品的新数据发布到星形报告数据库。 : 问题：产品数据库是24/7，而且数据量很大。ETL要把新数据（过去的24小时产生的） : 冗余化，发布到报告数据库上，就要消耗差不多也是24个小时的时间或者更多。如何解 : 决/改善这种滞后的情况？可能的瓶颈在哪里？
y****w 发帖数: 3747	3 dbms? 数据抽取靠什么？etl工具？replication？找瓶颈与其我们猜不如你找下log，看看每部分都花了多少时间。你说得太概括，别人不好插手。【在 k*******z 的大作中提到】 : 比如讲，有这么两个数据库，一个是产品，OLTP的。一个是做报告用的，星形。每天晚 : 上有ETL把产品的新数据发布到星形报告数据库。 : 问题：产品数据库是24/7，而且数据量很大。ETL要把新数据（过去的24小时产生的） : 冗余化，发布到报告数据库上，就要消耗差不多也是24个小时的时间或者更多。如何解 : 决/改善这种滞后的情况？可能的瓶颈在哪里？
s**********0 发帖数: 266	4 如果一个ETL 处理之前一天数据要24小时或更多，那这ETL设计绝对有问题。查查你的bottleneck在哪？我想一般来说光复制OLTP一天的raw data 不应该超过1小时，剩下的时间肯定都是花在data processing上了？【在 k*******z 的大作中提到】 : 比如讲，有这么两个数据库，一个是产品，OLTP的。一个是做报告用的，星形。每天晚 : 上有ETL把产品的新数据发布到星形报告数据库。 : 问题：产品数据库是24/7，而且数据量很大。ETL要把新数据（过去的24小时产生的） : 冗余化，发布到报告数据库上，就要消耗差不多也是24个小时的时间或者更多。如何解 : 决/改善这种滞后的情况？可能的瓶颈在哪里？
l******t 发帖数: 660	5 多大的数据量啊？是incremental load 还是full load? 我们处理10tb的data也就几个小时完工了，一般的ETL都有专门的monitor工具run一下，一般的bottleneck就是pull data cross network, transformation, 还有index rebuild. 最有可能是pull data cross network, 如果硬件条件还可以的话
k*******z 发帖数: 2368	6 我只是举个例子让大家随便想。没有具体案例。假如说，ETL不是用第三方工具，只是自己开发的SQL代码based on database link。找log看时间应该就可以发现瓶颈。但是抽取24小时的数据不会比原系统插入更花时间吗？再加上数据传输（比如，从欧洲拿到北美），再把这些数据插入到报告系统。不会跟化时间吗？【在 y****w 的大作中提到】 : dbms? 数据抽取靠什么？etl工具？replication？找瓶颈与其我们猜不如你找下log， : 看看每部分都花了多少时间。 : 你说得太概括，别人不好插手。
y****w 发帖数: 3747	7 only ABSTRACT can answer ABSTRACT. so the answer is: every part can be the bottleneck, the excuse can be hardware, network, code, business logic, etc. 【在 k*******z 的大作中提到】 : 我只是举个例子让大家随便想。没有具体案例。 : 假如说，ETL不是用第三方工具，只是自己开发的SQL代码based on database link。 : 找log看时间应该就可以发现瓶颈。但是抽取24小时的数据不会比原系统插入更花时间 : 吗？再加上数据传输（比如，从欧洲拿到北美），再把这些数据插入到报告系统。不会 : 跟化时间吗？
k*******z 发帖数: 2368	8 然！讨论结束。【在 y****w 的大作中提到】 : only ABSTRACT can answer ABSTRACT. : so the answer is: every part can be the bottleneck, the excuse can be : hardware, network, code, business logic, etc.
g***l 发帖数: 18555	9 SLOWLY CHANGE MULTIDIMENSION WIZARD
z******4 发帖数: 4716	10 哇，好久都没做技术了，上一次大数据量已经是几年前的事情了，好怀念啊确实是，每一个部分都有可能例如，我以前做移动项目，每天CDR 5000万记录，我记得是加载到数据库40分钟，头疼的不是加载，而是后期报表，每天要从1TB的CDR话单表中提取数据，比较耗时。后来直接建立话单临时表，4点开始加载，8点所有报表刷新完毕。这个项目的麻烦是cube的增量刷新，用的MS，很好后来做银行，加载要要16个小时，因为不是architect，也不是etl leader，就没管。头疼的是data mart fact table的刷新，因为业务逻辑复杂，一个简单的对公业务fact table有时要3哥小时，懒得调优，因为客户接受一般来说，大数据量哪里都会有瓶颈。最麻烦的是就是月末全量刷新至于工具，随便了，你擅长那种，就用那种，C也可以。SQL也可以 DW以后不打算玩了，呵呵，做后台没前台风光，没前途，已经放弃了

1

(共1页)

进入Database版参与讨论

相关主题
● 问个初级问题.不要笑话	● 求大量数据每天更新的解决方案
● 数据据库的老版本的性能问题？	● Enterprise data warehouse team is looking for developers an
● Oracle 看来还有很长的路	● BI难在哪？我用sql server,visual studio，ssis做，就是扯控件，非常简单自如啊。
● 请教sql server DB 大侠	● 公司有一个SSAS Cube是MOLAP。速度满，一直崩溃
● about Oracle RAC... some thoughts	● ETL tool or Shellscript&Sql
● career choices - Data warehouse/BI vs OLTP	● 大家绝不觉得干DB这行挺难进步的？
● best practices for sql developer	● BI+Big Data+CRM 项目实践
● 2 new openings, SQL server DBA, DB developer	● 一个好帖子

相关话题的讨论汇总
话题: etl话题: 数据库话题: abstract话题: 小时话题: bottleneck

未名新帖统计// 7月16日

#	版面	帖数(主题数)
-	全站	4871 (796)
1	Military	3777 (569)
2	Stock	341 (51)
3	Joke	117 (17)
4	History	116 (3)
5	Automobile	100 (9)
6	USANews	55 (9)
7	Midlife	45 (1)
8	Headline	41 (41)
9	Dreamer	33 (13)
10	FleaMarket	32 (20)
11	Living	30 (7)

* 这里只显示发帖超过25的版面，努力灌水吧:-)