n*****3 发帖数: 1584 | 1
very good point; 但是我们需要 create some features based on the stop time(of
Position population), but there is NO stop time for negative population.
so we have to use this "case control" approach....
停留的时间是很有限的 一些; 但数据量不小,遍历再匹配 要很久啊。 |
|
j**********r 发帖数: 3798 | 2 好歹要有数据量,什么样的查询,什么样的SLA才能回答呀。这哪有统一答案的。 |
|
j**********r 发帖数: 3798 | 3 对单一query优化有很多种办法,比如每年分一个数据库,维护一个全年的count。数据
量直接下一个数量级。
AND |
|
t*******i 发帖数: 4960 | 4 数据量大到什么地步?
一个是为 big data 设计的,一个传统的关系数据库。 |
|
|
n**y 发帖数: 11447 | 6 这个就是测一下吧,估计没几M数据量
平时用也不大可能这么高速度长时间使用 |
|
|
|
y****w 发帖数: 3747 | 9 装个sql server,用ssis,拖拖拉拉就行了。 ---假如你数据量不大的话。
或其他你熟悉的etl工具也称。 |
|
s**********o 发帖数: 14359 | 10 EXTRACTING SUMMARIZE都不是问题,虽然慢点,但不会出问题,因为都在一个ETL
SERVER上进行的,SUMMARY结束了要BCP OUT出去,然后LOAD PRODUCTION上,这是问题
的所在,因为数据量大,20个
TABLE每个1BILLION, 网络和IO都有限制,中间有时候会莫名其妙地FAIL掉
's |
|
|
e****7 发帖数: 4387 | 12
嗯,看明白了,然后所有的dimension 都是degenerate dimension from fact.
数据量小,选用excel 做pivot table 还成,直接导入就完事。
大型olap 没见过这么搞的 |
|
e****7 发帖数: 4387 | 13
嗯,看明白了,然后所有的dimension 都是degenerate dimension from fact.
数据量小,选用excel 做pivot table 还成,直接导入就完事。
大型olap 没见过这么搞的 |
|
i*****w 发帖数: 75 | 14 就我的经验, iSeries的DB2 Provider在处理大数据量时不如Microsoft 的DB2
Provider. 你们在
SQL上有相应的 linked server吗?可以参照着配置library,catalog等。
用OLE DB Provider, not ODBC.
另外,回写到AS400时有时候需要IBM Provider. |
|
y*****g 发帖数: 677 | 15 我们决定明年上big data,hadoop, hbase, hive, big sql, etc.
数据量向 1000T 上发展。今后不用传统数据库,真是有些舍不得呢。 |
|
f****n 发帖数: 148 | 16 压缩的话估计能缩小1/3,不过数据量还是很大。
据说国内对外企可以开通专线,与国外通讯的速度比较快,但不知道具体能够达到什么
速度。 |
|
z****e 发帖数: 54598 | 17 我觉得你不能这样想
经常有人演示过twitter的客户增长曲线
如果成功了之后,那个增长,完全就是火箭发射一般的直线增长
就算有钱,也跟不上
应该从数据结构入手
如果是重要性的数据,比如账户信息,金钱交易
就上transaction做结构化存储
否则的话,比如客户每天生成的各种消费记录,twitter的#之类的
完全可以做非结构化存储 |
|
s*****r 发帖数: 43070 | 18 report基本都需要join的,这个nosql不好使,办法就是denormalize,把所有的数据都
放在一起。 |
|
R****g 发帖数: 130 | 19 用的fortran
用了两个方法:
1.写到direct access file里面 以后要用再打开他读取 --> 慢
2.写到allocatable array里面 程序里面直接读 -->快,但是经常超过virtual memory
,因为数据量太大了
有没有其他方法?如何在2的基础上改进内存的问题?
谢了 |
|
r*******n 发帖数: 3020 | 20 设备会很多,多数是sensor,数据量会比较大并且同时进来。
如果mongoDB吞吐能力强并且占用硬盘空间小,我们可以把它作为中转站,再二次处理
放到SQL server里供分析用,
同时也可作为数据备份用。
MySql肯定能做, 想看看mongoDB是不是更合适。
nosql |
|
t*******y 发帖数: 1289 | 21 非常小的数据量,是选择自己写xml file读写,还是选择sqlite好?
没做过数据库的开发,只是简单的建库,读写,查询,没考虑过性能,没有深入研究过
数据库。现在在设计阶段,想看看别人的看法
主要考虑是对多线程的支持,多人开发,怕dead lock,当然,这个主要靠架构设计,
但是架不住人做啊。想找一个比较容易控制的。
谢谢 |
|
|
n******7 发帖数: 12463 | 23 我看他们打算搜集65,000个样本
这个数量确实很多
但是数据量没多大
就算有2000个miRNA
也就是一个65000x2000的矩阵 |
|
S*A 发帖数: 7142 | 24 我记得AWS有这个服务。我一朋友用过邮硬盘服务。
但是要数据量大过一定阈值才合算。 |
|
w***g 发帖数: 5958 | 25 都是自己做的。git是用来管理代码版本的,能处理的数据量太小了。当然我的功能还
远没有git那么完备。目前没有做dedupe或者delta compression,就是存多个版本的完
整数据,那样可靠性最好。我可以把storage做的比较便宜。 |
|
w***g 发帖数: 5958 | 26 目前只开放了在处理结果中搜索关键词的功能。如果在右上角的搜索框中输入基因/
pathway/GO term啥的名字,可以搜到处理结果中哪些页面包含了这些关键词。搜索能
做的东西很多,而且数据量一大必须要用到搜索。等我们的系统有了一定范围的应用后
我会开放更多的功能。 |
|
k**n 发帖数: 3989 | 27 某存在的表A在sqlserver2k,
数据量几万条,更新不多,,一天几十条到几百条的样子。
不许用triger,不许改crud的code或sp。
现在需求是某程序每过10分钟得到这个表有什么改动,(删除,插入,某些fields改动)
请教大家能给点思路吗? 具体点最好,急用。
多谢。 |
|
d****i 发帖数: 4809 | 28 严重同意,前几天刚看到比这个数据量大的多的case, 八台机器,MySQL加上一些PHP,
Python代码用来做做ETL加data processing完全可以搞定,进了现在这么多hype的忽悠
坑出来就不容易了。 |
|
a****u 发帖数: 1537 | 29 如果数据量不大,可以考虑用d3.js之类的,图形做出来很美观。 |
|
l******0 发帖数: 244 | 30 关键另两个表也都有 ID, Name 的索引,但速度很正常,同样的数据量,几分钟的事
。这个 join table, 则需要几个小时。That is what I am curious about, and
maybe something I am doing wrong. |
|
L****8 发帖数: 3938 | 31 通过各种数据变换 总算折腾出来6000幅图像
应该控制filter大小 还是filter数量? |
|
w**z 发帖数: 8232 | 32 数据量大于单机的存储量,单机怎么搞?
:马上industry又要重新发现单机模式了.
:Hadoop那套东西是基于传统HDD设计的, 其实现在大容量SSD上 |
|
w**z 发帖数: 8232 | 33 数据量大于单机的存储量,单机怎么搞?
:马上industry又要重新发现单机模式了.
:Hadoop那套东西是基于传统HDD设计的, 其实现在大容量SSD上 |
|
w***g 发帖数: 5958 | 34 有时候该手写工具还是要写的。
:我第一个应用吧。其实现在就是非常简单的随便存也行 因为数据量真不大。
:只是想看看有没有更好玩的, 试试。直接存 太丑了有点。 |
|
|
p*****m 发帖数: 7030 | 36 这个没办法 如果数据量小或者分布不正态 本来statistical power就很小啊 |
|
n********t 发帖数: 1079 | 37 Haploview,不过数据量不能太大,这个软件的memory footprint大得惊人 |
|
x*******t 发帖数: 3764 | 38 每列数据量稍大,一个个收尾粘贴太麻烦了,有没有简单的?
多谢啦! |
|
n****3 发帖数: 8 | 39 我是化学系的,想请教请教高手
用origin做数据处理的时候,数据量很大,一幅图里做了几百条直线后,origin可以把
每条线的斜率分别给出么?
我linear fitting的时候,origin都是给了一条平均的拟和线,然后只给出那条线的斜
率,大家有什么方法么?听说origin也可以编程的,是不是需要靠编程来实现呀?
谢谢 |
|
a****n 发帖数: 1887 | 40 数据量大的话用in mem database, 少的话用mem mapping file |
|
a****n 发帖数: 1887 | 41 mem mapping file 没有index, 数据量大了, retrieve速度还是比in mem database
慢, 当然你自己实现index另说
没用过matlab, 我们用c/c++ |
|
S*********g 发帖数: 5298 | 42 啥样的daily data大?
你这个一个daily data point背后那么多数据量就这么被你给忽略了?
还是这个搜索频率是凭空从石头里蹦出来的? |
|
p*****y 发帖数: 529 | 43 金融的那点数据, 弄几个powerful点的server就搞定了。 唯一可能有点用的是
derivative pricing, 那种eod上千server的吃, 也就沾点largescale的光, 数据量
还是个屁。 而且原来有infrastructure了, 干嘛要新的? |
|
p*****y 发帖数: 529 | 44 金融的那点数据, 弄几个powerful点的server就搞定了。 唯一可能有点用的是
derivative pricing, 那种eod上千server的吃, 也就沾点largescale的光, 数据量
还是个屁。 而且原来有infrastructure了, 干嘛要新的? |
|