由买买提看人间百态

topics

全部话题 - 话题: 数据量
首页 上页 1 2 3 4 5 6 7 8 9 10 下页 末页 (共10页)
n*****3
发帖数: 1584
1
来自主题: JobHunting版 - 问一道(大)数据 algorithm

very good point; 但是我们需要 create some features based on the stop time(of
Position population), but there is NO stop time for negative population.
so we have to use this "case control" approach....
停留的时间是很有限的 一些; 但数据量不小,遍历再匹配 要很久啊。
j**********r
发帖数: 3798
2
好歹要有数据量,什么样的查询,什么样的SLA才能回答呀。这哪有统一答案的。
j**********r
发帖数: 3798
3
对单一query优化有很多种办法,比如每年分一个数据库,维护一个全年的count。数据
量直接下一个数量级。

AND
t*******i
发帖数: 4960
4
数据量大到什么地步?
一个是为 big data 设计的,一个传统的关系数据库。
N********n
发帖数: 13236
5
rt,估算一下数据量够不够,谢谢!
n**y
发帖数: 11447
6
这个就是测一下吧,估计没几M数据量
平时用也不大可能这么高速度长时间使用
a****a
发帖数: 65
7
来自主题: Database版 - ACCESS的数据量求教
500条数据用access是不是就可以
d******e
发帖数: 2265
8
来自主题: Database版 - ACCESS的数据量求教
关系数据?
y****w
发帖数: 3747
9
来自主题: Database版 - 问个数据migration的问题
装个sql server,用ssis,拖拖拉拉就行了。 ---假如你数据量不大的话。
或其他你熟悉的etl工具也称。
s**********o
发帖数: 14359
10
来自主题: Database版 - 求大量数据每天更新的解决方案
EXTRACTING SUMMARIZE都不是问题,虽然慢点,但不会出问题,因为都在一个ETL
SERVER上进行的,SUMMARY结束了要BCP OUT出去,然后LOAD PRODUCTION上,这是问题
的所在,因为数据量大,20个
TABLE每个1BILLION, 网络和IO都有限制,中间有时候会莫名其妙地FAIL掉

's
B*****g
发帖数: 34098
11
来自主题: Database版 - 求大量数据每天更新的解决方案
如果数据量太大,可以试一下一些Bigdata ETL软件。比如
http://bigdata.pervasive.com/Products/Analytic-Engine-Pervasive
e****7
发帖数: 4387
12

嗯,看明白了,然后所有的dimension 都是degenerate dimension from fact.
数据量小,选用excel 做pivot table 还成,直接导入就完事。
大型olap 没见过这么搞的
e****7
发帖数: 4387
13

嗯,看明白了,然后所有的dimension 都是degenerate dimension from fact.
数据量小,选用excel 做pivot table 还成,直接导入就完事。
大型olap 没见过这么搞的
i*****w
发帖数: 75
14
就我的经验, iSeries的DB2 Provider在处理大数据量时不如Microsoft 的DB2
Provider. 你们在
SQL上有相应的 linked server吗?可以参照着配置library,catalog等。
用OLE DB Provider, not ODBC.
另外,回写到AS400时有时候需要IBM Provider.
y*****g
发帖数: 677
15
来自主题: Database版 - 大数据将来肯定是个方向
我们决定明年上big data,hadoop, hbase, hive, big sql, etc.
数据量向 1000T 上发展。今后不用传统数据库,真是有些舍不得呢。
f****n
发帖数: 148
16
来自主题: EmergingNetworking版 - 如何通过internet快速传输大数据文件
压缩的话估计能缩小1/3,不过数据量还是很大。
据说国内对外企可以开通专线,与国外通讯的速度比较快,但不知道具体能够达到什么
速度。
z****e
发帖数: 54598
17
我觉得你不能这样想
经常有人演示过twitter的客户增长曲线
如果成功了之后,那个增长,完全就是火箭发射一般的直线增长
就算有钱,也跟不上
应该从数据结构入手
如果是重要性的数据,比如账户信息,金钱交易
就上transaction做结构化存储
否则的话,比如客户每天生成的各种消费记录,twitter的#之类的
完全可以做非结构化存储
s*****r
发帖数: 43070
18
report基本都需要join的,这个nosql不好使,办法就是denormalize,把所有的数据都
放在一起。
R****g
发帖数: 130
19
来自主题: Programming版 - 数据存储的问题
用的fortran
用了两个方法:
1.写到direct access file里面 以后要用再打开他读取 --> 慢
2.写到allocatable array里面 程序里面直接读 -->快,但是经常超过virtual memory
,因为数据量太大了
有没有其他方法?如何在2的基础上改进内存的问题?
谢了
r*******n
发帖数: 3020
20
设备会很多,多数是sensor,数据量会比较大并且同时进来。
如果mongoDB吞吐能力强并且占用硬盘空间小,我们可以把它作为中转站,再二次处理
放到SQL server里供分析用,
同时也可作为数据备份用。
MySql肯定能做, 想看看mongoDB是不是更合适。

nosql
t*******y
发帖数: 1289
21
来自主题: Programming版 - 一个问题,关于数据存储的选择
非常小的数据量,是选择自己写xml file读写,还是选择sqlite好?
没做过数据库的开发,只是简单的建库,读写,查询,没考虑过性能,没有深入研究过
数据库。现在在设计阶段,想看看别人的看法
主要考虑是对多线程的支持,多人开发,怕dead lock,当然,这个主要靠架构设计,
但是架不住人做啊。想找一个比较容易控制的。
谢谢
p*****2
发帖数: 21240
22
来自主题: Programming版 - 一个问题,关于数据存储的选择
数据量小可以上redis了
n******7
发帖数: 12463
23
我看他们打算搜集65,000个样本
这个数量确实很多
但是数据量没多大
就算有2000个miRNA
也就是一个65000x2000的矩阵
S*A
发帖数: 7142
24
来自主题: Programming版 - AWS S3 200G 数据 upload【请教】
我记得AWS有这个服务。我一朋友用过邮硬盘服务。
但是要数据量大过一定阈值才合算。
w***g
发帖数: 5958
25
来自主题: Programming版 - show下我做的大数据平台
都是自己做的。git是用来管理代码版本的,能处理的数据量太小了。当然我的功能还
远没有git那么完备。目前没有做dedupe或者delta compression,就是存多个版本的完
整数据,那样可靠性最好。我可以把storage做的比较便宜。
w***g
发帖数: 5958
26
来自主题: Programming版 - show下我做的大数据平台
目前只开放了在处理结果中搜索关键词的功能。如果在右上角的搜索框中输入基因/
pathway/GO term啥的名字,可以搜到处理结果中哪些页面包含了这些关键词。搜索能
做的东西很多,而且数据量一大必须要用到搜索。等我们的系统有了一定范围的应用后
我会开放更多的功能。
k**n
发帖数: 3989
27
来自主题: Programming版 - 请教思路 数据同步有关
某存在的表A在sqlserver2k,
数据量几万条,更新不多,,一天几十条到几百条的样子。
不许用triger,不许改crud的code或sp。
现在需求是某程序每过10分钟得到这个表有什么改动,(删除,插入,某些fields改动)
请教大家能给点思路吗? 具体点最好,急用。
多谢。
d****i
发帖数: 4809
28
来自主题: Programming版 - 大牛们,请教大数据系统如何架构
严重同意,前几天刚看到比这个数据量大的多的case, 八台机器,MySQL加上一些PHP,
Python代码用来做做ETL加data processing完全可以搞定,进了现在这么多hype的忽悠
坑出来就不容易了。
a****u
发帖数: 1537
29
来自主题: Programming版 - 诸位数据visualization都用什么框架?
如果数据量不大,可以考虑用d3.js之类的,图形做出来很美观。
l******0
发帖数: 244
30
关键另两个表也都有 ID, Name 的索引,但速度很正常,同样的数据量,几分钟的事
。这个 join table, 则需要几个小时。That is what I am curious about, and
maybe something I am doing wrong.
L****8
发帖数: 3938
31
来自主题: Programming版 - 用CNN,怎么计算需要的数据量?
通过各种数据变换 总算折腾出来6000幅图像
应该控制filter大小 还是filter数量?
w**z
发帖数: 8232
32
数据量大于单机的存储量,单机怎么搞?

:马上industry又要重新发现单机模式了.
:Hadoop那套东西是基于传统HDD设计的, 其实现在大容量SSD上
w**z
发帖数: 8232
33
数据量大于单机的存储量,单机怎么搞?

:马上industry又要重新发现单机模式了.
:Hadoop那套东西是基于传统HDD设计的, 其实现在大容量SSD上
w***g
发帖数: 5958
34
来自主题: Programming版 - 请教数据存储问题
有时候该手写工具还是要写的。

:我第一个应用吧。其实现在就是非常简单的随便存也行 因为数据量真不大。
:只是想看看有没有更好玩的, 试试。直接存 太丑了有点。
m****o
发帖数: 182
35
https://www.tensorflow.org/api_docs/python/tf/data/TextLineDataset#shuffle
有一种情况是数据量太大,那样只能shuffle index,在训练的时候用shuffled index
random access rows。我想tensorflow可以直接给省了这一步?
p*****m
发帖数: 7030
36
这个没办法 如果数据量小或者分布不正态 本来statistical power就很小啊
n********t
发帖数: 1079
37
Haploview,不过数据量不能太大,这个软件的memory footprint大得惊人
x*******t
发帖数: 3764
38
来自主题: Biology版 - excel多列数据如何连成一列?
每列数据量稍大,一个个收尾粘贴太麻烦了,有没有简单的?
多谢啦!
n****3
发帖数: 8
39
我是化学系的,想请教请教高手
用origin做数据处理的时候,数据量很大,一幅图里做了几百条直线后,origin可以把
每条线的斜率分别给出么?
我linear fitting的时候,origin都是给了一条平均的拟和线,然后只给出那条线的斜
率,大家有什么方法么?听说origin也可以编程的,是不是需要靠编程来实现呀?
谢谢
a****n
发帖数: 1887
40
数据量大的话用in mem database, 少的话用mem mapping file
a****n
发帖数: 1887
41
mem mapping file 没有index, 数据量大了, retrieve速度还是比in mem database
慢, 当然你自己实现index另说
没用过matlab, 我们用c/c++
S*********g
发帖数: 5298
42
啥样的daily data大?
你这个一个daily data point背后那么多数据量就这么被你给忽略了?
还是这个搜索频率是凭空从石头里蹦出来的?
p*****y
发帖数: 529
43
金融的那点数据, 弄几个powerful点的server就搞定了。 唯一可能有点用的是
derivative pricing, 那种eod上千server的吃, 也就沾点largescale的光, 数据量
还是个屁。 而且原来有infrastructure了, 干嘛要新的?
p*****y
发帖数: 529
44
金融的那点数据, 弄几个powerful点的server就搞定了。 唯一可能有点用的是
derivative pricing, 那种eod上千server的吃, 也就沾点largescale的光, 数据量
还是个屁。 而且原来有infrastructure了, 干嘛要新的?
首页 上页 1 2 3 4 5 6 7 8 9 10 下页 末页 (共10页)