第4页 - 关于数据量的讨论汇总 - 话题女王

全部话题 - 话题: 数据量

n*****3
发帖数: 1584

very good point; 但是我们需要 create some features based on the stop time(of
Position population), but there is NO stop time for negative population.
so we have to use this "case control" approach....
停留的时间是很有限的一些；但数据量不小，遍历再匹配要很久啊。

j**********r
发帖数: 3798

来自主题: JobHunting版 - 非常常见的面试题：数据太多，用MySQL查询太慢该怎么办？

好歹要有数据量，什么样的查询，什么样的SLA才能回答呀。这哪有统一答案的。

j**********r
发帖数: 3798

来自主题: JobHunting版 - 非常常见的面试题：数据太多，用MySQL查询太慢该怎么办？

对单一query优化有很多种办法，比如每年分一个数据库，维护一个全年的count。数据
量直接下一个数量级。

AND

t*******i
发帖数: 4960

来自主题: Stock版 - 问个事巨量有结构数据 Hadoop vs MySQL 哪个更快

数据量大到什么地步？
一个是为　ｂｉｇ　ｄａｔａ　设计的，一个传统的关系数据库。

N********n
发帖数: 13236

来自主题: Movie版 - Stream Netflix一本片子在手机上看要多少数据流量

rt，估算一下数据量够不够，谢谢！

n**y
发帖数: 11447

来自主题: Apple版 - 大家说说自己的数据套餐流量吧

这个就是测一下吧，估计没几M数据量
平时用也不大可能这么高速度长时间使用

a****a
发帖数: 65

来自主题: Database版 - ACCESS的数据量求教

500条数据用access是不是就可以

d******e
发帖数: 2265

来自主题: Database版 - ACCESS的数据量求教

关系数据?

y****w
发帖数: 3747

来自主题: Database版 - 问个数据migration的问题

装个sql server,用ssis，拖拖拉拉就行了。 ---假如你数据量不大的话。
或其他你熟悉的etl工具也称。

s**********o
发帖数: 14359

来自主题: Database版 - 求大量数据每天更新的解决方案

EXTRACTING SUMMARIZE都不是问题，虽然慢点，但不会出问题，因为都在一个ETL
SERVER上进行的，SUMMARY结束了要BCP OUT出去，然后LOAD PRODUCTION上，这是问题
的所在，因为数据量大，20个
TABLE每个1BILLION, 网络和IO都有限制，中间有时候会莫名其妙地FAIL掉

's

B*****g
发帖数: 34098

来自主题: Database版 - 求大量数据每天更新的解决方案

如果数据量太大，可以试一下一些Bigdata ETL软件。比如
http://bigdata.pervasive.com/Products/Analytic-Engine-Pervasive

e****7
发帖数: 4387

来自主题: Database版 - data warehouse里面，所有dimension table的数据要拷贝到新的fact table里面，觉得这做法比较傻。

嗯，看明白了，然后所有的dimension 都是degenerate dimension from fact.
数据量小，选用excel 做pivot table 还成，直接导入就完事。
大型olap 没见过这么搞的

e****7
发帖数: 4387

来自主题: Database版 - data warehouse里面，所有dimension table的数据要拷贝到新的fact table里面，觉得这做法比较傻。

嗯，看明白了，然后所有的dimension 都是degenerate dimension from fact.
数据量小，选用excel 做pivot table 还成，直接导入就完事。
大型olap 没见过这么搞的

i*****w
发帖数: 75

来自主题: Database版 - 有人抽取过AS/400(iSeries)的数据么？

就我的经验,　iSeries的DB2 Provider在处理大数据量时不如Microsoft 的DB2
Provider. 你们在
SQL上有相应的 linked server吗？可以参照着配置library,catalog等。
用OLE　DB Provider, not ODBC.
另外，回写到AS400时有时候需要IBM Provider.

y*****g
发帖数: 677

来自主题: Database版 - 大数据将来肯定是个方向

我们决定明年上big data,hadoop, hbase, hive, big sql, etc.
数据量向 1000T 上发展。今后不用传统数据库，真是有些舍不得呢。

f****n
发帖数: 148

来自主题: EmergingNetworking版 - 如何通过internet快速传输大数据文件

压缩的话估计能缩小1/3，不过数据量还是很大。
据说国内对外企可以开通专线，与国外通讯的速度比较快，但不知道具体能够达到什么
速度。

z****e
发帖数: 54598

来自主题: Java版 - 一般来说MYSQL可以handle多大的数据量呢？

我觉得你不能这样想
经常有人演示过twitter的客户增长曲线
如果成功了之后，那个增长，完全就是火箭发射一般的直线增长
就算有钱，也跟不上
应该从数据结构入手
如果是重要性的数据，比如账户信息，金钱交易
就上transaction做结构化存储
否则的话，比如客户每天生成的各种消费记录，twitter的#之类的
完全可以做非结构化存储

s*****r
发帖数: 43070

来自主题: Java版 - 一般来说MYSQL可以handle多大的数据量呢？

report基本都需要join的，这个nosql不好使，办法就是denormalize，把所有的数据都
放在一起。

R****g
发帖数: 130

来自主题: Programming版 - 数据存储的问题

用的fortran
用了两个方法:
1.写到direct access file里面以后要用再打开他读取 --> 慢
2.写到allocatable array里面程序里面直接读 -->快，但是经常超过virtual memory
，因为数据量太大了
有没有其他方法？如何在2的基础上改进内存的问题？
谢了

r*******n
发帖数: 3020

来自主题: Programming版 - mongoDB跟传统关系数据库比有什么优势?

设备会很多，多数是sensor，数据量会比较大并且同时进来。
如果mongoDB吞吐能力强并且占用硬盘空间小，我们可以把它作为中转站，再二次处理
放到SQL server里供分析用，
同时也可作为数据备份用。
MySql肯定能做，想看看mongoDB是不是更合适。

nosql

t*******y
发帖数: 1289

来自主题: Programming版 - 一个问题，关于数据存储的选择

非常小的数据量，是选择自己写xml file读写，还是选择sqlite好？
没做过数据库的开发，只是简单的建库，读写，查询，没考虑过性能，没有深入研究过
数据库。现在在设计阶段，想看看别人的看法
主要考虑是对多线程的支持，多人开发，怕dead lock，当然，这个主要靠架构设计，
但是架不住人做啊。想找一个比较容易控制的。
谢谢

p*****2
发帖数: 21240

来自主题: Programming版 - 一个问题，关于数据存储的选择

数据量小可以上redis了

n******7
发帖数: 12463

来自主题: Programming版 - 日本最近有个生物大数据应用的新闻

我看他们打算搜集65,000个样本
这个数量确实很多
但是数据量没多大
就算有2000个miRNA
也就是一个65000x2000的矩阵

S*A
发帖数: 7142

来自主题: Programming版 - AWS S3 200G 数据 upload【请教】

我记得AWS有这个服务。我一朋友用过邮硬盘服务。
但是要数据量大过一定阈值才合算。

w***g
发帖数: 5958

来自主题: Programming版 - show下我做的大数据平台

都是自己做的。git是用来管理代码版本的，能处理的数据量太小了。当然我的功能还
远没有git那么完备。目前没有做dedupe或者delta compression，就是存多个版本的完
整数据，那样可靠性最好。我可以把storage做的比较便宜。

w***g
发帖数: 5958

来自主题: Programming版 - show下我做的大数据平台

目前只开放了在处理结果中搜索关键词的功能。如果在右上角的搜索框中输入基因/
pathway/GO term啥的名字，可以搜到处理结果中哪些页面包含了这些关键词。搜索能
做的东西很多，而且数据量一大必须要用到搜索。等我们的系统有了一定范围的应用后
我会开放更多的功能。

k**n
发帖数: 3989

来自主题: Programming版 - 请教思路数据同步有关

某存在的表A在sqlserver2k，
数据量几万条，更新不多，，一天几十条到几百条的样子。
不许用triger,不许改crud的code或sp。
现在需求是某程序每过10分钟得到这个表有什么改动，（删除，插入，某些fields改动）
请教大家能给点思路吗？具体点最好，急用。
多谢。

d****i
发帖数: 4809

来自主题: Programming版 - 大牛们，请教大数据系统如何架构

严重同意，前几天刚看到比这个数据量大的多的case, 八台机器，MySQL加上一些PHP,
Python代码用来做做ETL加data processing完全可以搞定，进了现在这么多hype的忽悠
坑出来就不容易了。

a****u
发帖数: 1537

来自主题: Programming版 - 诸位数据visualization都用什么框架？

如果数据量不大，可以考虑用d3.js之类的，图形做出来很美观。

l******0
发帖数: 244

来自主题: Programming版 - 往 MySql 里面装载数据，速度受什么影响？

关键另两个表也都有 ID， Name 的索引，但速度很正常，同样的数据量，几分钟的事
。这个 join table, 则需要几个小时。That is what I am curious about, and
maybe something I am doing wrong.

L****8
发帖数: 3938

来自主题: Programming版 - 用CNN,怎么计算需要的数据量？

通过各种数据变换总算折腾出来6000幅图像
应该控制filter大小还是filter数量？

w**z
发帖数: 8232

来自主题: Programming版 - 分布式计算大数据啥的我咋觉得是倒退？

数据量大于单机的存储量，单机怎么搞？

：马上industry又要重新发现单机模式了.
：Hadoop那套东西是基于传统HDD设计的, 其实现在大容量SSD上

w**z
发帖数: 8232

来自主题: Programming版 - 分布式计算大数据啥的我咋觉得是倒退？

数据量大于单机的存储量，单机怎么搞？

：马上industry又要重新发现单机模式了.
：Hadoop那套东西是基于传统HDD设计的, 其实现在大容量SSD上

w***g
发帖数: 5958

来自主题: Programming版 - 请教数据存储问题

有时候该手写工具还是要写的。

：我第一个应用吧。其实现在就是非常简单的随便存也行因为数据量真不大。
：只是想看看有没有更好玩的，试试。直接存太丑了有点。

m****o
发帖数: 182

来自主题: Programming版 - deep learning 的时候要把所有数据都读到内存里？

https://www.tensorflow.org/api_docs/python/tf/data/TextLineDataset#shuffle
有一种情况是数据量太大，那样只能shuffle index，在训练的时候用shuffled index
random access rows。我想tensorflow可以直接给省了这一步？

p*****m
发帖数: 7030

来自主题: Biology版 - 这样的数据该怎么显示其的significance？

这个没办法如果数据量小或者分布不正态本来statistical power就很小啊

n********t
发帖数: 1079

来自主题: Biology版 - 新手求教,用什么办法根据genotypes的数据,分析risk hyplotype??

Haploview，不过数据量不能太大，这个软件的memory footprint大得惊人

x*******t
发帖数: 3764

来自主题: Biology版 - excel多列数据如何连成一列？

每列数据量稍大，一个个收尾粘贴太麻烦了，有没有简单的？
多谢啦！

n****3
发帖数: 8

来自主题: EE版 - 一个关于用origin处理数据的问题

我是化学系的，想请教请教高手
用origin做数据处理的时候，数据量很大，一幅图里做了几百条直线后，origin可以把
每条线的斜率分别给出么？
我linear fitting的时候，origin都是给了一条平均的拟和线，然后只给出那条线的斜
率，大家有什么方法么？听说origin也可以编程的，是不是需要靠编程来实现呀？
谢谢

a****n
发帖数: 1887

来自主题: Quant版 - 请教实现中高频接受数据，即时储存的系统结构

数据量大的话用in mem database, 少的话用mem mapping file

a****n
发帖数: 1887

来自主题: Quant版 - 请教实现中高频接受数据，即时储存的系统结构

mem mapping file 没有index，数据量大了， retrieve速度还是比in mem database
慢，当然你自己实现index另说
没用过matlab，我们用c/c++

S*********g
发帖数: 5298

来自主题: Quant版 - 进入大数据这行一个礼拜，简单说一下认识

啥样的daily data大？
你这个一个daily data point背后那么多数据量就这么被你给忽略了？
还是这个搜索频率是凭空从石头里蹦出来的？

p*****y
发帖数: 529

来自主题: Quant版 - 大数据技术似乎对于金融没啥用

金融的那点数据，弄几个powerful点的server就搞定了。唯一可能有点用的是
derivative pricing, 那种eod上千server的吃，也就沾点largescale的光，数据量
还是个屁。而且原来有infrastructure了，干嘛要新的？

p*****y
发帖数: 529

来自主题: Quant版 - 大数据技术似乎对于金融没啥用

#	版面	帖数(主题数)
-	全站	4871 (796)
1	Military	3777 (569)
2	Stock	341 (51)
3	Joke	117 (17)
4	History	116 (3)
5	Automobile	100 (9)
6	USANews	55 (9)
7	Midlife	45 (1)
8	Headline	41 (41)
9	Dreamer	33 (13)
10	FleaMarket	32 (20)
11	Living	30 (7)

topics

未名新帖统计// 7月16日

历史上的今天