|
|
|
|
|
|
h*******0 发帖数: 3598 | 1 谢谢谢谢,请教请教, 呵呵。我什么都不懂。
我应该选择一个怎样的数据库?
我有一些数据,其特点如下:
1。单文件类别多(数字数据,符号序列/sequences, 分子结构图/structure,网络关
系图/network/pathway)
2。文件大小不一。有的单文件一个就20G, 有的一个才几百kb.
3。调用复杂。 就是搜索和分析数据时, 我们可能会同时利用不同的文件类别(参见1
。2。) 进行分析和计算。
4。统计甄别。 就是要对数据进行智能的筛选 (不知道是不是要用machine learning
), 去处“不合理”的数据, 建立“有效数据库”。
5。适时更新。 因为新的数据会从网络上不断涌现。 这些新的数据,可以是对原数据
库data的补充,也可以是对原数据库data的筛选。 所以每隔一定的时间, 估计就得更
新“有效数据”。这是不是就是所说的“动态数据”?
所以如果我要建立一个满足我这些数据特点的数据库。 是不是传统的数据库就很不合
适了?
另外一个让人头疼的问题是: 数据这么大, 数据的传输是个大问题。是不是放在云上
比较好。也就是说, 建立一个在云数据库(当然,我们可以利用已经做好的云, 给交
费就好了。虽然长远来说, 自己做个云是最合算的)。然后开发一些分析和搜索的工
具, 让用户可以直接在云上操作。这样的好处是避免了大数据的传输。 用户下载的只
是最后的结果(小数据或图片)。这样会更经济更有效率?
所以我想问大牛们,我应该选择一个怎样的数据库? | c****t 发帖数: 19049 | | h*******0 发帖数: 3598 | 3 谢谢斑竹兄弟这么看得起我, 要不我先向您学习学习, 然后再和伙儿, 呵呵
【在 c****t 的大作中提到】 : 开个start-up吧
| m********s 发帖数: 55301 | 4 不是专家,不是大牛,完全好奇,所以发言。
个人观点,仅供参考。
有几个问题想先问一下。
第一,什么是单文件,什么是文件类比,请先定义,最好再举几个例子。
第二,哪个单文件有20G,请举例。
第三,请定义搜索数据,是指在单个文件中搜索相关的keyword吗?还是在整体的这些
文件中搜索相关的keyword?
第四,请定义统计鉴别,什么叫做对数据进行“智能”筛选。
第五,请定义更新有效数据。怎么识别是有效的,还是无效的数据。
第六,请定义更新一个单文件。是update单文件,还是create一个新文件。
第七,如何备份。
第八,如何授予相关的权限,还是只有你一个人会用,无所谓权限。
第九,如何导出数据或导出你定义的单文件。
二楼说的"开个start-up"的意思不是你理解的那个样子。她的本意是说,类比一个吧,
大致相当于10年前,你跟她说你想要一个iPhone。
不私信,因为我不是干这个的,但是确实好奇。
1
learning
【在 h*******0 的大作中提到】 : 谢谢谢谢,请教请教, 呵呵。我什么都不懂。 : 我应该选择一个怎样的数据库? : 我有一些数据,其特点如下: : 1。单文件类别多(数字数据,符号序列/sequences, 分子结构图/structure,网络关 : 系图/network/pathway) : 2。文件大小不一。有的单文件一个就20G, 有的一个才几百kb. : 3。调用复杂。 就是搜索和分析数据时, 我们可能会同时利用不同的文件类别(参见1 : 。2。) 进行分析和计算。 : 4。统计甄别。 就是要对数据进行智能的筛选 (不知道是不是要用machine learning : ), 去处“不合理”的数据, 建立“有效数据库”。
|
|
|
|
|
|