show下我做的大数据平台 - Programming版

本页内容为未名空间相应帖子的节选和存档，一周内的贴子最多显示50字，超过一周显示500字访问原贴

Programming版 - show下我做的大数据平台

相关主题
● AWS太狠了	● template 疑问
● 淘宝"技术"含量很低	● Python和C++求助
● 讨论下Android/IOS 开发后端解决方案？	● 新版12306很像魏老师所说
● 小白弱问一个AWS EC2 outage的问题	● 看来跳了Scala的坑是对的
● Git做版本控制有没有权限控制的功能？	● docker的newbie 问题
● 下一个热点是啥？	● 解密hadoop文件系统数据存储方式
● 数据库能 version control吗？	● zhaoce怎么不见了
● C++ plotting libary	● sbt错误：object xxx is not a member of package yyy

相关话题的讨论汇总
话题: 数据话题: pipeline话题: 用户话题: 通过话题: 平台

进入Programming版参与讨论

(共1页)

w***g
发帖数: 5958

其实这种东西现在已经不新鲜了，用户定义一个data pipeline，就是一个定义数据-算
法流向的二部图。然后这个pipeline放到后台自动调度运行产生各种visualization。
目前可以通过pbs支持传统机群调度，以及yarn支持Hadoop/Spark机群调度，并且
提供机制在两种数据之间进行转换。因为目前针对的是生物学用户，并没有开放动态增
删图节点的功能，只能选我们预定义的标准pipeline，然后有啥特殊需求我们通过内部
界面进行增删调整。
http://a2genomics.com/
上面有public dataset的demo。默认只能看到运行结果。Login demo后通过下面的链接
可以看到一个只读模式的算法控制页面。http://a2genomics.com/main/operator/415/
如果有运行权限的话可以看到各种控制按钮和运行日志。
我的架构和市面上别的平台的一个区别是我花了比较大的精力来做数据的版本控制。算
法节点每运行一次都会产生一个新的版本的数据而不会覆盖原有的数据。然后可以对数
据做snapshot。老的，没有被别的节点或者snapshot引用的数据通过周期性的garbage
collection进行删除。这样调参数的时候可以放开了调，最好的结果可以通过内置的搜
索引擎自动找回来，不用手工边调边做笔记。很可惜因为目标用户目前还远没有能力理
解这些功能，没法对他们开放。

h*******u
发帖数: 15326

先顶

【在 w***g 的大作中提到】

: 其实这种东西现在已经不新鲜了，用户定义一个data pipeline，就是一个定义数据-算
: 法流向的二部图。然后这个pipeline放到后台自动调度运行产生各种visualization。
: 目前可以通过pbs支持传统机群调度，以及yarn支持Hadoop/Spark机群调度，并且
: 提供机制在两种数据之间进行转换。因为目前针对的是生物学用户，并没有开放动态增
: 删图节点的功能，只能选我们预定义的标准pipeline，然后有啥特殊需求我们通过内部
: 界面进行增删调整。
: http://a2genomics.com/
: 上面有public dataset的demo。默认只能看到运行结果。Login demo后通过下面的链接
: 可以看到一个只读模式的算法控制页面。http://a2genomics.com/main/operator/415/
: 如果有运行权限的话可以看到各种控制按钮和运行日志。

W***o
发帖数: 6519

不错啊，好像是把RNA-SEQ分析流程可以通过你这个平台自动化了吗？那你的计算平台
和存储平台分别用的哪家的服务器呢？
另外提一些初步感觉到的问题：显示的大数字，比如254311434，这种写法有点反人类
哦，不能中间加几个逗号吗？如果通过你这个平台上传几个RNA-SEQ数据文件，是不是
要等个把月才能上传好？呵呵
最后请教个问题，你的PLOTTING是用python/plot做的动态图？

【在 w***g 的大作中提到】

k******t
发帖数: 1498

小问题，copy right是不是写2014-2105好些？你现在写的是2014，2015

【在 w***g 的大作中提到】

l**********n
发帖数: 8443

这玩意现在很火啊。基因诊断。

w***g
发帖数: 5958

上面说过了，自己买机器搭的机群，放数据中心。做大数据的没法用EC2，不但成本高，
而且条条框框都定死了，没有优化的余地。人家一个数据集过来，解压后就是小1T，
给的钱还不够付EC2的。我这个系统是from scratch设计的。

【在 W***o 的大作中提到】

: 不错啊，好像是把RNA-SEQ分析流程可以通过你这个平台自动化了吗？那你的计算平台
: 和存储平台分别用的哪家的服务器呢？
: 另外提一些初步感觉到的问题：显示的大数字，比如254311434，这种写法有点反人类
: 哦，不能中间加几个逗号吗？如果通过你这个平台上传几个RNA-SEQ数据文件，是不是
: 要等个把月才能上传好？呵呵
: 最后请教个问题，你的PLOTTING是用python/plot做的动态图？

c*********e
发帖数: 16335

数据的版本控制 - 你怎么做的？每个版本都放数据库里？还是只把改变的部分记录下
来，象git, svn之类的版本控制软件？
内置的搜索引擎－你自己做的，还是google的引擎？

【在 w***g 的大作中提到】

w***g
发帖数: 5958

都是自己做的。git是用来管理代码版本的，能处理的数据量太小了。当然我的功能还
远没有git那么完备。目前没有做dedupe或者delta compression，就是存多个版本的完
整数据，那样可靠性最好。我可以把storage做的比较便宜。

【在 c*********e 的大作中提到】

: 数据的版本控制 - 你怎么做的？每个版本都放数据库里？还是只把改变的部分记录下
: 来，象git, svn之类的版本控制软件？
: 内置的搜索引擎－你自己做的，还是google的引擎？

c*********e
发帖数: 16335

存多个版本的完整数据,每个版本之间是互不相干的？这我也会做。
内置搜索引擎呢？直接用google engine?

【在 w***g 的大作中提到】

: 都是自己做的。git是用来管理代码版本的，能处理的数据量太小了。当然我的功能还
: 远没有git那么完备。目前没有做dedupe或者delta compression，就是存多个版本的完
: 整数据，那样可靠性最好。我可以把storage做的比较便宜。

c*********e
发帖数: 16335

wdong啊，你知道生物实验室每天都干吗吗？杀老鼠，解剖老鼠，培养各种细菌动物细
胞。。。放射性物质到处都是。。。
你真是太让我佩服了。
先去参观下生物实验室先。

【在 w***g 的大作中提到】

相关主题
● 下一个热点是啥？	● template 疑问
● 数据库能 version control吗？	● Python和C++求助
● C++ plotting libary	● 新版12306很像魏老师所说
进入Programming版参与讨论

w***g
发帖数: 5958

内置搜索引擎你肯定也会做。没啥神奇的高深技术。

【在 c*********e 的大作中提到】

: 存多个版本的完整数据,每个版本之间是互不相干的？这我也会做。
: 内置搜索引擎呢？直接用google engine?

c*********e
发帖数: 16335

我还真不会做，我只会搜索数据库来做搜索。或者找个plugin.

【在 w***g 的大作中提到】

: 内置搜索引擎你肯定也会做。没啥神奇的高深技术。

h*******u
发帖数: 15326

你这个存储是怎么管理的

【在 w***g 的大作中提到】

w***g
发帖数: 5958

都是基本的数据结构，跟你说了你肯定也会做。千万不要这么快承认自己不会。

【在 c*********e 的大作中提到】

: 我还真不会做，我只会搜索数据库来做搜索。或者找个plugin.

w***g
发帖数: 5958

数据库+Linux文件系统/Hadoop。各种指针指来指去的。GC的时候遍历一下，指针指不
到的就是垃圾，就可以删了。

【在 h*******u 的大作中提到】

: 你这个存储是怎么管理的

g*****g
发帖数: 34805

Lucene现成的，这东西没有必要从头写。

【在 w***g 的大作中提到】

: 都是基本的数据结构，跟你说了你肯定也会做。千万不要这么快承认自己不会。

n******7
发帖数: 12463

有点意思，跟galaxy做的事情差不多
今年2月tri-con上面也有不少类似的小公司，有些还没lz这个做的像样，估计很快会死

n******7
发帖数: 12463

看了一下，lz的pipeline居然有了sailfish,看来还是蛮关注前沿的

n******7
发帖数: 12463

这个能否解释一下？我比你的大部分目标用户懂得多点，但是也不知道你说的什么意思
特别这个搜索引擎什么用处？

这样调参数的时候可以放开了调，最好的结果可以通过内置的搜
索引擎自动找回来，不用手工边调边做笔记。很可惜因为目标用户目前还远没有能力理
解这些功能，没法对他们开放。

【在 w***g 的大作中提到】

: 数据库+Linux文件系统/Hadoop。各种指针指来指去的。GC的时候遍历一下，指针指不
: 到的就是垃圾，就可以删了。

h*******u
发帖数: 15326

分布式文件管理直接交给hadoop了？

【在 w***g 的大作中提到】

: 数据库+Linux文件系统/Hadoop。各种指针指来指去的。GC的时候遍历一下，指针指不
: 到的就是垃圾，就可以删了。

相关主题
● 看来跳了Scala的坑是对的	● zhaoce怎么不见了
● docker的newbie 问题	● sbt错误：object xxx is not a member of package yyy
● 解密hadoop文件系统数据存储方式	● scala有[0]*n这种东西吗？
进入Programming版参与讨论

l******n
发帖数: 9344

做得很不错，有个benchmark来对比一下流程和速度就更好了

【在 w***g 的大作中提到】

w***g
发帖数: 5958

目前只开放了在处理结果中搜索关键词的功能。如果在右上角的搜索框中输入基因/
pathway/GO term啥的名字，可以搜到处理结果中哪些页面包含了这些关键词。搜索能
做的东西很多，而且数据量一大必须要用到搜索。等我们的系统有了一定范围的应用后
我会开放更多的功能。

【在 n******7 的大作中提到】

: 这个能否解释一下？我比你的大部分目标用户懂得多点，但是也不知道你说的什么意思
: 特别这个搜索引擎什么用处？
:
: 这样调参数的时候可以放开了调，最好的结果可以通过内置的搜
: 索引擎自动找回来，不用手工边调边做笔记。很可惜因为目标用户目前还远没有能力理
: 解这些功能，没法对他们开放。

n******7
发帖数: 12463

哦，明白了
不过我从来没有通过twist data processing过程的参数来调整enrich的pathway/GO
term之类
也许做生物的人要通过这种不断调整来搞到自己满意的结果吧
你要做这种functional 分析的话，得整合不少database，不知道你们做的如何
像Ingenuity IPA这种，方法上很一般，但是后台database很全，output的图也挺漂亮
就很流行，我给生物lab打酱油的时候也喜欢用，省事

【在 w***g 的大作中提到】

: 目前只开放了在处理结果中搜索关键词的功能。如果在右上角的搜索框中输入基因/
: pathway/GO term啥的名字，可以搜到处理结果中哪些页面包含了这些关键词。搜索能
: 做的东西很多，而且数据量一大必须要用到搜索。等我们的系统有了一定范围的应用后
: 我会开放更多的功能。

w***g
发帖数: 5958

调参数那个功能目前是我自己开发新的pipeline的时候用。比如k-means啥的，需要挑
几个典型的K值。我定了以后，所有的用户就都得到这几个K值的分析，除非特殊要求再
加别的K值。
至于整合database，我们显然不能和ingenuity比。差好几个重量级。

【在 n******7 的大作中提到】

: 哦，明白了
: 不过我从来没有通过twist data processing过程的参数来调整enrich的pathway/GO
: term之类
: 也许做生物的人要通过这种不断调整来搞到自己满意的结果吧
: 你要做这种functional 分析的话，得整合不少database，不知道你们做的如何
: 像Ingenuity IPA这种，方法上很一般，但是后台database很全，output的图也挺漂亮
: 就很流行，我给生物lab打酱油的时候也喜欢用，省事

h********3
发帖数: 2075

对数据做版本控制，这个idea很赞！

【在 w***g 的大作中提到】

N******K
发帖数: 10202

发现了另一个
https://bioextract.org/query/index.jsp
你能搞个比较么？

【在 w***g 的大作中提到】

p**r
发帖数: 5853

进来膜拜一下大神。

w***g
发帖数: 5958

他们那个是免费用的，我这个是收钱的。
他们有很多workflow，我目前只有一个。
他们所有的pipeline都很浅，我的很深，可以做到enrichment分析那一步。
他们的目标是做平台，等着别人来给做pipeline。我的主要精力是做pipeline。
一样的是我估计两个目前都没啥用户，而且都没啥技术含量。
这个东西确实是没啥技术含量，只是system integration。
最终能不能赚到钱，还是看服务是否做得贴心，是否能挠到用户的痒处。

【在 N******K 的大作中提到】

: 发现了另一个
: https://bioextract.org/query/index.jsp
: 你能搞个比较么？

t*d
发帖数: 1290

大牛一个人干出来的呀？
和 Seven Bridge 比优势如何？

【在 w***g 的大作中提到】

c*******n
发帖数: 679

赞！
请问大牛这个Web UI用的什么framework？

【在 w***g 的大作中提到】

相关主题
● 没人讨论狗家最新开源的tensorflow？	● 淘宝"技术"含量很低
● 对哦，老姜，别人说的提醒了我	● 讨论下Android/IOS 开发后端解决方案？
● AWS太狠了	● 小白弱问一个AWS EC2 outage的问题
进入Programming版参与讨论

w***g
发帖数: 5958

bootstrap，后面是django。这些其实都没啥。我真正得意的是后台的大数据架构和
pipeline。
今天看到华大的新闻又有点不淡定了。他们的技术其实比我差远了。可惜我不会run
business，也没这精力。
做技术做到后来总是会遇到各种starup的trap，会有想证明自己比别人牛的冲动。然后
一不小心拿了投资，就成了资本的奴隶，没法干自己想干的事情了。昨天看到larry
page的照片，刚到40岁就满头白发了，还不能承认是累的，我真心觉得不值。

【在 c*******n 的大作中提到】

: 赞！
: 请问大牛这个Web UI用的什么framework？

W***o
发帖数: 6519

why don't you try to find a business partner? ideally a sales person who can
network you to bigger guys/players

【在 w***g 的大作中提到】

: bootstrap，后面是django。这些其实都没啥。我真正得意的是后台的大数据架构和
: pipeline。
: 今天看到华大的新闻又有点不淡定了。他们的技术其实比我差远了。可惜我不会run
: business，也没这精力。
: 做技术做到后来总是会遇到各种starup的trap，会有想证明自己比别人牛的冲动。然后
: 一不小心拿了投资，就成了资本的奴隶，没法干自己想干的事情了。昨天看到larry
: page的照片，刚到40岁就满头白发了，还不能承认是累的，我真心觉得不值。

f******2
发帖数: 2455

楼主这是兼职干的？如果是，建议赶快找biz partner

【在 w***g 的大作中提到】

w***g
发帖数: 5958

多谢你在生物版帮我回帖。

can

【在 W***o 的大作中提到】

: why don't you try to find a business partner? ideally a sales person who can
: network you to bigger guys/players

d*******r
发帖数: 3299

明白人
不过我说一句, 你看我是不是理解错了, 你这种产品是属于 B2B 的,
就是说是卖给企业类用户的, 卖给非个人的机构使用的,
比如某个lab或者研究机构(可能一般是non-profit的机构?).
这种产品的话, 名气和信誉(不管是不是虚的),
甚至跟那边采购人员的关系, 就很重要了, 这些就是 run business 的人在搞.
不像一些 B2C 的产品, 比如小游戏或者个人应用app,
很大程度上只需要要把产品做精做好就行,
因为产品是直接面对最终个人用户的, 用户只要一喜欢, 立马就买账.

【在 w***g 的大作中提到】

w***g
发帖数: 5958

是B2B模式。主要靠关系和信誉。界面做得再漂亮，你怎么证明你算出来的东西是正确
的？这个基本上是没法证明的。我这个产品背后也有一个机器学习/生物信息学大牛。
机器学习比我牛10倍那种。算出来结果由那人先看一眼，基本上就打消了客户的一切疑
虑。如果没这么个人给我看一眼结果，就是做得再好估计也卖不出去1分钱。
国内的行情: 项目budget定下来了，如果按正当途径完不成任务，就拿budget去公关，
最后也能交差。所以在国内混，关系最重要，别的其实都可以靠后。我们是无欲则刚，
赚不赚钱无所谓，虽然客户很少，但不需要求人。

【在 d*******r 的大作中提到】

:
: 明白人
: 不过我说一句, 你看我是不是理解错了, 你这种产品是属于 B2B 的,
: 就是说是卖给企业类用户的, 卖给非个人的机构使用的,
: 比如某个lab或者研究机构(可能一般是non-profit的机构?).
: 这种产品的话, 名气和信誉(不管是不是虚的),
: 甚至跟那边采购人员的关系, 就很重要了, 这些就是 run business 的人在搞.
: 不像一些 B2C 的产品, 比如小游戏或者个人应用app,
: 很大程度上只需要要把产品做精做好就行,
: 因为产品是直接面对最终个人用户的, 用户只要一喜欢, 立马就买账.

d*******r
发帖数: 3299

赞"无欲则刚", 其实还挺难办到的

【在 w***g 的大作中提到】

: 是B2B模式。主要靠关系和信誉。界面做得再漂亮，你怎么证明你算出来的东西是正确
: 的？这个基本上是没法证明的。我这个产品背后也有一个机器学习/生物信息学大牛。
: 机器学习比我牛10倍那种。算出来结果由那人先看一眼，基本上就打消了客户的一切疑
: 虑。如果没这么个人给我看一眼结果，就是做得再好估计也卖不出去1分钱。
: 国内的行情: 项目budget定下来了，如果按正当途径完不成任务，就拿budget去公关，
: 最后也能交差。所以在国内混，关系最重要，别的其实都可以靠后。我们是无欲则刚，
: 赚不赚钱无所谓，虽然客户很少，但不需要求人。

j******g
发帖数: 2689

机器哪里托管便宜?

c*****e
发帖数: 3226

牛，这比吵架骂人的帖子有意思多了。真正的干货！

【在 w***g 的大作中提到】

j******g
发帖数: 2689

搞个开源系统行吗？

相关主题
● 小白弱问一个AWS EC2 outage的问题	● 数据库能 version control吗？
● Git做版本控制有没有权限控制的功能？	● C++ plotting libary
● 下一个热点是啥？	● template 疑问
进入Programming版参与讨论

w***g
发帖数: 5958

不是轮子，开源没有太大意义，不利于竞争。

【在 j******g 的大作中提到】

: 搞个开源系统行吗？

N******K
发帖数: 10202

http://www.genmapp.org/default.html

【在 w***g 的大作中提到】

c***c
发帖数: 21374

厉害

(共1页)

进入Programming版参与讨论

相关主题
● sbt错误：object xxx is not a member of package yyy	● Git做版本控制有没有权限控制的功能？
● scala有[0]*n这种东西吗？	● 下一个热点是啥？
● 没人讨论狗家最新开源的tensorflow？	● 数据库能 version control吗？
● 对哦，老姜，别人说的提醒了我	● C++ plotting libary
● AWS太狠了	● template 疑问
● 淘宝"技术"含量很低	● Python和C++求助
● 讨论下Android/IOS 开发后端解决方案？	● 新版12306很像魏老师所说
● 小白弱问一个AWS EC2 outage的问题	● 看来跳了Scala的坑是对的

相关话题的讨论汇总
话题: 数据话题: pipeline话题: 用户话题: 通过话题: 平台

#	版面	帖数(主题数)
-	全站	4871 (796)
1	Military	3777 (569)
2	Stock	341 (51)
3	Joke	117 (17)
4	History	116 (3)
5	Automobile	100 (9)
6	USANews	55 (9)
7	Midlife	45 (1)
8	Headline	41 (41)
9	Dreamer	33 (13)
10	FleaMarket	32 (20)
11	Living	30 (7)

boards

未名新帖统计// 7月16日

历史上的今天