d*******r 发帖数: 3299 | 1 我现在组里有从大量用户端 (live video players, like Twitch) 采集 metrics/logs
不断写到 Cassandra 里面,是个老美在做,他就喜欢 Cassandra。上头要我回头从
Cassandra 里面 real time 地分析这些 data stream, 我准备扔到 Storm 上去处理,
大牛大概看看这么做靠谱不? 因为以前我也误解 Cassandra read 慢,怕这样读速度
跟不上,但自己还没有 Cassandra 的经验。 |
|
g*****g 发帖数: 34805 | 2 http://www.datastax.com/dev/blog/2012-in-review-performance
MongoDB
MongoDB can be a great alternative to MySQL, but it’s not really
appropriate for the scale-out applications targeted by Cassandra. Still, as
early members of the NoSQL category, the two do draw comparisons.
One important limitation in MongoDB is database-level locking. That is, only
one writer may modify a given database at a time. Support for collection-
level (a set of documents, analogous to a relational table) locking is
pla... 阅读全帖 |
|
n*w 发帖数: 3393 | 3 我看到过说cassandra是schemaless的。但最近听了datastax的一个人明确地说
cassandra是有schema的,而且还 will keep it this way。
其他几个观点:
spark是今年来少有的让人激动的突破,cassandra加spark让所以其他,map reduce,
impala,
hadoop,
其他nosql,及其分别和spark或cassandra的组合都黯然失色,毫无竞争力。
cassandra几乎是唯一达到linear scaleout的。
、、、、 |
|
c*****d 发帖数: 6045 | 4 【 以下文字转载自 JobHunting 讨论区 】
发信人: hman (好古), 信区: JobHunting
标 题: [提供内推] Senior DBA (SFO市区, mysql, cassandra, redis, h (转载)
发信站: BBS 未名空间站 (Thu Oct 10 22:40:08 2013, 美东)
发信人: hman (好古), 信区: JobMarket
标 题: [提供内推] Senior DBA (SFO市区, mysql, cassandra, redis, hadoop)
发信站: BBS 未名空间站 (Thu Oct 10 22:38:06 2013, 美东)
今天突然收到HR email说公司在招Senior Database Administrator, 不知道这里有没
有朋友有兴趣,可以私信我,最好可以简单介绍下自己,再提供一个email发JobInvite
用。
=====================
关于我们公司
=====================
公司在SFO市区,距离BART站二分钟。JAVA house, 现... 阅读全帖 |
|
h**n 发帖数: 64 | 5 【 以下文字转载自 JobMarket 讨论区 】
发信人: hman (好古), 信区: JobMarket
标 题: [提供内推] Senior DBA (SFO市区, mysql, cassandra, redis, hadoop)
发信站: BBS 未名空间站 (Thu Oct 10 22:38:06 2013, 美东)
今天突然收到HR email说公司在招Senior Database Administrator, 不知道这里有没
有朋友有兴趣,可以私信我,最好可以简单介绍下自己,再提供一个email发JobInvite
用。
=====================
关于我们公司
=====================
公司在SFO市区,距离BART站二分钟。JAVA house, 现在500来人,产品是social
customer care, social media marketing, 全部cloud based,客户几百个,很多big
names, 预计明年可以IPO(好像去年也是这么说的)。
公司环境是典型的硅谷IT公司,有吃有喝有玩,老中不少,fo... 阅读全帖 |
|
h**n 发帖数: 64 | 6 【 以下文字转载自 JobMarket 讨论区 】
发信人: hman (好古), 信区: JobMarket
标 题: [提供内推] Senior DBA (SFO市区, mysql, cassandra, redis, hadoop)
发信站: BBS 未名空间站 (Thu Oct 10 22:38:06 2013, 美东)
今天突然收到HR email说公司在招Senior Database Administrator, 不知道这里有没
有朋友有兴趣,可以私信我,最好可以简单介绍下自己,再提供一个email发JobInvite
用。
=====================
关于我们公司
=====================
公司在SFO市区,距离BART站二分钟。JAVA house, 现在500来人,产品是social
customer care, social media marketing, 全部cloud based,客户几百个,很多big
names, 预计明年可以IPO(好像去年也是这么说的)。
公司环境是典型的硅谷IT公司,有吃有喝有玩,老中不少,fo... 阅读全帖 |
|
T********i 发帖数: 2416 | 7 http://www.mitbbs.com/article_t1/Programming/31283973_0_1.html
发信人: goodbug (好虫), 信区: Programming
标 题: Re: Goodbug这个人头重脚轻,嘴尖皮厚;不但学问浮夸,而且人品恶
发信站: BBS 未名空间站 (Mon Nov 25 16:02:11 2013, 美东)
就写这么个程序,随便你怎么优化,随便你用啥语言。在你那1万的机器上benchmark大
家看看,别光说不练。
int count = 100000;
for(int i = 0; i < 100000; i++){
int count = readCounter();
count--;
write(counter);
flush();
}
发信人: TeacherWei (TW), 信区: Programming
标 题: Re: Goodbug这个人头重脚轻,嘴尖皮厚;不但学问浮夸,而且人
发信站: BBS 未名空间站 (Mon Nov 25 16:08:41 2013, 美东)
就6行... 阅读全帖 |
|
g*****g 发帖数: 34805 | 8 Cassandra is tunable consistency. You can achieve atomicity on row level,
for most non-financial usage, it's probably workable. Cassandra is the
preferred datastore for all user data because we are doing active-active in
multiple region. And Cassandra supports multiple DC out of box.
http://techblog.netflix.com/2013/12/active-active-for-multi-reg
ACL. |
|
g*****g 发帖数: 34805 | 9 MongoDB and Cassandra are like Apple and Orange. MongoDB is more popular.
But that doesn't make it the better NoSQL or worse. The two DBs are for
vastly
different use cases. People mostly use MongoDB for a drop-in schemeless
replacement for RDMBS. On the other other hand, people use Cassandra for
extreme performance and multi-DC support. The difference between MongoDB and
RDBMS is smaller than the difference between MongoDB and Cassandra. Both
are poised for long term. |
|
d*******r 发帖数: 3299 | 10 看板上都是 Cassandra, 有用 Dynamodb 的吗?
Dynamodb 用着是不是比 Cassandra 弱智很多?组里最近有人想用 Dynamodb, 我是全
然不懂呀...
Dynamodb 太依赖 AWS 了,还有其他什么主要缺点阻碍它流行?
还有,顺便问下,www.datastax.com 哪些 Cassandra 课程比较好?扫了一眼,咋都是
收费的呢 |
|
h**n 发帖数: 64 | 11 今天突然收到HR email说公司在招Senior Database Administrator, 不知道这里有没
有朋友有兴趣,可以私信我,最好可以简单介绍下自己,再提供一个email发JobInvite
用。
=====================
关于我们公司
=====================
公司在SFO市区,距离BART站二分钟。JAVA house, 现在500来人,产品是social
customer care, social media marketing, 全部cloud based,客户几百个,很多big
names, 预计明年可以IPO(好像去年也是这么说的)。
公司环境是典型的硅谷IT公司,有吃有喝有玩,老中不少,founder是一个华人,后来
为上市,管理层被投资方大换血,从大公司拉过来很多高层,两个月前又被追加了五千
万的 pre-IPO funding。(关心startup的,应该知道我们是哪间了)。
公司的招聘的culture很social,70%以上都是朋友推荐,前同事,前老板,走猎头的很
少。今年进了很多人,但还是这两年来第一次招DB... 阅读全帖 |
|
w**z 发帖数: 8232 | 12 google 一下。documet store vs column family , performance C* 好。个人感觉
cassandra 好用。mongo 太耗内存。nosql 看Cassandra 和
hbase .虽然我们用C*, 但我看好hbase . |
|
z****e 发帖数: 54598 | 13 俺是这么理解的
为什么要用nosql?
因为传统db资源开销太大
所以才上nosql
说白了就是为了解决throughput
那既然如此,为什么mongodb会把所有index全部放内存里?
如果throughput爆问题了
这样做岂不是引发另外一个瓶颈?
本身就是为了解决transaction等使用大量内存的瓶颈
还用另外一种方式创造一个类似的瓶颈?
这么做有什么意义?那我还不如回去用postgresql
当然有人说,调整某个参数改变运行模式之后会不一样
但是缺省的就是这样,那缺省的模式就有缺陷咯?
那我为什么要用mongodb呢?
目前看cassandra没有这些问题,为什么不用cassandra?
从log的存储开始上,跟aop配合,天作之合 |
|
b**********5 发帖数: 7881 | 14 谁有个save protocolbuf class from spark streaming to cassandra的example?要
java的, 不要scala的。 我就是store 一个protocol buf blob to cassandra from
spark streaming。 我在用datastax driver。
找了半天在网上, 竟然没一个concrete example |
|
发帖数: 1 | 15 看到很多职位都写了Cassandra,那主要用途是什么?面试官如果问的话是想知道什么
呢?
我们组用Cassandra主要是用来存log的,主要的数据还是用relational database啊。 |
|
发帖数: 1 | 16 大牛们有没有一个matrices在什么量级的data的情况下,Cassandra的performance会超
过Oracle RDBMS??
基本上key value store的数据都可以存在RDBMS, 但是当数据量达到一定程度,RDBMS
的scalability和performance就很难扩展了,所以很多公司把数据从oracle移到了
Cassandra。应该有matrices for the turning point. 例如shopping carts |
|
l********r 发帖数: 221 | 17 不好比吧,rmdb and nosql db, 两种完全不一样机制的数据库。Cassandra背后的机制
不是传统B+Tree, Memtable和Log-Structured Storage Table的方式使得数据写超快。
数据量大transaction不需要,当然go Cassandra啦。然后consistent hashing将数据
sharding分流大大提高scalability, oracle db不能比呀。 |
|
发帖数: 1 | 18 楼上大牛分析的有道理,赞一个。大多数系统oracle都能handle key value store,没
必要再加个cassandra吧。所以做系统规划的时候要考虑自己系统的limit,那么什么交
易量就要考虑使用cassandra了? |
|
h**n 发帖数: 64 | 19 今天突然收到HR email说公司在招Senior Database Administrator, 不知道这里有没
有朋友有兴趣,可以私信我,最好可以简单介绍下自己,再提供一个email发JobInvite
用。
=====================
关于我们公司
=====================
公司在SFO市区,距离BART站二分钟。JAVA house, 现在500来人,产品是social
customer care, social media marketing, 全部cloud based,客户几百个,很多big
names, 预计明年可以IPO(好像去年也是这么说的)。
公司环境是典型的硅谷IT公司,有吃有喝有玩,老中不少,founder是一个华人,后来
为上市,管理层被投资方大换血,从大公司拉过来很多高层,两个月前又被追加了五千
万的 pre-IPO funding。(关心startup的,应该知道我们是哪间了)。
公司的招聘的culture很social,70%以上都是朋友推荐,前同事,前老板,走猎头的很
少。今年进了很多人,但还是这两年来第一次招DB... 阅读全帖 |
|
f*****e 发帖数: 2992 | 20 【 以下文字转载自 DataSciences 讨论区 】
发信人: fatalme (don't ever give it up), 信区: DataSciences
标 题: 这个cassandra paging的解决方案怎么样?
发信站: BBS 未名空间站 (Fri Sep 26 15:52:43 2014, 美东)
As paging is a big issue of Cassandra. I have a strategy to page using
secondary index: Add a column "page_number" corresponding to each column you
want to sort and page, create an index on the "page_number" column or just
use it as the clustering column. The "page_number" is a good candidate for
indexing, since it has low cardinality... 阅读全帖 |
|
c*********e 发帖数: 16335 | 21 据apache自己的网页上写的,facebook不是cassandra的主要用户。
Cassandra is in use at Netflix, Twitter, Urban Airship, Constant Contact,
Reddit, Cisco, OpenX, Digg, CloudKick, Ooyala, etc.
那facebook用的什么? |
|
w**z 发帖数: 8232 | 22 Cassandra 是nosql db , 有很多client ,Java 主要有Hector 和
astyanax. 只是一个jar file 而已。网上Cassandra 资料多的很。要快,找
slideshare .要系统学,看datastax doc . |
|
z*******3 发帖数: 13709 | 23 目测了一下,nosql主要选择是cassandra和hbase
前者是facebook的东东,后者是waterloo和hadoop的东东
mongodb貌似已经落伍
网络上可以找到大量的nosql war cassandra vs hbase的文章
hadoop我看了下,还有大幅提升的空间
现在的机制还是太过于复杂,spring可以对hadoop做一定的优化
这些东西绝大多数都还在0.x和1.x版
普遍不太成熟,还有不少路要走 |
|
w**z 发帖数: 8232 | 24 Cassandra or hbase. Cassandra 好用些,但favor writes . Hbase is more
balanced. mongo 太占内存。 |
|
w**z 发帖数: 8232 | 25 是,mongo 就存json ,容易上手。Cassandra 是column family +row ,一开始比较难理
解。1.2还弄一个cql 3,very confusing and misleading for the new starters. it
is dangerous to think of Cassandra in a rdbms way. |
|
e*****t 发帖数: 1005 | 26 not very familiar with hbase, but cassandra would be fine in this scenario.
Cassandra have very good write performance, for read, the performance depend
s on the consistency level you need.
In your use case, the consistency doesn't matter much.
big |
|
p*****2 发帖数: 21240 | 27 貌似cassandra scale起来特别容易
cassandra vs hbase 就好比
couchdb vs mongodb |
|
m*p 发帖数: 1331 | 28 【 以下文字转载自 CS 讨论区 】
发信人: mbp (Mac Book Pro), 信区: CS
标 题: 有人set up过 多个node的Cassandra 么?
发信站: BBS 未名空间站 (Sun Jul 10 23:17:05 2011, 美东)
试了一下午,还是没法把2个nodes的cassandra cluster给setup起来,但是单机的功能
都可以了。
站内m一下,交流一下下,谢谢! |
|
w**z 发帖数: 8232 | 29 Netflix has almost everything running with Cassandra on AWS. it is pretty
amazing how they do things. It was pretty eye opening how Netflix trades
data consistency for HA and low latency. They use CL.One for good portion of
the cassandra operations. When I really think about it, it does make a lot
of sense. We can compensate data in-consistency with client side
contingency plan. In most of the cases, we don't really need the strong
consistency RDBMS system can offer. It's all about BIG data no... 阅读全帖 |
|
p*****2 发帖数: 21240 | 30
Cassandra
Thanks.
先说说你为什么不用SQL,用Cassandra吧。 |
|
d*******r 发帖数: 3299 | 31 请问大牛,一般可以把 Cassandra 当 generic purpose DB 用吗,就是各种数据都存
里面(可能 money 相关的 transaction 需要存 postgresql / mysql).
还是一般只把 Cassandra 当 log server 用? |
|
|
T********i 发帖数: 2416 | 33 其实当MQ用也可以。
但是你不能一方面默认排序,用time based UUID,另一方面又claim无限scalability。
这才是明显的错误。拉出来了。摆在那里。抵赖也没用。
你真的懂Cassandra么?让大伙说说你真的懂么? |
|
w**z 发帖数: 8232 | 34 netflix probably has the biggest C* deployment out there.
Here is some information:
http://www.slideshare.net/acunu/cassandra-eu-2012-netflixs-cass
It was bit old information. I heard from last year's C* summit, Netflix's
biggest C* cluster was 144 nodes...total close to 1000 nodes.
Disclaim: I don't work for Netflix and I don't know goodbug in person! |
|
w**z 发帖数: 8232 | 35 As goodbug noted, C* doesn't support range scan on row key if you use
RandomPartitioner which is suggested. (unless you are brave enought to try
ByteOrderedPartitioner, http://www.datastax.com/docs/1.1/cluster_architecture/partitioning#byteorderedpartitioner)
You can use an index cf. for sparse data, if you can afford use day as row
key, don't need index CF. The trick is that the columns are stored in C* in
order.
Read this one if you are interested in knowing the internals and details.
http://d... 阅读全帖 |
|
|
|
B********r 发帖数: 397 | 38 最近弄cassandra,发现里面有个limit:
The maximum number of cells (rows x columns) in a single partition is 2
billion
链接: http://wiki.apache.org/cassandra/CassandraLimitations
其中让我疑惑的是partition这个概念,是说每个node里面可以有好几个partition么?
它是可以configure on the fly, 还是一开是设置就定死了的? 也就是说,如果我一开
是只有 1 partition per node, 当我的cells 超过2 billion就放不下了么? |
|
w**z 发帖数: 8232 | 39 你这个加column是指改table的schema?不是很明白你的意思。你不能用RDMS的column
来想Cassandra,Cassandra加column只是加value,不涉及到schema的change
至于order, 如果你用 RandomPartitioner, it hashes the key and stores the
hashvalue. So you can't (natural) order by key . You can use Ordered
Partitioners, but it's not recommended and it has a lot of problem. If you
really need to sort, build your own index using other CF. |
|
c******o 发帖数: 1277 | 40 dynamodb挺好,非常省心,和Cassandra 不是一类的,Dynamodb是key/value pair的。
Cassandra是big table类的。 |
|
t*d 发帖数: 1290 | 41 Cassandra的故事到此就讲完了。后来当Cassandra这个名字出现的时候,基本就会和预
言和悲剧联系在一起。 |
|
B***n 发帖数: 84 | 42 【 以下文字转载自 Database 讨论区 】
发信人: Brian (unique), 信区: Database
标 题: cassandra 的插入性能问题
发信站: BBS 未名空间站 (Fri Aug 1 06:29:08 2014, 美东)
每次插入都得排序不是会降低数据写入的性能吗?
还是这些是相对可以忽略的?
反而听说cassandra更适合偏写的应用? |
|
f*****e 发帖数: 2992 | 43 【 以下文字转载自 DataSciences 讨论区 】
发信人: fatalme (don't ever give it up), 信区: DataSciences
标 题: 这个cassandra paging的解决方案怎么样?
发信站: BBS 未名空间站 (Fri Sep 26 15:52:43 2014, 美东)
As paging is a big issue of Cassandra. I have a strategy to page using
secondary index: Add a column "page_number" corresponding to each column you
want to sort and page, create an index on the "page_number" column or just
use it as the clustering column. The "page_number" is a good candidate for
indexing, since it has low cardinality... 阅读全帖 |
|
T********i 发帖数: 2416 | 44 At Cassandra Summit opening today, Avi Kivity and Dor Laor (who had
previously written KVM and OSv) announced ScyllaDB — an open-source C++
rewrite of Cassandra, the popular NoSQL database. ScyllaDB claims to achieve
a whopping 10 times more throughput per node than the original Java code,
with sub-millisecond 99%ile latency. They even measured 1 million
transactions per second on a single node. The performance of the new code is
attributed to writing it in Seastar — a C++ framework for writing ... 阅读全帖 |
|
|
z****e 发帖数: 54598 | 46 hbase很大一部分是加拿大waterloo那帮人在搞
我对那帮人没有太多信心
现在hbase还不稳定,还只是0.x版,还是等等看吧
cassandra也在改变,在跟hadoop做集成
transaction和mapreduce我都想着用自己的代码来实现
在想效率会不会更高点…… |
|
w**z 发帖数: 8232 | 47 repair , compaction for Cassandra is PITA. |
|
p*****2 发帖数: 21240 | 48
大牛高论。cassandra上的query一般怎么搞? |
|
k***g 发帖数: 166 | 49 是念原词Cassandra,还是念C star?
怕自己一张口就被面试官鄙视 |
|
w**z 发帖数: 8232 | 50 C*只是通用的简写,念还是按 Cassandra 念。 |
|