由买买提看人间百态

topics

全部话题 - 话题: sparse
首页 上页 1 2 3 4 5 6 7 8 9 10 (共10页)
N***r
发帖数: 2539
1
但是现在大型稀疏矩阵的线性方程组的运算,很流行的方法不是Krylov Subspace(比
如说GMRES)那一套?并不需要求逆了吧。
R******o
发帖数: 1572
2
其实CG原则上需要positive define,实际的时候大家都是先算再说
很多时候不满足条件也用,

first
j******t
发帖数: 788
3
什么性质的稀疏矩阵,用在有限元里的?线性方程没有最优的解决方案,很多方法各有
利弊,楼主要解释清楚。
N***r
发帖数: 2539
4
我也不知道什么性质。应该不是有限元,有限元方法的mass matrix反而刚好拥有cg所
需的性质。我也明白没有一个最优方法,所以我质疑最开始提到的直接上cg的方法。首
先了解自己的问题,再选择合适的方法,一点愚见。
j******t
发帖数: 788
5
LOL, CG对付带宽不大的对称阵还是很有效果的. 另外还有消元法, LU分解法.建议随便
找本数学手册都有很多介绍.
N***r
发帖数: 2539
6
首先得回到楼主的问题,他没说什么性质的稀疏矩阵,所以我认为不能随便cg。然后有
人说A_T A再cg,我认为A_T A未必稀疏,而且根据wiki,condition number被平方了。
你说的方法收敛的速度和精度都局限于矩阵ill condition的程度。这些在saad的书里
都有提到,所以他有专门的章节讲preconditioning。楼主希望能解得更快,那么一个
好的preconditioning会有很大帮助,这是我想讨论的地方。如何选择一个好的
preconditioning的方法又取决于原始问题的性质,楼主又消失了,其实没有讨论下去
的必要了。
p***o
发帖数: 1252
7
电网? 你看B是不是symmetric diagonally dominant,是的话可以用ICCG。
规模大了比如 N > 1,000,000 可以试试algebraic multigrid preconditioned
conjugate gradient.
不过N才60000,这种问题按理说直接LU分解也耗不了那么多内存,你还是
先研究研究matlab里/和\的区别吧。
N***r
发帖数: 2539
8
wow真牛人来了。
to楼主
先bless一下。
我说白了就是一个打酱油的初学着,我参与这个讨论的原因是因为我最近的工作涉及到
很多ill conditioned稀疏矩阵数值算法以及如何preconditioning的问题。希望能在讨
论中学习到一些东西。
你直接听pptwo的吧,一看就知道是行家。
N***r
发帖数: 2539
9
还有就是H是对角矩阵,H的矩阵相乘操作可以节省了。
c*******h
发帖数: 1096
10
splu应该是最合适的,因为right-hand side实在太多了
内存是肯定耗的,光把X存下来就要24G
X一般不是稀疏的,除非你的问题结构比较特殊
最好搞个cluster,并行地算
一是对矩阵分解做并行,二是对right-hand side做并行
如果scipy解决不了并行的话可以直接上superlu
还可以试一下对A做reordering
最好还是想清楚,要个24G的X来干嘛
w**w
发帖数: 100
11
thanks
w**w
发帖数: 100
12
thanks
w**w
发帖数: 100
13
是的。
splu 分解我这个大小的矩阵非常快。
解出 X 以后还有很多基于它的矩阵运算, 有它会方便很多。
你说的很对,我想我可以不需要整个 X, 有些想法了,下周试试看。
多谢
g****t
发帖数: 31659
14
各种precondition算法,都需要有经验,能把例外情况修补完毕,
对楼主可能太难了。我推荐Cholesky分解。省事省心。
如果只要估计解,那最省内存的方法其实是recursive least square之类的
东西,可以一行一行进数据。

电网? 你看B是不是symmetric diagonally dominant,是的话可以用ICCG。
规模大了比如 N > 1,000,000 可以试试algebraic multigrid preconditioned
conjugate gradient.
不过N才60000,这种问题按理说直接LU分解也耗不了那么多内存,你还是
先研究研究matlab里/和\的区别吧。
w**z
发帖数: 8232
15
As goodbug noted, C* doesn't support range scan on row key if you use
RandomPartitioner which is suggested. (unless you are brave enought to try
ByteOrderedPartitioner, http://www.datastax.com/docs/1.1/cluster_architecture/partitioning#byteorderedpartitioner)
You can use an index cf. for sparse data, if you can afford use day as row
key, don't need index CF. The trick is that the columns are stored in C* in
order.
Read this one if you are interested in knowing the internals and details.
http://d... 阅读全帖
N******K
发帖数: 10202
16
dp 不是新概念 就跟big data一样 早就有了 大家瞎jb起哄
dp不能解决所有问题 dp的学习方法 我看很有问题
sparse coding + svm 完全可以取代所谓的 cnn 等 dp 结构
我最近正在研究 争取今年内发一篇
d****n
发帖数: 12461
17
来自主题: Programming版 - INTEGER搜索求建议
纯性能的话用bitset就可以了。
big range+sparse要性能可以先用bloom filter加上hash。
N******K
发帖数: 10202
18
图像分析 里面 很多线性组合的 比如 sparse coding
你可以那纯的for loop写 但是用表达式 增加可读性 不然过两天 自己都看不懂自己
写的代码
这样可以直接用c++做研究 不用matlab了
w**z
发帖数: 8232
19
来自主题: Programming版 - FB 开始搞些新鲜东西了
http://www.nytimes.com/2014/03/28/technology/a-new-facebook-lab
SAN FRANCISCO — Watch out, Google. Facebook is gunning for the title of
World’s Coolest Place to Work. And its arsenal includes unmanned drones,
lasers, satellites and virtual reality headsets.
Mark Zuckerberg, co-founder and chief executive of Facebook, announced on
Thursday that the company was creating a new lab of up to 50 aeronautics
experts and space scientists to figure out how to beam Internet access down
from solar-powered ... 阅读全帖
M*P
发帖数: 6456
20
来自主题: Programming版 - ML跟中医挺像的
现在不是都搞什么sparse feature就是为了提升interpretability
N******K
发帖数: 10202
21
来自主题: Programming版 - ML跟中医挺像的
sparse coding based shape model
P**H
发帖数: 1897
22
来自主题: Programming版 - 有没有觉得scipy很稀烂的?
一般都是10k左右的sparse system,底层用的arpack。多了pc也算不过来。
P**H
发帖数: 1897
23
来自主题: Programming版 - 有没有觉得scipy很稀烂的?
matlab和scipy解sparse eigen都是用的arpack。目前我没发现例外的。
我就是用的numpy/scipy/matplot。至于dense的,对我没有多大用。linux下底层用的
gotoblas/openblas,win下用mkl。
m********5
发帖数: 17667
24
来自主题: Programming版 - 有没有觉得scipy很稀烂的?
Scipy sparse自动就是arpack
j****x
发帖数: 943
25
来自主题: Programming版 - 有没有觉得scipy很稀烂的?
sparse:dense vs ARPACK:LAPACK vs orange:apple ?
w***g
发帖数: 5958
26
image的相似度有很多不同的定义,对于不同的应用首先要选一个最符合需要的定义。
然后才是怎么算的问题。常见的相似度定义有
1. 视觉上/一眼看过去相似。主要用color histogram算。传统的CBIR一般都用这个,
但是这个单独自己用的话没啥实际用处。
2. 是否是同一个图像的不同版本。如果不需要检测诸如大图包含小图这种情况的话
就用global feature,比如GIST。如果要检测大图中的小图的话就是local feature,
最牛的算法都有专利保护,比如SIFT和SURF。别的免费可以用的我刚刚都试过一圈,
效果都比较差。
3. 照片是否是同一个rigid object,也用SIFT。
4. 照片是不是同一个人,人脸特征抽取是一大块,基本上是要先register眼耳鼻口
的位置,然后基于这些位置抽取特征。
5. 非rigid object的话得各个击破,比如人脸应为比较重要所以有很多算法可以用。
别的基本上没法做。
6. 图片是不是同一类对象。这个就是图像识别问题了。几年前最牛的是dense sampled
local feature + sparse encodin... 阅读全帖
d****i
发帖数: 4809
27
来自主题: Programming版 - 没觉得Java比Python和Perl有啥优点
Smart pointer isn't GC at all. For the code I have ever encountered, smart
pointers in C++ are used sparsely particularly on server side . But for
other use cases such as embedded system, Android, iOS, RTOS,... whatsoever,
they are never used.
K*********n
发帖数: 2852
28
Scala纯新手,写了点测试代码:
###### build.sbt #########
name := "Train NB"
version := "1.0"
scalaVersion := "2.10.4"
libraryDependencies ++= Seq(
"org.apache.spark" %% "spark-core" % "1.2.0",
"commons-io" % "commons-io" % "2.4",
"com.google.code.gson" % "gson" % "2.2.4",
"org.la4j" % "la4j" % "0.4.9"
)
javacOptions ++= Seq("-source", "1.7", "-target", "1.7")
####### scala code ##########
package app.mycompany
import org.apache.spark.SparkContext
import org.apache.spark.SparkContext._
import org.apa... 阅读全帖
m*********t
发帖数: 527
29
这帖子偏的。。前面就不说了。从 c++ physics engine 和 java 3d 游戏
performance 扯到赚不赚钱。
就事论事,physics engine 只是 3D 游戏的核心部分之一,一般来说都用 C/C++ 来写
。因为里面不管是粒子系统,软物体(有限元),流体,动力学,全都涉及到大量的矩
阵运算(而且一般还是 sparse 的)以及相关优化问题。这些矩阵运算不仅仅是做个加
法乘法的事情。比如 linear/nonlinear complementarity problem. 而且这种运算一般
都要求 real time。
在这上面你想要怎么 call opengl 渲染爱用啥用啥,js 也好 java 也好。。。然后大
型游戏你服务器那边底层构架 code 爱用啥用啥。。。
另外,ASM.js 其实本来就不是让人自己来读的。emscripten 编译出来的接近 llvm
byte code 一样。。还记得昨天 google 主页的 pony express 游戏吧,你可以看看那
段 js 代码,就是 emscripten 搞出来的。
a*****g
发帖数: 19398
30
Number of legal Go positions
The 361 points on a 19x19 Go board can be colored empty, black, or white.
Only some of the 3^361 possible positions are legal, namely those where
every group of connected stones of the same color has an empty point
adjacent to it. In the position above, black stones at E18 and N9 lack such
``liberties'', making the position illegal. Due to its capture rule, the
positions that can arise in a game of Go are exactly the legal positions. On
Jan 20, 2016, the number of le... 阅读全帖
w***g
发帖数: 5958
31
来自主题: Programming版 - CNN和template matching到底有啥区别
是template matching, 如果光从预测算法来看, 甚至还不如传统的template matching.
deep learning的template matching就是内积+threshold, 可以认为是最最最土的
template matching. 传统的template matching算法往往比这个复杂, 而且也更
robust, 比如允许一定程度上的warping. 有时候对象一抖, template就匹配不上了.
Deep learning的对应方法是redundancy, 搞好多好多templates. 这个匹配不上了,
那个或许能匹配上. 以上不是关键.
deep learning牛x的地方是能够训练这些template, 而且是:
1. 一锅子训练. (2012年以前是一层一层训练, 当时甚至认为要deep必须一层一层
训练, 现在看来是不对的.) 一锅子的好处是层与层之间是配套的. 解的是一个
全局最优化问题, 而不是一系列局部最优化问题然后拼起来.
(注意不是全剧最优解. 不管是全局问题还是局部问题, 往往都得不到最优解.
但是全局次优解... 阅读全帖
l*******m
发帖数: 1096
32
pca 只能dense to dense. 在sparse to dense 的情况下,本来就没pca什么事
s********k
发帖数: 6180
33
sparse to dense 什么意思?
w***g
发帖数: 5958
34
来自主题: Programming版 - 郁闷啊
deep learning目前解决的其实还是人的神经中枢比较低层次的
模式识别的问题。其实即使是多层神经网络,到上面几层其实
还是非常sparse的,可能只有1%的神经元有信号。这个我是
实际measure过的。本质来说,高层神经网络已经有一定的
symbolic reasoning了。以后发展symbolic reasoning我觉得
几乎是必然的。就是不知道什么时候能做出来什么而已。
w***g
发帖数: 5958
35
来自主题: Programming版 - guvest,问你个问题
芯片里面主要也是算法,也需要读取内存。
无非就是用verilog写程序。现在好像都可以用C写了。
AWS上好像有FPGA instance可以用。
我感觉内存方面一个可能的创新就是完全抛开cache,
直接利用庞大的主机内存进行随机sparse操作。
g****t
发帖数: 31659
36
来自主题: Programming版 - guvest,问你个问题
原理多年没有什么大变化。但是现实设计的话。约束变化
会导致实际设计很多变化
一条spec做错就全死了。发热,耗电等等。内存主要是
会影响价格。每一条细节都需要大量的工作才能定下来。
之前高通一代CPU发热丢了三星的单子,
到今天还没收场。说不定要分拆并购都有可能。
他们那CPU的带头VP是个老印,以前把我所在公司一
个CPU组废了,打一枪换个地方几年前去了高通。


: 芯片里面主要也是算法,也需要读取内存。

: 无非就是用verilog写程序。现在好像都可以用C写了。

: AWS上好像有FPGA instance可以用。

: 我感觉内存方面一个可能的创新就是完全抛开cache,

: 直接利用庞大的主机内存进行随机sparse操作。


发帖数: 1
37
UTA招数名博士职位,方向 Data Science/Machine Learning/AI,
实验室COSMOS和大公司AI业界前沿联系紧密, 学生在工业界或学术界发展机会很多。
COSMOS最近毕业PhD有去NVIDIA, IBM,AA, Samsung/Harman工作,也有去top school,
like Harvard, USC, Washington University
做教职或博后。
如果对申请博士项目感兴趣,可以尽快和Dr. Wang联系[email protected] 本人是UTA
COSMOS毕业生,非常推荐Dr. Wang!UT Arlington 位于美国人口第四大的DFW地区,是
目前美国经济发展最好的区域之一,生活丰富便利,大公司密集,实习和工作机会很多
。DFW机场有北京,上海,香港的直飞航线。
===========================================================
PhD Openings in Data Mining & Machine Learning & AI for Fall 201... 阅读全帖
F****r
发帖数: 34
38
来自主题: Unix版 - Matrix inverse problem
Does anybody have the idea how to solve
( a )*x = ( b )
where a is a matrix with m rows and n columns, b is an
m-vector, we want to get x.
the matrix a is intended to be large and sparse, has hundred thousands
of rows and thousands of column.
it is parse damped linear least-squares problems
Does anybody know the parallel version library to do this?
I only found the non-parallel version in nag library,F04QAF works.
Still did not the parallel function.
any idea?
Thanks a lot
I can't
s*****t
发帖数: 1994
39
来自主题: Unix版 - Matrix inverse problem
How large is your m and n? In my problem,
m=n=6,000,000, it is a large sparse matrix.
For 1 iteration, I can beat it down to 0.5
minute on my own PC of 2 GHz. I cannot imagine
your matrix be larger. So, the problem is not
to find a parallel library (even parallel, say
10 computers, it can still take 2 hours for
1 iteration, while you need maybe hundreds of
iterations to converge), but to find a better algorithm.
Say, you should use BLAS to do matrix multiplication,
and LAPACK to do least squares
I**R
发帖数: 1309
40

if
Statistically, or actuarially, it is true that consulting pays higher,
however, I have too sparse sample to say by how much.
s******o
发帖数: 298
41
Invisible corona
The stars of the Milky Way's main disk span a region of space about 100,000
light-years across, and the thick central bulge is a sphere about 25,000
light-years in diameter. To picture this, think of a typical sci-fi flying
saucer. For decades, this was the official picture of our galaxy. More
recently, a handful of studies have added a sprinkling of stars that live in
a sparse halo outside the main disk.
Then early this year, astronomers made a remarkable announcement: Our gala
e****2
发帖数: 2723
42
来自主题: Biology版 - 《蜗居》北美姊妹篇 《野生》
将中文译成英语显示拼音
Celestial TV drama "goes back" shows the Chinese people were widely to
dilute the status quo, according to the status of sparsely populated North
America, we must
Set Toupai "goes back," the North American companion: "Wild."
1, if the clock could be turned back, I will take you off to another life,
do not go abroad every day do not craiglist
On the preoccupied, not for hair papers, looking for TA and got into fierce
arguments with people, nor to the good schools that do not Shen and
e****2
发帖数: 2723
43
来自主题: Biology版 - 《蜗居》北美姊妹篇 《野生》
将中文译成英语显示拼音
Celestial TV drama "goes back" shows the Chinese people were widely to
dilute the status quo, according to the status of sparsely populated North
America, we must
Set Toupai "goes back," the North American companion: "Wild."
1, if the clock could be turned back, I will take you off to another life,
do not go abroad every day do not craiglist
On the preoccupied, not for hair papers, looking for TA and got into fierce
arguments with people, nor to the good schools that do not Shen and
y**s
发帖数: 6809
44
来自主题: Biology版 - 吵起来了,关于GWAS
弱弱的问啊,能达到那个计算能力吗?
你最后算不出来还是得假定sparse matrix啊
这不就又回到qtl了

我的理解
我们知道定位QTL是不准确的。证明一个QTL存在或是不存在是困难的。
在一个不是非常巨大的群体里估计出来的QTl效应是有偏差的。
为啥不放弃QTL的模型,而是仅仅将所有的markers放在一个模型中,来给每个genotype
一个值的估计?--把所有的marker(SNP在这里)同时放在一个模型中,预测每个
marker allele的对于疾病的效应。所有marker alleles的值总和就是这个genotype的
效应。
总之,我们可能不知道QTL是啥,但是我们可以更加准确地预测每个genotype的值。黑
箱操作。需要对于每个群体都单独分析,因为LD不consistent across populations.LD
啊LD,population structure,genetic architecture这些都是association analysis
极端重要的问题。
两个前提,good phenotyping; 第二 if marker –target
e*******e
发帖数: 1837
45
来自主题: Biology版 - 也来说说GWAS
one promising direction (several groups are working on it) is to develop new
statistical methods to analyze more sparse, extended pedigree (as compared
to traditional linkage analysis). The idea here is the more distantly
related the cases are, the fewer IBD segments there are, therefore increase
the sensitivity and resolution of the linkage analysis.
p*******r
发帖数: 4048
P*****6
发帖数: 273
47
请问各位大牛,有人知道data mining 的技术在bioinformatics上的应用效果如何?随着一个样品的各种类型的测序结果越多,high dimension curse 应该更大了。我觉得即使是sparse 的各种算法也只能改进一小部分。看理论分析和simulation,个人认为算法的改进对最终的predict error的改进从生物医学的角度其实显著性并不高。Bayesian statistics 整合多个database会有不会有较大改进?
L********d
发帖数: 3820
48
bioinfo不就是一直在用data mining的各种技术么?
算法再怎么改都比不过你的数据量多有用,high dimension curse主要是data数量不够
要想build一个好predictor,有足够精确的training sample才是王道
bayesian statistics和classic方法的区别就是bayesian combine了prior knowledge和
observations,什么叫综合了很多databases?
bayesian methods早就已经广泛并大量地应用在bioinfo中了

随着一个样品的各种类型的测序结果越多,high dimension curse 应该更大了。我觉
得即使是sparse 的各种算法也只能改进一小部分。看理论分析和simulation,个人认
为算法的改进对最终的predic
h******y
发帖数: 351
49
你说的比较温和是指什么?
来源于很多组织的人的fibroblast可以通过overexpress hTERT得到immortalization,
这是由于人的fibroblast在体外培养条件下的senescence多是由于端粒渐行缩短而导致
的(telomere-dependent replicative senescence)。与人的fibroblast不同,体外
培养中MEF的senescence并不是由于端粒缩短引起的,而是由于如前所述的过氧基团累积
oxidative stress induced DNA damage。研究表明senescence的MEF的端粒还很长,而
且MEF中有较高的mTERT表达,所以过表达mTERT并不能有效immortalize MEF。因为要抑
制p53和Rb通路,所以表达异源的SV40 T和HPV16 E6/E7都可以immortalize MEF。当然
这样得到的细胞株,由于这些病毒蛋白的过量表达,基因组并不稳定,长久培养会出现
嬗变。
3T3办法引起的自发immortalization实际上主要是由于自发的p53通路抑制(p53 loss... 阅读全帖
i**y
发帖数: 71
50
来自主题: Biology版 - 问个DNA甲基化研究的技术问题
CpG island methylation is indeed highly repressive. But it doesn't happen
very often in normal cells. Most CpG island-methylated genes are germ-line-
specific genes or transposable elements.
The effect of sparse mCpG is still debated. There are also regions with
intermediate densities (e.g. CpG shores), where methylation anticorrelates
with gene expression.
首页 上页 1 2 3 4 5 6 7 8 9 10 (共10页)