d***s 发帖数: 55 | 1 V(x)=(1/a)V(ax) x \in R_{+}^K a>0
then function V(x) is radially homogenous
Then the result is the Hessian matrix of V(x) goes to zero as x goes to
infinity
请问怎么证明?thx! |
|
d***s 发帖数: 55 | 2 其实题目最初是要证明
if f(kx)=kf(x) for any k
then as ||x|| goes to \infty, the Hessian matrix of f goes to 0
大家帮忙看看吧 |
|
c*******h 发帖数: 1096 | 3 isn't the hessian always be zero @.@? |
|
c*******h 发帖数: 1096 | 4 ok. the hessian need not be zero.
the proof of your original problem:
df(x)
let ------- = g(x), and let y = kx.
d(xi)
kdf(x) d(kf(x)) df(y)
then -------- = ---------- = ------- = g(y) = g(kx).
kd(xi) d(kxi) d(yi)
hence g(x) = g(kx).
dg(x)
let ------- = h(x).
d(xj)
dg(x) dg(x) dg(y)
then -------- = -------- = ------- = h(y) = h(kx).
kd(xj) d(kxj) d(yj)
hence h(x) = kh(kx).
thus when x->infty, h(x)->0.
therefore hessia |
|
d***s 发帖数: 55 | 5 不太明白,尤其是 x goes to infty, h(x) goes to 0 是怎么得到的?
ok. the hessian need not be zero.
the proof of your original problem:
df(x)
let ------- = g(x), and let y = kx.
d(xi)
kdf(x) d(kf(x)) df(y)
then -------- = ---------- = ------- = g(y) = g(kx).
kd(xi) d(kxi) d(yi)
hence g(x) = g(kx).
dg(x)
let ------- = h(x).
d(xj)
dg(x) dg(x) dg(y)
then -------- = -------- = ------- = h(y) = h(kx).
kd(xj) d(kxj) d(yj)
hence h(x) = kh( |
|
s*********d 发帖数: 19 | 6 已知某f(X)函数是K维convex的,同时也可证明其函数的Hessian matrix是positive
semidefinite,为求函数f(X)的最优解 向量X,因此可以使用gradient desent方法。
但是在matlab里求解,应该调用什么函数呢? |
|
x*****d 发帖数: 427 | 7 曲面都参数化了,按定义计算第二基本形式,
证明在临界点第二基本形式正好是 u 的Hessian
-1) |
|
R********n 发帖数: 519 | 8 有一组自由变量x_1,x_2..x_N,来自R^N space,经过一个nonlinear mapping到R^M
space:y_1,y_2,...y_M, where y_i = f_i(x_1,...x_N),f_i是一个mapping
function from R^N to R^1, i=1,2..M
现在我该如何计算y_i(i=1,2..M)组成的几何体的内在维度呢?:-)。我大概感觉应该计
算Hessian Matrix?
谢谢大家! |
|
c*m 发帖数: 1114 | 9 这个很正常哇。带约束的quadratic program在H正定的情况下不保证收敛,因为增加拉
格朗日乘子后Hessian就不是H了。 |
|
m****m 发帖数: 2211 | 10 水木高人SayMyName提供的链接:
http://www.springerlink.com/content/e4823102v1914787/
马在他的文章里这么说的
Referring to the author's thesis at Columbia University around 1996, Phong a
nd Stein [56] were able to announce a general conclusion in 1997 that the os
cillatory integral operator in (1) with x,y\in R^1 and real analytic phase f
unction has the same decay rate as Varchenko's conclusion for oscillatory in
tegrals. In the author's thesis, and also in Phong and Stein's paper, the sp
ace is partitioned according ... 阅读全帖 |
|
j***m 发帖数: 16 | 11 如何证明非线性优化解的唯一性?google了一下,有的说,用 bordered Hessian, 对
min problem, 如果都 strict negative,那问题是 strict quasiconvex, 就可以证明
解是唯一。不过有的书上说,只是必要条件。 有人可以提供点comment 吗? |
|
d******e 发帖数: 7844 | 12 Define X_i = P_i-P_{i-1}.
这问题最后变成一个L1 penalized QP,QP的Hessian不是diagonal矩阵,没有closed
form solution。
不过这个问题smooth而且strongly convex,用Proximal Gradient可以很容易的算出来
,线性收敛,速度非常快。
_{ |
|
s*****l 发帖数: 167 | 13 【 以下文字转载自 Physics 讨论区,原文如下 】
发信人: suntall (老实和尚), 信区: Physics
标 题: ask something about entropy...
发信站: The unknown SPACE (Tue Aug 5 21:52:02 2003) WWW-POST
when some people study partial differential equations, they use a key tool --
entropy, which correspond, of course to the one in stat. phys.
Buy constantly, they assume that:
(E, V) -> S is convex.
This means that as a function of E and V, S has positive definite Hessian.
Is there any physical interpretation of this.
of course, if one sa |
|
|
a***m 发帖数: 74 | 15 I copied likelihood function from Bollerslev paper. It used gamma and log
functions. I scaled parameters so that they were bounded. Grad and hessian
was provided by the function. So I wonder about the origin of complex
estimation.Any hints? Many thanks! |
|
s*********t 发帖数: 3 | 16 看了proc mixed的manual, 没有相关输出项。proc glimmix倒没看。
我目前的做法是在R中写出loglikelihood function,然后用nlm,可以得到Hessian
matrix,再求逆;
多谢大家的回复~ |
|
r****y 发帖数: 26819 | 17 这个?
http://rss.acs.unt.edu/Rdoc/library/micEcon/R-ex/maxNR.R
### Name: maxNR
### Title: Newton-Raphson maximisation
### Aliases: maxNR
### Keywords: optimize
### ** Examples
## ML estimation of exponential duration model:
t <- rexp(100, 2)
loglik <- function(theta) sum(log(theta) - theta*t)
## Note the log-likelihood and gradient are summed over observations
gradlik <- function(theta) sum(1/theta - t)
hesslik <- function(theta) -100/theta^2
## Estimate with numeric gradient and Hessian
a <- maxN |
|
w******8 发帖数: 59 | 18 Dear All,
In general, where can I find the reasons for an error message? Is there any
documenation somewhere?
Specifically, I am using Proc Mixed and have this message: “Convergence
criteria met but final Hessian is not positive definite.”. If someone can
help, I will greatly appreciate it. Thanks! |
|
r********e 发帖数: 33 | 19 Where to get free C++ library for matrix computation?
I need to do matrix multiplication, inverse, trace, diagonal, rowSum,
colSum etc, eigen value/vector, Hessian, SVD, etc..
Are they available for public for free?
Thanks!
Happy New Year! |
|
j******1 发帖数: 62 | 20 请教大家一个SEM的问题:
我需要计算出Latent variable score
用sas proc calis做的model,以下是log中出现的问题:
WARNING: The number of observations 18 is not greater than the number of
variables 27.
WARNING: Corrected sample covariance matrix is not positive definite.
Multivariate kurtosis cannot be computed.
NOTE: Due to a sparse Jacobian the Hessian algorithm 11 will be used.
NOTE: GCONV convergence criterion satisfied.
NOTE: At least one element of the (projected) gradient is greater than
1e-3.
WARNING: The central paramete... 阅读全帖 |
|
m****o 发帖数: 31 | 21 我现在在使用optim来求最大值,
optim(par, fn, gr = NULL, ...,
method = c("Nelder-Mead", "BFGS", "CG", "L-BFGS-B", "SANN"),
lower = -Inf, upper = Inf,
control = list(), hessian = FALSE)
但是在求解的过程中,产生了一大堆warning,这些warning里面提到在“fn”里面某些
位置产生了NaN,所以想请问朋友们,如何来识别这个NaN在哪里产生的?已经如何来
delete他们,因为感觉在运行程序的时候,一旦碰到NaN,这个程序就立即停止运转了
,想问下如果我不顾及这个NaN,想让程序继续运转下去,有没有什么方法?太感谢了! |
|
s*****e 发帖数: 157 | 22 One week corresponds to a treatment. If I useed time*week in repeated
statement, there was WARNING: Unable to make hessian positive definite. |
|
q**j 发帖数: 10612 | 23 多谢了。问题是这样的。比如:
y_t = F * theta_t + v_t
theta_t = G * theta_(t-1) + w_t
这里v_t,w_t都是normal with 0 mean and variance V and W. F,G知道的。
假设 theta_0 是normal(m0, C0)分布,m0, C0 known。用kalman filter那一套就可以
估计 V and W。而且hessian of log likelihood function就是这个mle estimator的
covariance matrix。这不是很容易就拿到了 f(参数 V, W|数据 y_t)了?我们可以sa
mple V, W,然后去forecast以后的theta或者y_t。这样不是很简单明白么?
可是好像大部分书上不这样搞。一般都是要把theta加进来sample。请问这个是为什么?
多谢了。 |
|
F******n 发帖数: 160 | 24 不是高手,只是对kalman filter熟悉,略微了解一些Bayesian DLM的基本概念,所以
也许可以讨论一下。我的讨论见下面。
对于正态的噪声,标准“卡尔曼滤波”和标准、简单的“贝叶斯线性动力模型”应该就
是一回事吧。而且对整个系统有封闭的解析结果。
:而且hessian of log likelihood function就是这个mle estimator的
sa
么?
不太确定我理解了你这个问题,就我所理解和知道的说说。
标准“卡尔曼滤波”针对的主要问题不是预测,而是实时滤波和估计。比如说,对于一
个线性动力系统,你观察到一系列数据,想估算某些动力状态量,最简单的像定位跟踪
系统,你知道动力模型,观测到目标在每一个时刻的位置坐标,想算出速度,加速度,
角速度等等。当然你不能用简单的两个时刻的位置一减除以时间间隔来做。这些速度,
加速度,角速度就是上面模型里的theta_t(不可直接观测的“隐含”动力态)。所以
“卡尔曼滤波”(或者正态噪声的“贝叶斯线性动力模型”)问题就是这样一个构造:
1. 估计问题:当观测到一个新数据y_t(位置),借助y_t = F * theta... 阅读全帖 |
|
w********n 发帖数: 753 | 25 大家好,两个问题。
第一个是R的:
我自己写的一个function,然后run了1000个 data file,是用loop run的,最后有个
warning message: Hessian matrix at convergence is not positive definite;
unstable solution.
我想知道的是这1000个data file中是哪个出了问题,哪个没有converge properly啊?
第二个问题是SPSS的:
有一个survey中的variable如下:
mitbbs university
Mitbbs University
MITBBS UNIVERSITY
mIT-BBS uNIVERISTIY
Other: MITBBS uNIVERSITY
.
.
.
.
我希望把这个variable recode成同意格式,例如“Mitbbs University”, syntax该
怎么写啊? |
|
|
|
m******r 发帖数: 1033 | 28 统计硕士, 说不好听的, 大概是天下最没用的硕士。 因为我自己也是所谓统计硕士
。 各种数学公式,吭吭哧哧学了一大套,从马尔科夫到高斯,从皮尔逊到fisher, 就
差没学爱因斯坦了。 实际工作中却没什么大用 。
文不能忽悠, 因为各种公式,推导已经在你脑子里了, 有人说贫穷能限制一个人的想
象力, 其实满脑子hessian matrix也限制人的想象力. 武不能写代码. 这个更不用说
了. 真正学到的, 也就是满口黑话,p值, 自由度 , N做分母和(N-1)做分母的区别. |
|
m******r 发帖数: 1033 | 29 统计硕士, 说不好听的, 大概是天下最没用的硕士。 因为我自己也是所谓统计硕士
。 各种数学公式,吭吭哧哧学了一大套,从马尔科夫到高斯,从皮尔逊到fisher, 就
差没学爱因斯坦了。 实际工作中却没什么大用 。
文不能忽悠, 因为各种公式,推导已经在你脑子里了, 有人说贫穷能限制一个人的想
象力, 其实满脑子hessian matrix也限制人的想象力. 武不能写代码. 这个更不用说
了. 真正学到的, 也就是满口黑话,p值, 自由度 , N做分母和(N-1)做分母的区别. |
|
d******e 发帖数: 7844 | 30 Newton和QN的收敛都和Hessian的condition number有关。
QN是superlinear,虽然不如Newton的quadratic,但是每个iteration的计算复杂度通
常至少节省一个problem dimension的factor。所以最后通常比Newton快。
比如L-BFGS,很多时候在大规模数据上的表现远远好过SGD和Newton。 |
|
d******e 发帖数: 7844 | 31 Newton和QN的收敛都和Hessian的condition number有关。
QN是superlinear,虽然不如Newton的quadratic,但是每个iteration的计算复杂度通
常至少节省一个problem dimension的factor。所以最后通常比Newton快。
比如L-BFGS,很多时候在大规模数据上的表现远远好过SGD和Newton。 |
|