Thanks for your excellent response. This has been very helpful.<div><br></div><div><br></div><div><br></div><div><br></div><div>Chris</div><div><br></div><div><br></div><div><br clear="all"><br>-----------------------------<br>
Chris Gast<br><a href="mailto:cmgast@gmail.com">cmgast@gmail.com</a><br>
<br><br><div class="gmail_quote">On Sat, Feb 5, 2011 at 1:55 PM, Ben Bolker <span dir="ltr"><<a href="mailto:bbolker@gmail.com">bbolker@gmail.com</a>></span> wrote:<br><blockquote class="gmail_quote" style="margin:0 0 0 .8ex;border-left:1px #ccc solid;padding-left:1ex;">
-----BEGIN PGP SIGNED MESSAGE-----<br>
Hash: SHA1<br>
<div class="im"><br>
On 11-02-05 01:02 PM, Chris Gast wrote:<br>
> This isn't precisely an ADMB topic, but it seems as though ADMB users<br>
> might be knowledgeable in this regard.<br>
><br>
> I've searched the archives and haven't found a lot of discussion<br>
> regarding model selection in nonlinear mixed models. For a given<br>
> dataset, I have a series of models which differ in combinations of<br>
> structure, number of effects considered random, and assumed distribution<br>
> of random effect components, and would like some (preferably<br>
> likelihood-based) method to rank them. Burnham and Anderson (Model<br>
> Selection and Multimodel Inference, 2002, page 310) describe a method<br>
> based on shrinkage estimators where the penalty term is computed<br>
> somewhere between 1 and the number of random components, but this<br>
> appears to require both a single random effect and a fit of the model<br>
> where each random component is considered a parameter; neither of these<br>
> is feasible with my models (or, I suspect, many others). I can't simply<br>
> use LRTs to decide between a mixed model and its fixed counterpart,<br>
> because the value of interest for the sigma parameter lies on the<br>
> boundary of its space, 0.<br>
<br>
</div>  Although you could, approximately, by doubling the p value (for a<br>
single random effect, the null distribution of the deviance is a 50/50<br>
mixture of chi^2 with df=0 and df=1; this is equivalent to halving the<br>
area in the tail of the distribution or equivalently doubling the p<br>
value.  (See references in Bolker et al 2009 TREE article.)<br>
<div class="im"><br>
> I have found some instances where the problem is basically ignored<br>
> (Hall, D.B. and Clutter, M. 2004. Multivariate multilevel nonlinear<br>
> mixed effects models for timer yield predictions. Biometrics, 60:16-24).<br>
> To quote: "...the first-order approximate log likelihood is treated as<br>
> the true log likelihood, and standard errors for parameter estimates,<br>
> likelihood ratio tests for nested models, and model selection criteria<br>
> such as AIC and BIC are formed in the usual way. Although the formal<br>
> justification of this “approximately asymptotic” approach to inference<br>
> is an open problem, it is commonly used in practice, and we adopt it for<br>
> our purposes in this article."<br>
><br>
> One simple method would be to choose the model that best reconstructs<br>
> the original data as measured by the chi-squared test statistic<br>
> sum((O-E)^2/E), but again, it would be nice to have something<br>
> likelihood-based such that the framework is a cohesive, and the<br>
> principle of parsimony is in effect.<br>
><br>
> One additional question: these models also may include covariates.<br>
>  Holding all other model features of a mixed-model constant, LRTs should<br>
> be justified for model selection of covariates only, as they result from<br>
> a mathematical restriction of some beta=0, correct? I see plenty of<br>
> information about the LASSO for covariate selection in NLMMs, but<br>
> haven't yet found the time to learn this technique.<br>
<br>
</div>  A quite technical but useful recent paper is:<br>
<br>
  Greven, Sonja, and Thomas Kneib. 2010. On the Behaviour of Marginal<br>
and Conditional<br>
Akaike Information Criteria in Linear Mixed<br>
Models. Biometrika 97, no. 4: 773-789.<br>
<a href="http://www.bepress.com/jhubiostat/paper202/" target="_blank">http://www.bepress.com/jhubiostat/paper202/</a>.<br>
<br>
  There is a fundamental distinction between the 'marginal AIC' (for<br>
population-level predictions, i.e. where you want to predict future<br>
values for a different set of random effects than those measured) and<br>
the 'conditional AIC' (for group-level predictions where you want to<br>
predict future values for the same random effects measured); see<br>
<<a href="http://glmm.wikidot.com/faq" target="_blank">http://glmm.wikidot.com/faq</a>> (recently updated) for more information.<br>
<br>
-----BEGIN PGP SIGNATURE-----<br>
Version: GnuPG v1.4.10 (GNU/Linux)<br>
Comment: Using GnuPG with Mozilla - <a href="http://enigmail.mozdev.org/" target="_blank">http://enigmail.mozdev.org/</a><br>
<br>
iEYEARECAAYFAk1NxzYACgkQc5UpGjwzenP1oACfU+Izl+dIhs7huh3pPlLhd7Hx<br>
WDsAn0OpH9MzkduC+5+uNhBMp3urY9KM<br>
=H2vm<br>
-----END PGP SIGNATURE-----<br>
</blockquote></div><br></div>