Pour télécharger tous les modèles, cliquez sur modèles économiques EPA Enforcement (1 PG, 6 Mo) pour installer les modèles de pénalité et financiers. À propos des modèles plusieurs fonctions de pénalité ont été proposées pour l`analyse des données dimensionnelles. L`une des fonctions de pénalité les plus populaires est la pénalité de lasso (Tibshirani, 1996). La consistance de sélection variable du lasso nécessite la condition irreprésentable (Zhao et Yu, 2006) qu`il n`y a pas de corrélation forte entre les «covariables importantes» qui ont des effets non nuls et les «covariables sans importance» qui ont des effets nuls. Cette condition peut ne pas être satisfaite dans certaines applications, telles que les études GWA. Des études récentes ont montré qu`une classe de pénalités concaves pliées peut obtenir une consistance de sélection variable sans nécessiter une telle condition irreprésentable (fan et LV, 2010). Ces pénalités concaves pliées incluent, mais ne sont pas limitées à la SCAD (déviation absolue en douceur coupée) (ventilateur, 1997; Fan et Li, 2001), MCP (Minimax concave penalty) (Zhang, 2010), SICA (intégration harmonieuse de comptage et déviation absolue) (LV et fan, 2009), et une pénalité log (Friedman (2008), Sun, Ibrahim et Zou (2010)). Pour comparer les performances de ces fonctions de pénalité, nous utilisons deux critères pour sélectionner les paramètres de réglage. L`un est le BIC étendu comme introduit plus tôt, et l`autre est un critère d`Oracle qui utilise la connaissance du modèle vrai pour sélectionner les paramètres d`accordage. Certes, le critère de l`Oracle n`est pas applicable dans la pratique lorsque le vrai modèle est inconnu. Toutefois, dans les études de simulation, le critère Oracle nous permet d`évaluer la performance d`une fonction de pénalité plutôt que le résultat combiné d`une fonction de pénalité et d`une méthode de sélection des paramètres de réglage. Le critère Oracle est défini comme suit. Laissez D être le nombre de découvertes, c.-à-d., les covariables avec des estimations de coefficient de régression non nulles.

D = TD + FD, où TD et FD sont le nombre de véritables découvertes et de fausses découvertes, respectivement. Le critère Oracle évalue un modèle basé sur les trois mesures, le taux de découverte false FD/D, la puissance TD/s et la somme de l`erreur quadratique des estimations du coefficient de régression ∑ j = 1P ∣ β ^ j-β0j ∣ 2, où β0j est la valeur vraie de βj. Le modèle avec le minimum de WT (FD/D-TD/s) + ∑ j = 1P ∣ β ^ j-β0j ∣ 2 est sélectionné, où WT est un poids pour équilibrer le nombre de découvertes vraies/fausses et de biais. Les modèles sélectionnés avec un poids plus grand tendent à avoir des découvertes plus vraies et moins de fausses découvertes, mais ont un plus grand biais dans leurs estimations de coefficient de régression.

Modèle tableau d`astreinte