Advancing Bayesian Deep Learning : Sensible Priors and Accelerated Inference

Ba-Hien Tran

Résumé

Over the past decade, deep learning has witnessed remarkable success in a wide range of applications, revolutionizing various fields with its unprecedented performance. However, a fundamental limitation of deep learning models lies in their inability to accurately quantify prediction uncertainty, posing challenges for applications that demand robust risk assessment. Fortunately, Bayesian deep learning provides a promising solution by adopting a Bayesian formulation for neural networks. Despite significant progress in recent years, there remain several challenges that hinder the widespread adoption and applicability of Bayesian deep learning. In this thesis, we address some of these challenges by proposing solutions to choose sensible priors and accelerate inference for Bayesian deep learning models. The first contribution of the thesis is a study of the pathologies associated with poor choices of priors for Bayesian neural networks for supervised learning tasks and a proposal to tackle this problem in a practical and effective way. Specifically, our approach involves reasoning in terms of functional priors, which are more easily elicited, and adjusting the priors of neural network parameters to align with these functional priors. The second contribution is a novel framework for conducting model selection for Bayesian autoencoders for unsupervised tasks, such as representation learning and generative modeling. To this end, we reason about the marginal likelihood of these models in terms of functional priors and propose a fully sample-based approach for its optimization. The third contribution is a novel fully Bayesian autoencoder model that treats both local latent variables and the global decoder in a Bayesian fashion. We propose an efficient amortized MCMC scheme for this model and impose sparse Gaussian process priors over the latent space to capture correlations between latent encodings. The last contribution is a simple yet effective approach to improve likelihood-based generative models through data mollification. This accelerates inference for these models by allowing accurate density-esimation in low-density regions while addressing manifold overfitting.

Au cours de la dernière décennie, l'apprentissage profond a connu un succès remarquable dans de nombreux domaines, révolutionnant divers domaines grâce à ses performances sans précédent. Cependant, une limitation fondamentale des modèles d'apprentissage profond réside dans leur incapacité à quantifier avec précision l'incertitude des prédictions, ce qui pose des défis pour les applications qui nécessitent une évaluation robuste des risques. Heureusement, l'apprentissage profond Bayésien offre une solution prometteuse en adoptant une formulation Bayésienne pour les réseaux neuronaux. Malgré des progrès significatifs ces dernières années, il reste plusieurs défis qui entravent l'adoption généralisée et l'applicabilité de l'apprentissage profond Bayésien. Dans cette thèse, nous abordons certains de ces défis en proposant des solutions pour choisir des priors pertinents et accélérer l'inférence des modèles d'apprentissage profond Bayésien. La première contribution de la thèse est une étude des pathologies associées à de mauvais choix de priors pour les réseaux neuronaux Bayésiens dans des tâches d'apprentissage supervisées, ainsi qu'une proposition pour résoudre ce problème de manière pratique et efficace. Plus précisément, notre approche consiste à raisonner en termes de priors fonctionnels, qui sont plus facilement obtenus, et à ajuster les priors des paramètres du réseau neuronal pour les aligner sur ces priors fonctionnels. La deuxième contribution est un nouveau cadre pour réaliser la sélection de modèle pour les autoencodeurs Bayésiens dans des tâches non supervisées, telles que l'apprentissage de représentation et la modélisation générative. À cette fin, nous raisonnons sur la vraisemblance marginale de ces modèles en termes de priors fonctionnels et proposons une approche entièrement basée sur les échantillons pour son optimisation. La troisième contribution est un nouveau modèle d'autoencodeur entièrement Bayésien qui traite à la fois les variables latentes locales et le décodeur global de manière Bayésienne. Nous proposons un schéma MCMC amorti efficace pour ce modèle et imposons des priors de processus Gaussiens clairsemés sur l'espace latent pour capturer les corrélations entre les encodages latents. La dernière contribution est une approche simple mais efficace pour améliorer les modèles génératifs basés sur la vraisemblance grâce à la mollification des données. Cela accélère l'inférence pour ces modèles en permettant une estimation précise de la densité dans les régions de faible densité tout en résolvant le problème du surajustement de la variété.

Advancing Bayesian Deep Learning : Sensible Priors and Accelerated Inference

Faire progresser l'apprentissage profond bayésien : priors sensibles et inférence accélérée

Résumé

Mots clés

Domaines

Dates et versions

Identifiants

Citer

Exporter

Collections

Partager