Publications — Xavier Alameda-Pineda

Diffusion-based Frameworks for Unsupervised Speech Enhancement

Jean-Eudes Ayilo, Mostafa Sadeghi, Romain Serizel, Xavier Alameda-Pineda J. Ayilo, M. Sadeghi, R. Serizel, X. Alameda-Pineda

IEEE/ACM Transactions on Audio, Speech, and Language Processing IEEE/ACM TASLP

arXiv PDF Code

LiSSEN: Generating Language-Grounded Safe Social Navigation in Crowded Environments

Jordan Cosio, Dhimiter Pikuli, Thibaut Lopez, Xavier Alameda-Pineda, Pierre-Brice Wieber J. Cosio, D. Pikuli, T. Lopez, X. Alameda-Pineda, P. Wieber

IEEE International Conference on Robot and Human Interactive Communication IEEE RO-MAN

Modeling strategies for speech enhancement in the latent space of a neural audio codec

Sofiene Kammoun, Xavier Alameda-Pineda, Simon Leglaive S. Kammoun, X. Alameda-Pineda, S. Leglaive

IEEE International Conference on Acoustics, Speech and Signal Processing IEEE ICASSP

arXiv PDF Code

Test-time adaptation for speech enhancement with an autoregressive speech prior

Sofiene Kammoun, Simon Leglaive, Xavier Alameda-Pineda, Timo Gerkmann S. Kammoun, S. Leglaive, X. Alameda-Pineda, T. Gerkmann

International Workshop on Acoustic Signal Enhancement IWAENC

Describe-Then-Act: Proactive Agent Steering via Distilled Language-Action World Models

Massimiliano Pappa, Luca Romani, Valentino Sacco, Alessio Palma, Stéphane Lathuilière, Fabio Galasso, Xavier Alameda-Pineda, Indro Spinelli M. Pappa, L. Romani, V. Sacco, A. Palma, S. Lathuilière, F. Galasso, X. Alameda-Pineda, I. Spinelli

European Conference on Computer Vision ECCV

arXiv PDF

Residual Tokens Enhance Masked Autoencoders for Speech Modeling

Samir Sadok, Stéphane Lathuilière, Xavier Alameda-Pineda S. Sadok, S. Lathuilière, X. Alameda-Pineda

Interspeech Interspeech

arXiv PDF Code

SOCIALBENCH: Evaluating Multimodal Perception, Understanding, and Reasoning in Social Settings

Maxime Attwood, Samir Sadok, Xavier Alameda-Pineda, Stéphane Lathuilère M. Attwood, S. Sadok, X. Alameda-Pineda, S. Lathuilère

arXiv arXiv

The Equalizer: Introducing Shape-Gain Decomposition in Neural Audio Codecs

Samir Sadok, Laurent Girin, Xavier Alameda-Pineda S. Sadok, L. Girin, X. Alameda-Pineda

arXiv

arXiv PDF

OpenSocInt: A Multi-modal Training Environment for Human-Aware Social Navigation

Victor Sanchez, Chris Reinke, Ahamed Mohamed, Xavier Alameda-Pineda V. Sanchez, C. Reinke, A. Mohamed, X. Alameda-Pineda

arXiv arXiv

arXiv PDF Code

Socially Pertinent Robots in Gerontological Healthcare

Xavier Alameda-Pineda, et al. X. Alameda-Pineda, et al.

International Journal on Social Robotics IJSR — Under Review at International Journal on Social Robotics

DOI arXiv PDF Code

Acceptability and usability of a socially assistive robot integrated with a large language model for enhanced human-robot interaction in a geriatric care institution: mixed methods evaluation

Lauriane Blavette, Sébastien Dacunha, Xavier Alameda-Pineda, Daniel Hernández García, Sharon Gannot, Florian Gras, Nancie Gunson, Séverin Lemaignan, Michal Polic, Pinchas Tandeitnik, et al. L. Blavette, S. Dacunha, X. Alameda-Pineda, D. H. García, S. Gannot, F. Gras, N. Gunson, S. Lemaignan, M. Polic, P. Tandeitnik, et al.

JMIR Human Factors JMIR Human Factors

PDF

Integrating a Large Language Model Into a Socially Assistive Robot in a Hospital Geriatric Unit: Two-Wave Comparative Study on Performance, Engagement, and User Perceptions

Lauriane Blavette, Sébastien Dacunha, Xavier Alameda-Pineda, Jeanne Cattoni, Anne-Sophie Rigaud, Maribel Pino L. Blavette, S. Dacunha, X. Alameda-Pineda, J. Cattoni, A. Rigaud, M. Pino

JMIR Human Factors JMIR Human Factors

PDF

Posterior Transition Modeling for Unsupervised Diffusion-Based Speech Enhancement

Mostafa Sadeghi, Jean-Eudes Ayilo, Romain Serizel, Xavier Alameda-Pineda M. Sadeghi, J. Ayilo, R. Serizel, X. Alameda-Pineda

IEEE Signal Processing Letters IEEE SPL

arXiv PDF

Diffusion-based Unsupervised Audio-visual Speech Enhancement

Jean Eudes Ayilo, Mostafa Sadeghi, Romain Serizel, Xavier Alameda-Pineda J. E. Ayilo, M. Sadeghi, R. Serizel, X. Alameda-Pineda

IEEE International Conference on Acoustics, Speech and Audio Processing IEEE ICASSP

arXiv PDF Code

MEGA: Masked Generative Autoencoder for Human Mesh Recovery

Guénolé Fiche, Simon Leglaive, Xavier Alameda-Pineda, Francesc Moreno-Noguer G. Fiche, S. Leglaive, X. Alameda-Pineda, F. Moreno-Noguer

IEEE International Conference on Computer Vision and Pattern Recognition IEEE CVPR

arXiv PDF Code

AnCoGen: Analysis, Control and Generation of Speech with a Masked Autoencoder

Samir Sadok, Simon Leglaive, Laurent Girin, Gaël Richard, Xavier Alameda-Pineda S. Sadok, S. Leglaive, L. Girin, G. Richard, X. Alameda-Pineda

IEEE International Conference on Audio, Speech, and Signal Processing IEEE ICASSP

arXiv PDF Code

Layover or Direct Flight: Rethinking Audio-Guided Image Segmentation

Joel Alberto Santos, Zongwei Wu, Xavier Alameda-Pineda, Radu Timofte J. A. Santos, Z. Wu, X. Alameda-Pineda, R. Timofte

arXiv arXiv

arXiv PDF

Autoregressive GAN for Semantic Unconditional Head Motion Generation

Louis Airale, Xavier Alameda-Pineda, Stéphane Lathuilière, Dominique Vaufreydaz L. Airale, X. Alameda-Pineda, S. Lathuilière, D. Vaufreydaz

ACM Transactions on Multimedia Computing, Communications, and Applications ACM TOMM

DOI arXiv PDF Code

Unsupervised performance analysis of 3D face alignment with a statistically robust confidence test

Mostafa Sadeghi, Xavier Alameda-Pineda, Radu Horaud M. Sadeghi, X. Alameda-Pineda, R. Horaud

Neurocomputing Neurocomputing — https://team.inria.fr/robotlearn/upa3dfa/

DOI arXiv PDF Code

A Multimodal Dynamical Variational Autoencoder for Audiovisual Speech Representation Learning

Samir Sadok, Simon Leglaive, Laurent Girin, Xavier Alameda-Pineda, Renaud Séguier S. Sadok, S. Leglaive, L. Girin, X. Alameda-Pineda, R. Séguier

Neural Networks Neural Networks — https://samsad35.github.io/site-mdvae/

arXiv PDF Code

Robust Audio-Visual Contrastive Learning for Proposal-based Self-supervised Sound Source Localization in Videos

Hanyu Xuan, Zhiliang Wu, Jian Yang, Bo Jiang, Lei Luo, Xavier Alameda-Pineda, Yan Yan H. Xuan, Z. Wu, J. Yang, B. Jiang, L. Luo, X. Alameda-Pineda, Y. Yan

IEEE Transactions on Pattern Analysis and Machine Intelligence IEEE TPAMI

DOI

VQ-HPS: Human Pose and Shape Estimation in a Vector-Quantized Latent Space

Guénolé Fiche, Simon Leglaive, Xavier Alameda-Pineda, Antonio Agudo, Francesc Moreno-Noguer G. Fiche, S. Leglaive, X. Alameda-Pineda, A. Agudo, F. Moreno-Noguer

European Conference on Comptuer Vision ECCV

DOI arXiv PDF Code

A weighted-variance variational autoencoder model for speech enhancement

Ali Golmakani, Mostafa Sadeghi, Xavier Alameda-Pineda, Romain Serizel A. Golmakani, M. Sadeghi, X. Alameda-Pineda, R. Serizel

IEEE International Conference on Acoustics Speech and Signal Processing IEEE ICASSP

DOI arXiv PDF

Navigating the Practical Pitfalls of Reinforcement Learning for Social Robot Navigation

Dhimiter Pikuli, Jordan Cosio, Xavier Alameda-Pineda, Pierre-Brice Wieber, Thierry Fraichard D. Pikuli, J. Cosio, X. Alameda-Pineda, P. Wieber, T. Fraichard

Robotics: Science and Systems (RSS) Workshop on Unsolved Problems in Social Robot Navigation RSSW

arXiv PDF

Lost and Found: Overcoming Detector Failures in Online Multi-Object Tracking

Lorenzo Vaquero, Yihong Xu, Xavier Alameda-Pineda, Victor M Brea, Manuel Mucientes L. Vaquero, Y. Xu, X. Alameda-Pineda, V. M. Brea, M. Mucientes

European Conference on Computer Vision ECCV

DOI arXiv PDF Code

A Comprehensive Multi-scale Approach for Speech and Dynamics Synchrony in Talking Head Generation

Louis Airale, Dominique Vaufreydaz, Xavier Alameda-Pineda L. Airale, D. Vaufreydaz, X. Alameda-Pineda

arXiv arXiv

arXiv PDF

Variational Meta Reinforcement Learning for Social Robotics

Anand Ballou, Xavier Alameda-Pineda, Chris Reinke A. Ballou, X. Alameda-Pineda, C. Reinke

Applied Intelligence App. Intel.

DOI arXiv PDF

Expression-preserving face frontalization improves visually assisted speech processing

Zhiqi Kang, Mostafa Sadeghi, Radu Horaud, Xavier Alameda-Pineda Z. Kang, M. Sadeghi, R. Horaud, X. Alameda-Pineda

International Journal of Computer Vision IJCV

DOI arXiv PDF

Mixture of Dynamical Variational Autoencoders for Multi-Source Trajectory Modeling and Separation

Xiaoyu Lin, Laurent Girin, Xavier Alameda-Pineda X. Lin, L. Girin, X. Alameda-Pineda

Transactions on Machine Learning Research TMLR

arXiv PDF Code

Successor Feature Representations

Chris Reinke, Xavier Alameda-Pineda C. Reinke, X. Alameda-Pineda

Transactions on Machine Learning Research TMLR

arXiv PDF Code

Learning and controlling the source-filter representation of speech with a variational autoencoder

Samir Sadok, Simon Leglaive, Laurent Girin, Xavier Alameda-Pineda, Renaud Séguier S. Sadok, S. Leglaive, L. Girin, X. Alameda-Pineda, R. Séguier

Speech Communication Speech Communication — https://samsad35.github.io/site-sfvae/

DOI arXiv PDF Code

Motion-DVAE: Unsupervised learning for fast human motion denoising

Guénolé Fiche, Simon Leglaive, Xavier Alameda-Pineda, Renaud Séguier G. Fiche, S. Leglaive, X. Alameda-Pineda, R. Séguier

ACM SIGGRAPH Conference on Motion, Interaction and Games ACM MIG

DOI arXiv PDF Code

Semi-supervised learning made simple with self-supervised clustering

Enrico Fini, Pietro Astolfi, Karteek Alahari, Xavier Alameda-Pineda, Julien Mairal, Moin Nabi, Elisa Ricci E. Fini, P. Astolfi, K. Alahari, X. Alameda-Pineda, J. Mairal, M. Nabi, E. Ricci

IEEE/CVF Conference on Computer Vision and Pattern Recognition IEEE/CVF CVPR

DOI arXiv PDF

Back to MLP: A Simple Baseline for Human Motion Prediction

Wen Guo, Yuming Du, Xi Shen, Vincent Lepetit, Xavier Alameda-Pineda, Francesc Moreno-Noguer W. Guo, Y. Du, X. Shen, V. Lepetit, X. Alameda-Pineda, F. Moreno-Noguer

IEEE Winter Conference on Applications of Computer Vision IEEE WACV

DOI arXiv PDF Code

Speech Modeling with a Hierarchical Transformer Dynamical VAE

Xiaoyu Lin, Simon Leglaive, Laurent Girin, Xavier Alameda-Pineda X. Lin, S. Leglaive, L. Girin, X. Alameda-Pineda

IEEE International Conference on Audio, Speech and Signal Processing IEEE ICASSP

DOI PDF

Unsupervised speech enhancement with deep dynamical generative speech and noise models

Xiaoyu Lin, Simon Leglaive, Laurent Girin, Xavier Alameda-Pineda X. Lin, S. Leglaive, L. Girin, X. Alameda-Pineda

Interspeech Interspeech

DOI arXiv PDF

On the Effectiveness of LayerNorm Tuning for Continual Learning in Vision Transformers

Thomas De Min, Massimiliano Mancini, Karteek Alahari, Xavier Alameda-Pineda, Elisa Ricci T. D. Min, M. Mancini, K. Alahari, X. Alameda-Pineda, E. Ricci

International Conference on Computer Vision Workshops ICCVW

arXiv PDF Code

Univariate Radial Basis Function Layers: Brain-inspired Deep Neural Layers for Low-Dimensional Inputs

Basavasagar Patil, Xavier Alameda-Pineda, Chris Reinke B. Patil, X. Alameda-Pineda, C. Reinke

arXiv PDF Code

SocialInteractionGAN: Multi-person Interaction Sequence Generation

Louis Airale, Dominique Vaufreydaz, Xavier Alameda-Pineda L. Airale, D. Vaufreydaz, X. Alameda-Pineda

IEEE/ACM Transactions on Affective Computing IEEE/ACM Transactions on Affective Computing

DOI arXiv PDF

Unsupervised Speech Enhancement using Dynamical Variational Auto-Encoders

Xiaoyu Bie, Simon Leglaive, Xavier Alameda-Pineda, Laurent Girin X. Bie, S. Leglaive, X. Alameda-Pineda, L. Girin

IEEE/ACM Transactions on Audio, Signal and Language Processing IEEE/ACM Transactions on Audio, Signal and Language Processing

DOI arXiv PDF Code

Dynamical Variational Autoencoders: A Comprehensive Review

Laurent Girin, Simon Leglaive, Xiaoyu Bie, Julien Diard, Thomas Hueber, Xavier Alameda-Pineda L. Girin, S. Leglaive, X. Bie, J. Diard, T. Hueber, X. Alameda-Pineda

Foundations and Trends in Machine Learning Foundations and Trends in Machine Learning

DOI arXiv PDF Code

TransCenter: Transformers with Dense Queries for Multiple-Object Tracking

Yihong Xu, Yutong Ban, Guillaume Delorme, Chuang Gan, Daniela Rus, Xavier Alameda-Pineda Y. Xu, Y. Ban, G. Delorme, C. Gan, D. Rus, X. Alameda-Pineda

IEEE Transactions on Pattern Analysis and Machine Intelligence IEEE TPAMI

DOI arXiv PDF Code

Continual Attentive Fusion for Incremental Learning in Semantic Segmentation

Guanglei Yang, Enrico Fini, Dan Xu, Paolo Rota, Mingli Ding, Tang Hao, Xavier Alameda-Pineda, Elisa Ricci G. Yang, E. Fini, D. Xu, P. Rota, M. Ding, T. Hao, X. Alameda-Pineda, E. Ricci

IEEE Transactions on Multimedia IEEE TMM

DOI arXiv PDF Code

Uncertainty-aware Contrastive Distillation for Incremental Semantic Segmentation

Guanglei Yang, Enrico Fini, Dan Xu, Paolo Rota, Mingli Ding, Moin Nabi, Xavier Alameda-Pineda, Elisa Ricci G. Yang, E. Fini, D. Xu, P. Rota, M. Ding, M. Nabi, X. Alameda-Pineda, E. Ricci

IEEE Transactions on Pattern Analysis and Machine Intelligence IEEE TPAMI

DOI arXiv PDF Code

M4MM'22: 1st International Workshop on Methodologies for Multimedia

Xavier Alameda-Pineda, Qin Jin, Vincent Oria, Laura Toni X. Alameda-Pineda, Q. Jin, V. Oria, L. Toni

ACM International Conference on Multimedia ACMMM

DOI PDF

Self-supervised models are continual learners

Enrico Fini, Victor G Turrisi da Costa, Xavier Alameda-Pineda, Elisa Ricci, Karteek Alahari, Julien Mairal E. Fini, V. G. T. d. Costa, X. Alameda-Pineda, E. Ricci, K. Alahari, J. Mairal

IEEE/CVF Conference on Computer Vision and Pattern Recognition IEEE/CVF CVPR

arXiv PDF Code

Les auto-encodeurs variationnels dynamiques et leur application à la modélisation de spectrogrammes de parole

Laurent Girin, Xiaoyu Bie, Simon Leglaive, Thomas Hueber, Xavier Alameda-Pineda L. Girin, X. Bie, S. Leglaive, T. Hueber, X. Alameda-Pineda

XXXIVe Journées d'Études sur la Parole XXXIVe Journées d'Études sur la Parole

DOI PDF

Multi-Person Extreme Motion Prediction with Cross-Interaction Attention

Wen Guo, Xiaoyu Bie, Xavier Alameda-Pineda, Francesc Moreno W. Guo, X. Bie, X. Alameda-Pineda, F. Moreno

IEEE/CVF Conference on Computer Vision and Pattern Recognition IEEE/CVF CVPR

DOI arXiv PDF Code

The impact of removing head movements on audio-visual speech enhancement

Zhiqi Kang, Mostafa Sadeghi, Radu Horaud, Xavier Alameda-Pineda, Jacob Donley, Anurag Kumar Z. Kang, M. Sadeghi, R. Horaud, X. Alameda-Pineda, J. Donley, A. Kumar

IEEE International Conference on Acoustics, Speech and Signal Processing IEEE ICASSP

DOI arXiv PDF

A Proposal-based Paradigm for Self-supervised Sound Source Localization in Videos

Hanyu Xuan, Zhiliang Wu, Jian Yang, Yan Yan, Xavier Alameda-Pineda H. Xuan, Z. Wu, J. Yang, Y. Yan, X. Alameda-Pineda

IEEE/CVF Conference on Computer Vision and Pattern Recognition IEEE/CVF CVPR

DOI arXiv PDF

Active Contrastive Set Mining for Robust Audio-Visual Instance Discrimination

Hanyu Xuan, Yihong Xu, Shuo Chen, Zhiliang Wu, Jian Yang, Yan Yan, Xavier Alameda-Pineda H. Xuan, Y. Xu, S. Chen, Z. Wu, J. Yang, Y. Yan, X. Alameda-Pineda

International Joint Conference on Artificial Intelligence IJCAI

DOI arXiv PDF

HiT-DVAE: Human Motion Generation via Hierarchical Transformer Dynamical VAE

Xiaoyu Bie, Wen Guo, Simon Leglaive, Lauren Girin, Francesc Moreno-Noguer, Xavier Alameda-Pineda X. Bie, W. Guo, S. Leglaive, L. Girin, F. Moreno-Noguer, X. Alameda-Pineda

arXiv

Variational Inference and Learning of Piecewise-linear Dynamical Systems

Xavier Alameda-Pineda, Vincent Drouard, Radu Horaud X. Alameda-Pineda, V. Drouard, R. Horaud

IEEE Transactions on Neural Networks and Learning Systems IEEE Transactions on Neural Networks and Learning Systems

DOI arXiv PDF

A Benchmark of Dynamical Variational Autoencoders applied to Speech Spectrogram Modeling

Xiaoyu Bie, Laurent Girin, Simon Leglaive, Thomas Hueber, Xavier Alameda-Pineda X. Bie, L. Girin, S. Leglaive, T. Hueber, X. Alameda-Pineda

ISCA Interspeech ISCA Interspeech

DOI arXiv PDF Code

PI-Net: Pose Interacting Network for Multi-Person Monocular 3D Pose Estimation

Wen Guo, Enric Corona, Francesc Moreno-Noguer, Xavier Alameda-Pineda W. Guo, E. Corona, F. Moreno-Noguer, X. Alameda-Pineda

IEEE Winter Conference on Applications of Computer Vision IEEE WACV

DOI arXiv PDF Code

Deep Variational Generative Models for Audio-visual Speech Separation

Viet-Nhat Nguyen, Mostafa Sadeghi, Elisa Ricci, Xavier Alameda-Pineda V. Nguyen, M. Sadeghi, E. Ricci, X. Alameda-Pineda

IEEE Workshop on Machine Learning for Signal Processing IEEE MLSP

DOI arXiv PDF

Switching Variational Auto-Encoders for Noise-Agnostic Audio-visual Speech Enhancement

Mostafa Sadeghi, Xavier Alameda-Pineda M. Sadeghi, X. Alameda-Pineda

IEEE International Conference on Audio, Speech and Signal Processing IEEE ICASSP

DOI arXiv PDF

Successor Feature Neural Episodic Control

David Emukpere, Xavier Alameda-Pineda, Chris Reinke D. Emukpere, X. Alameda-Pineda, C. Reinke

Fifth Workshop on Meta-Learning at the Conference on Neural Information Processing Systems Fifth Workshop on Meta-Learning at NeurIPS

arXiv PDF

Variational Structured Attention Networks for Deep Visual Representation Learning

Guanglei Yang, Paolo Rota, Xavier Alameda-Pineda, Dan Xu, Mingli Ding, Elisa Ricci G. Yang, P. Rota, X. Alameda-Pineda, D. Xu, M. Ding, E. Ricci

arXiv PDF

Variational Bayesian Inference for Audio-Visual Tracking of Multiple Speakers

Yutong Ban, Xavier Alameda-Pineda, Laurent Girin, Radu Horaud Y. Ban, X. Alameda-Pineda, L. Girin, R. Horaud

IEEE Transactions on Pattern Analysis and Machine Intelligence IEEE TPAMI

DOI arXiv PDF

Audio-visual Speech Enhancement Using Conditional Variational Auto-Encoders

Mostafa Sadeghi, Simon Leglaive, Xavier Alameda-Pineda, Laurent Girin, Radu Horaud M. Sadeghi, S. Leglaive, X. Alameda-Pineda, L. Girin, R. Horaud

IEEE Transactions on Audio, Language and Signal Processing IEEE TASLP

DOI arXiv PDF Code

Mixture of Inference Networks for VAE-based Audio-visual Speech Enhancement

Mostafa Sadeghi, Xavier Alameda-Pineda M. Sadeghi, X. Alameda-Pineda

IEEE Transactions on Signal Processing IEEE TSP

DOI arXiv PDF Code

Learning How to Smile: Expression Video Generation with Conditional Adversarial Recurrent Nets

Wei Wang, Xavier Alameda-Pineda, Dan Xu, Elisa Ricci, Nicu Sebe W. Wang, X. Alameda-Pineda, D. Xu, E. Ricci, N. Sebe

IEEE Transactions on Multimedia IEEE TMM

DOI PDF

Probabilistic Graph Attention Network with Conditional Kernels for Pixel-Wise Prediction

Dan Xu, Xavier Alameda-Pineda, Wanly Ouyang, Elisa Ricci, Xiaogang Wang, Nicu Sebe D. Xu, X. Alameda-Pineda, W. Ouyang, E. Ricci, X. Wang, N. Sebe

IEEE Transactions on Pattern Analysis and Machine Intelligence IEEE TPAMI

DOI PDF

FATE/MM'20: 2nd International Workshop on Fairness, Accountability, Transparency and Ethics

Xavier Alameda-Pineda, Miriam Redi, Jahna Otterbacher, Nicu Sebe, Shih-Fu Chang X. Alameda-Pineda, M. Redi, J. Otterbacher, N. Sebe, S. Chang

ACM International Conference on Multimedia ACMMM

DOI PDF

CANU-ReID: A Conditional Adversarial Network for Unsupervised person Re-IDentification

Guillaume Delorme, Yihong Xu, Stephane Lathuilière, Radu Horaud, Xavier Alameda-Pineda G. Delorme, Y. Xu, S. Lathuilière, R. Horaud, X. Alameda-Pineda

IEEE International Conference on Pattern Recognition IEEE ICPR

DOI arXiv PDF

A Recurrent Variational Autoencoder for Speech Enhancement

Simon Leglaive, Xavier Alameda-Pineda, Laurent Girin, Radu Horaud S. Leglaive, X. Alameda-Pineda, L. Girin, R. Horaud

IEEE International Conference on Audio, Speech and Signal Processing IEEE ICASSP

DOI arXiv PDF Code

Describe What to Change: A Text-guided Unsupervised Image-to-Image Translation Approach

Yahui Liu, Marco De Nadai, Deng Cai, Huayang Li, Xavier Alameda-Pineda, Nicu Sebe, Bruno Lepri Y. Liu, M. D. Nadai, D. Cai, H. Li, X. Alameda-Pineda, N. Sebe, B. Lepri

ACM International Conference on Multimedia ACM MM

DOI PDF

Robust Unsupervised Audio-visual Speech Enhancement Using a Mixture of Variational Autoencoders

Mostafa Sadeghi, Xavier Alameda-Pineda M. Sadeghi, X. Alameda-Pineda

IEEE International Conference on Audio, Speech and Signal Processing IEEE ICASSP

DOI arXiv PDF Code

How to Train Your Deep Multi-Object Tracker

Yihong Xu, Aljosa Osep, Yutong Ban, Radu Horaud, Laura Leal-Taixé, Xavier Alameda-Pineda Y. Xu, A. Osep, Y. Ban, R. Horaud, L. Leal-Taixé, X. Alameda-Pineda

IEEE International Conference on Computer Vision and Pattern Recognition IEEE CVPR

DOI arXiv PDF Code

ODA-Track: Online Deep Appearance for Robotic Multiple Person Tracking

Guillaume Delorme, Yutong Ban, Guillaume Sarrazin, Xavier Alameda-Pineda G. Delorme, Y. Ban, G. Sarrazin, X. Alameda-Pineda

IAPR International Conference on Pattern Recognition Workshops IAPR International Conference on Pattern Recognition Workshops

Towards Probabilistic Generative Models for Socially Intelligent Robot

Xavier Alameda-Pineda X. Alameda-Pineda

Université Grenoble Alpes Université Grenoble Alpes — Habilitation à Diriger de Recherches

PDF

GMM-UNIT: Unsupervised Multi-Domain and Multi-Modal Image-to-Image Translation via Attribute Gaussian Mixture Modeling

Yahui Liu, Marco De Nadai, Jian Yao, Nicu Sebe, Bruno Lepri, Xavier Alameda-Pineda Y. Liu, M. D. Nadai, J. Yao, N. Sebe, B. Lepri, X. Alameda-Pineda

arXiv

Tracking Multiple Audio Sources with the Von Mises Distribution and Variational EM

Y. Ban, X. Alameda-Pineda, C. Evers, R. Horaud Y. Ban, X. Alameda-Pineda, C. Evers, R. Horaud

IEEE Signal Processing Letters IEEE Signal Processing Letters

DOI PDF

A Comprehensive Analysis of Deep Regression

Stèphane Lathuilière, Pablo Mesejo, Xavier Alameda-Pineda, Radu Horaud S. Lathuilière, P. Mesejo, X. Alameda-Pineda, R. Horaud

IEEE Transactions on Pattern Analysis and Machine Intelligence IEEE Transactions on Pattern Analysis and Machine Intelligence

DOI arXiv PDF Code

Online Localization and Tracking of Multiple Moving Speakers in Reverberant Environment

Xiaofei Li, Yutong Ban, Laurent Girin, Xavier Alameda-Pineda, Radu Horaud X. Li, Y. Ban, L. Girin, X. Alameda-Pineda, R. Horaud

IEEE Journal of Selected Topics in Signal Processing IEEE Journal of Selected Topics in Signal Processing

DOI arXiv PDF

Increasing Image Memorability with Neural Style Transfer

A Siarohin, G. Zen, C Majtanovic, X. Alameda-Pineda, E. Ricci, N. Sebe A. Siarohin, G. Zen, C. Majtanovic, X. Alameda-Pineda, E. Ricci, N. Sebe

ACM Transactions on Multimedia Computing Communications and Applications ACM TOMM

DOI PDF

Audio-Visual Variational Fusion for Multi-Person Tracking with Robots

Xavier Alameda-Pineda, Soraya Arias, Yutong Ban, Guillaume Delorme, Laurent Girin, Radu Horaud, Xiaofei Li, Bastien Mourgue, Guillaume Sarrazin X. Alameda-Pineda, S. Arias, Y. Ban, G. Delorme, L. Girin, R. Horaud, X. Li, B. Mourgue, G. Sarrazin

ACM Multimedia ACM MM

DOI PDF

FAT/MM'19: 1st International Workshop on Fairness, Accountability, and Transparency in MultiMedia

Xavier Alameda-Pineda, Miriam Redi, Elisa Celis, Nicu Sebe, Shih-Fu Chang X. Alameda-Pineda, M. Redi, E. Celis, N. Sebe, S. Chang

ACM International Conference on Multimedia ACM MM

DOI PDF

Predicting Media Memorability Task at MediaEval 2019

Mihai Gabriel Constantin, Bogdan Ionescu, Claire-Hélène Demarty, Ngoc QK Duong, Xavier Alameda-Pineda, Mats Sjöberg M. G. Constantin, B. Ionescu, C. Demarty, N. Q. Duong, X. Alameda-Pineda, M. Sjöberg

MediaEval 2019 Workshop MediaEval 2019 Workshop

PDF

Cross-Paced Representation Learning with Partial Curricula for Sketch-based Image Retrieval

Dan Xu, Xavier Alameda-Pineda, Jingkuan Song, Elisa Ricci, Nicu Sebe D. Xu, X. Alameda-Pineda, J. Song, E. Ricci, N. Sebe

IEEE Transactions on Image Processing IEEE Transactions on Image Processing

DOI arXiv PDF

ACM MM'18 Workshop on Understanding Subjective Attributes of Data, Multimodal Recognition of Evoked Emotions

Xavier Alameda-Pineda, Miriam Redi, Nicu Sebe, Shih-Fu Chang, Jiebo Luo X. Alameda-Pineda, M. Redi, N. Sebe, S. Chang, J. Luo

ACM International Conference on Multimedia ACM MM

DOI PDF

Accounting for Room Acoustics in Audio-Visual Multi-Speaker Tracking

Yutong Ban, Xiaofei Li, Xavier Alameda-Pineda, Laurent Girin, Radu Horaud Y. Ban, X. Li, X. Alameda-Pineda, L. Girin, R. Horaud

IEEE International Conference on Audio, Speech and Signal Processing IEEE ICASSP

DOI PDF

DeepGUM: Learning Deep Robust Regression with a Gaussian-Uniform Mixture Model

Stéphane Lathuilière, Pablo Mesejo, Xavier Alameda-Pineda, Radu Horaud S. Lathuilière, P. Mesejo, X. Alameda-Pineda, R. Horaud

European Conference on Computer Vision ECCV

DOI PDF

Every Smile is Unique: Landmark-Guided Diverse Smile Generation

Wang Wei, Xavier Alameda-Pineda, Dan Xu, Elisa Ricci, Nicu Sebe W. Wei, X. Alameda-Pineda, D. Xu, E. Ricci, N. Sebe

IEEE International Conference on Computer Vision and Pattern Recognition IEEE CVPR

DOI arXiv PDF

A cascaded multiple-speaker localization and tracking system

X. Li, Y. Ban, L. Girin, X. Alameda-Pineda, R. Horaud X. Li, Y. Ban, L. Girin, X. Alameda-Pineda, R. Horaud

International Workshop on Acoustic Signal Enhancement (IWAENC), LOCATA Satellite Workshop IWAENC LOCATA

PDF

Multimodal behavior analysis in the wild: an introduction

Xavier Alameda-Pineda, Elisa Ricci, Nicu Sebe X. Alameda-Pineda, E. Ricci, N. Sebe

Multimodal Behavior Analysis in the Wild Multimodal Behavior Analysis in the Wild

DOI

Multimodal Behavior Analysis in the Wild: Advances and Challenges

Xavier Alameda-Pineda, Elisa Ricci, Nicu Sebe, et al. X. Alameda-Pineda, E. Ricci, N. Sebe, et al.

DOI

Automatic Animation of an Articulatory Tongue Model from Ultrasound Images of the Vocal Tract

Diandra Fabre, Thomas Hueber, Laurent Girin, Xavier Alameda-Pineda, Pierre Badin D. Fabre, T. Hueber, L. Girin, X. Alameda-Pineda, P. Badin

Speech Communications Speech Communications

DOI PDF

Extending the Cascaded Gaussian Mixture Regression Framework for Cross-Speaker Acoustic-Articulatory Mapping

L. Girin, T. Hueber, X. Alameda-Pineda L. Girin, T. Hueber, X. Alameda-Pineda

IEEE/ACM Transactions on Audio, Speech, and Language Processing IEEE/ACM Transactions on Audio, Speech, and Language Processing

DOI PDF

Viraliency: Pooling local virality

Xavier Alameda-Pineda, Andrea Pilzer, Dan Xu, Nicu Sebe, Elisa Ricci X. Alameda-Pineda, A. Pilzer, D. Xu, N. Sebe, E. Ricci

Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition IEEE/CVF CVPR

PDF

MUSA2 – First ACM Workshop on Multimodal Understanding of Social, Affective and Subjective Attributes

Xavier Alameda-Pineda, Miriam Redi, Mohammad Soleymani, Nicu Sebe, Shih-Fu Chang, Samuel Gosling X. Alameda-Pineda, M. Redi, M. Soleymani, N. Sebe, S. Chang, S. Gosling

ACM Multimedia ACM Multimedia

DOI PDF

Tracking a Varying Number of People with a Visually-Controlled Robotic Head

Yutong Ban, Xavier Alameda-Pineda, Fabien Badeig, Sileye Ba, Radu Horaud Y. Ban, X. Alameda-Pineda, F. Badeig, S. Ba, R. Horaud

Intelligent Robots and Systems IROS

DOI PDF

Adaptation of a Gaussian Mixture Regressor to a New Input Distribution: Extending the C-GMR Framework

Laurent Girin, Thomas Hueber, Xavier Alameda-Pineda L. Girin, T. Hueber, X. Alameda-Pineda

International Conference on Latent Variable Analysis and Signal Separation International Conference on Latent Variable Analysis and Signal Separation

DOI PDF

An EM algorithm for joint source separation and diarisation of multichannel convolutive mixtures

Dionyssos Kounades-Bastian, Laurent Girin, Xavier Alameda-Pineda, Sharon Gannot, Radu Horaud D. Kounades-Bastian, L. Girin, X. Alameda-Pineda, S. Gannot, R. Horaud

IEEE International Conference on Audio, Speech and Signal Processing IEEE ICASSP

DOI PDF

Exploting the Intermittency of Speech for Joint Separation and Diarization

Dionyssos Kounades-Bastian, Laurent Girin, Xavier Alameda-Pineda, Radu Horaud, Sharon Gannot D. Kounades-Bastian, L. Girin, X. Alameda-Pineda, R. Horaud, S. Gannot

IEEE Workshop on Applications of Signal Processing to Audio and Acoustics IEEE WASPAA

DOI PDF

How to Make an Image More Memorable? A Deep Style Transfer Approach

Aliaksandr Siarohin, Gloria Zen, Cveta Majtanovic, Xavier Alameda-Pineda, Elisa Ricci, Nicu Sebe A. Siarohin, G. Zen, C. Majtanovic, X. Alameda-Pineda, E. Ricci, N. Sebe

ACM International Conference on Multimedia Retrieval ACM ICMR

DOI PDF

Learning Deep Structured Multi-Scale Features using Attention-Gated CRFs for Contour Prediction

Dan Xu, Wanli Ouyang, Xavier Alameda-Pineda, Elisa Ricci, Xiaogang Wang, Nicu Sebe D. Xu, W. Ouyang, X. Alameda-Pineda, E. Ricci, X. Wang, N. Sebe

Advances in Neural Information Processing Systems NIPS

PDF

Exploiting the Complementarity of Audio-Visual Data for Probabilistic Multi-Speaker Tracking

Yutong Ban, Laurent Girin, Xavier Alameda-Pineda, Radu Horaud Y. Ban, L. Girin, X. Alameda-Pineda, R. Horaud

IEEE ICCV Workshop on Computer Vision for Audio-Visual Media IEEE ICCVW

DOI PDF

Multimodal analysis of free-standing conversational groups

Xavier Alameda-Pineda, Elisa Ricci, Nicu Sebe X. Alameda-Pineda, E. Ricci, N. Sebe

Frontiers of Multimedia Research Frontiers of Multimedia Research

DOI

Self-adaptive matrix completion for heart rate estimation from face videos under realistic conditions

Nicu Sebe, Xavier Alameda-Pineda, Sergey Tulyakov, Elisa Ricci, Lijun Yin, Jeffrey F. Cohn N. Sebe, X. Alameda-Pineda, S. Tulyakov, E. Ricci, L. Yin, J. F. Cohn

SALSA: A Novel Dataset for Multimodal Group Behavior Analysis

Xavier Alameda-Pineda, Jacopo Staiano, Ramanathan Subramanian, Ligia Maria Batrinca, Elisa Ricci, Bruno Lepri, Oswald Lanz, Nicu Sebe X. Alameda-Pineda, J. Staiano, R. Subramanian, L. M. Batrinca, E. Ricci, B. Lepri, O. Lanz, N. Sebe

IEEE Transactions on Pattern Analysis and Machine Intelligence IEEE Transactions on Pattern Analysis and Machine Intelligence

DOI arXiv PDF

An On-line Variational Bayesian Model for Multi-Person Tracking from Cluttered Scenes

Sileye Ba, Xavier Alameda-Pineda, Alessio Xompero, Radu Horaud S. Ba, X. Alameda-Pineda, A. Xompero, R. Horaud

Computer Vision and Image Understanding Computer Vision and Image Understanding

DOI arXiv PDF

EM algorithms for weighted-data clustering with application to audio-visual scene analysis

Israel-Dejene Gebru, Xavier Alameda-Pineda, Florence Forbes, Radu Horaud I. Gebru, X. Alameda-Pineda, F. Forbes, R. Horaud

IEEE Transactions on Pattern Analysis and Machine Intelligence IEEE Transactions on Pattern Analysis and Machine Intelligence

DOI arXiv PDF

A Variational EM Algorithm for the Separation of Time-Varying Convolutive Audio Mixtures

Dionyssos Kounades-Bastian, Laurent Girin, Xavier Alameda-Pineda, Sharon Gannot, Radu Horaud D. Kounades-Bastian, L. Girin, X. Alameda-Pineda, S. Gannot, R. Horaud

IEEE/ACM Transactions on Audio, Speech and Language Processing IEEE/ACM Transactions on Audio, Speech and Language Processing

DOI arXiv PDF

Recognizing Emotions from Abstract Paintings using Non-Linear Matrix Completion

Xavier Alameda-Pineda, Elisa Ricci, Yan Yan, Nicu Sebe X. Alameda-Pineda, E. Ricci, Y. Yan, N. Sebe

IEEE International Conference on Computer Vision and Pattern Recognition IEEE International Conference on Computer Vision and Pattern Recognition

DOI PDF

An inverse-gama source variance prior with factorized parametrization for audio source separation

Dionyssos Kounades-Bastian, Laurent Girin, Xavier Alameda-Pineda, Sharon Gannot, Radu Horaud D. Kounades-Bastian, L. Girin, X. Alameda-Pineda, S. Gannot, R. Horaud

IEEE International Conference on Audio, Speech and Signal Processing IEEE International Conference on Audio, Speech and Signal Processing

DOI PDF

Self-Adaptive Matrix Completion for Heart Rate Estimation from Face Videos under Realistic Conditions

Sergey Tulyakov, Xavier Alameda-Pineda, Elisa Ricci, Lijun Yin, Jeffrey F. Cohn, Nicu Sebe S. Tulyakov, X. Alameda-Pineda, E. Ricci, L. Yin, J. F. Cohn, N. Sebe

IEEE International Conference on Computer Vision and Pattern Recognition IEEE International Conference on Computer Vision and Pattern Recognition

DOI PDF

Projective Unsupervised Flexible Embedding with Optimal Graph

Wei Wang, Yan Yan, Feiping Nie, Xavier Alameda-Pineda, Shuicheng Yan, Nicu Sebe W. Wang, Y. Yan, F. Nie, X. Alameda-Pineda, S. Yan, N. Sebe

British Machine Vision Conference British Machine Vision Conference

PDF

Academic Coupled Dictionary Learning for Sketch-based Image Retrieval

Dan Xu, Xavier Alameda-Pineda, Jingkuan Song, Elisa Ricci, Nicu Sebe D. Xu, X. Alameda-Pineda, J. Song, E. Ricci, N. Sebe

ACM International Conference on Multimedia ACM Multimedia

DOI PDF

Multi-Paced Dictionary Learning for Cross-Domain Retrieval and Recognition

Dan Xu, Jingkuan Song, Xavier Alameda-Pineda, Elisa Ricci, Nicu Sebe D. Xu, J. Song, X. Alameda-Pineda, E. Ricci, N. Sebe

IEEE International Conference on Pattern Recognition IEEE ICPR

DOI PDF

Tracking Multiple Persons Based on a Variational Bayesian Model

Yutong Ban, Sileye Ba, Xavier Alameda-Pineda, Radu Horaud Y. Ban, S. Ba, X. Alameda-Pineda, R. Horaud

European Conference on Computer Vision Workshops ECCVW

PDF

SALSA: A multimodal dataset for the automated analysis of free-standing social interactions

Xavier Alameda-Pineda, Ramanathan Subramanian, Elisa Ricci, Oswald Lanz, Nicu Sebe X. Alameda-Pineda, R. Subramanian, E. Ricci, O. Lanz, N. Sebe

Group and Crowd Behavior for Computer Vision Group and Crowd Behavior for Computer Vision

DOI

Vision-Guided Robot Hearing

Xavier Alameda-Pineda, Radu Horaud X. Alameda-Pineda, R. Horaud

International Journal of Robotics Research IJRR

DOI arXiv PDF

Speaker-Adaptive Acoustic-Articulatory Inversion using Cascaded Gaussian Mixture Regression

Thomas Hueber, Laurent Girin, Xavier Alameda-Pineda, Gerard Bailly T. Hueber, L. Girin, X. Alameda-Pineda, G. Bailly

IEEE/ACM Transactions on Audio, Speech and Language Processing IEEE/ACM Transactions on Audio, Speech and Language Processing

DOI PDF

Analyzing Free-standing Conversational Groups: A Multimodal Approach

Xavier Alameda-Pineda, Yan Yan, Elisa Ricci, Oswald Lanz, Nicu Sebe X. Alameda-Pineda, Y. Yan, E. Ricci, O. Lanz, N. Sebe

ACM International Conference on Multimedia ACM International Conference on Multimedia

DOI PDF

A Variational EM Algorithm for the Separation of Moving Sound Sources

Dionyssos Kounades-Bastian, Laurent Girin, Xavier Alameda-Pineda, Sharon Gannot, Radu Horaud D. Kounades-Bastian, L. Girin, X. Alameda-Pineda, S. Gannot, R. Horaud

IEEE Workshop on Applications of Signal Processing to Audio and Acoustics IEEE Workshop on Applications of Signal Processing to Audio and Acoustics

DOI PDF

A Geometric Approach to Sound Source Localization from Time-Delay Estimates

Xavier Alameda-Pineda, Radu Horaud X. Alameda-Pineda, R. Horaud

IEEE Transactions on Audio, Speech and Language Processing IEEE Transactions on Audio, Speech and Language Processing

DOI arXiv PDF

Audio-Visual Speaker Localization via Weighted Clustering

Israel-Dejene Gebru, Xavier Alameda-Pineda, Radu Horaud, Florence Forbes I. Gebru, X. Alameda-Pineda, R. Horaud, F. Forbes

IEEE Workshop on Machine Learning for Signal Processing IEEE Workshop on Machine Learning for Signal Processing

DOI PDF

Sound Representation and Classification Benchmark for Domestic Robots

Maxime Janvier, Xavier Alameda-Pineda, Laurent Girin, Radu Horaud M. Janvier, X. Alameda-Pineda, L. Girin, R. Horaud

IEEE International Conference on Robotics and Automation IEEE International Conference on Robotics and Automation

DOI arXiv PDF

RAVEL: An Annotated Corpus for Training Robots with Audiovisual Abilities

Xavier Alameda-Pineda, Jordi Sanchez-Riera, Johannes Wienke, Vojtech Franc, Jan Cech, Kaustubh Kulkarni, Antoine Deleforge, Radu Horaud X. Alameda-Pineda, J. Sanchez-Riera, J. Wienke, V. Franc, J. Cech, K. Kulkarni, A. Deleforge, R. Horaud

Journal on Multimodal User Interfaces JMUI

DOI PDF

Benchmarking methods for audio-visual recognition using tiny training sets

Xavier Alameda-Pineda, Jordi Sanchez-Riera, Radu Horaud X. Alameda-Pineda, J. Sanchez-Riera, R. Horaud

IEEE International Conference on Acoustics, Speech and Signal Processing ICASSP

DOI PDF

The Geometry of Sound Source Localization Using Non-Coplanar Microphone Arrays

Xavier Alameda-Pineda, Radu Horaud, Bernard Mourrain X. Alameda-Pineda, R. Horaud, B. Mourrain

IEEE Workshop on Applications of Signal Processing to Audio and Acoustics IEEE Workshop on Applications of Signal Processing to Audio and Acoustics

DOI PDF

Active-Speaker Detection and Localization with Microphones and Cameras Embedded into a Robotic Head

Jan Cech, Ravi Mittal, Antoine Deleforge, Jordi Sanchez-Riera, Xavier Alameda-Pineda, Radu Horaud J. Cech, R. Mittal, A. Deleforge, J. Sanchez-Riera, X. Alameda-Pineda, R. Horaud

IEEE-RAS International Conference on Humanoid Robots Humanoids

DOI PDF

Egocentric Audio-Visual Scene Analysis, A Machine Learning and Signal Processing Approach

Xavier Alameda-Pineda X. Alameda-Pineda

Université Joseph Fourier, Grenoble, France Université Joseph Fourier, Grenoble, France

PDF

Geometrically-constrained Robust Time Delay Estimation Using Non-coplanar Microphone Arrays

Xavier Alameda-Pineda, Radu Horaud X. Alameda-Pineda, R. Horaud

European Signal Processing Conference EUSIPCO

PDF

Sound-event recognition with a companion humanoid

Maxime Janvier, Xavier Alameda-Pineda, Laurent Girin, Radu Horaud M. Janvier, X. Alameda-Pineda, L. Girin, R. Horaud

IEEE-RAS International Conference on Humanoid Robots Humanoids

DOI PDF

Online Multimodal Speaker Detection for Humanoid Robots

Jordi Sanchez-Riera, Xavier Alameda-Pineda, Johannes Wienke, Antoine Deleforge, Soraya Arias, Jan Cech, Sebastian Wrede, Radu Horaud J. Sanchez-Riera, X. Alameda-Pineda, J. Wienke, A. Deleforge, S. Arias, J. Cech, S. Wrede, R. Horaud

IEEE-RAS International Conference on Humanoid Robotics Humanoids

DOI PDF

Audio-visual robot command recognition: D-META'12 grand challenge

Jordi Sanchez-Riera, Xavier Alameda-Pineda, Radu Horaud J. Sanchez-Riera, X. Alameda-Pineda, R. Horaud

ACM International Conference on Multimodal Interaction ICMI

DOI PDF

Finding audio-visual events in informal social gatherings

Xavier Alameda-Pineda, Vasil Khalidov, Radu Horaud, Florence Forbes X. Alameda-Pineda, V. Khalidov, R. Horaud, F. Forbes

IEEE/ACM International Conference on Multimodal Interaction ICMI

DOI PDF

Finding audio-visual events with a robot head

Xavier Alameda-Pineda X. Alameda-Pineda

Université Joseph Fourier / ENSIMAG, Grenoble, France Université Joseph Fourier / ENSIMAG, Grenoble, France

Entropy Coding for Image Compression Based on Generalized Lifting and SPECK

Xavier Alameda-Pineda X. Alameda-Pineda

ETSETB, BarcelonaTECH, Barcelona, Spain ETSETB, BarcelonaTECH, Barcelona, Spain

PDF

Image compression with generalized lifting and partial knowledge of the signal pdf

Julio Rolón, Philippe Salembier, Xavier Alameda-Pineda J. Rolón, P. Salembier, X. Alameda-Pineda

IEEE International Conference on Image Processing IEEE ICIP

DOI