Google dévoile TabFM, son modèle de fondation pour prédire des données tabulaires
Google Research a récemment lancé TabFM, un modèle de fondation dédié à la prédiction de données tabulaires, concurrent de RPT-1 de SAP, TabPFN de Prior Labs, et TabICL, développé par une équipe de recherche de l’INRIA. Ce modèle fait suite à la présentation de TimesFM en août 2025, qui était axé sur la prédiction de séries chronologiques.
TabFM utilise l’architecture Transformer et les techniques d’entraînement des grands modèles de langage pour réaliser des tâches de régression et de classification, allant jusqu’à dix classes, telles que la détection de fraudes et l’évaluation du taux d’attrition des clients. Contrairement aux algorithmes supervisés comme AdaBoost, XGBoost ou les forêts aléatoires, TabFM ne nécessite pas de fine-tuning pour produire des résultats pertinents.
Pour atteindre cet objectif, le modèle s’inspire des capacités d’apprentissage contextuel des grands modèles de langage (LLM). Les chercheurs expliquent que cette approche permet à un modèle préentraîné d’apprendre de nouvelles tâches à partir d’exemples fournis dans le contexte d’entrée, sans modifier ses poids sous-jacents. Lors de l’inférence, le modèle interprète les relations entre les colonnes et les lignes directement à partir de ce contexte.
Ce processus, bien que prometteur, reste complexe. La tokenisation des données tabulaires nécessite de prendre en compte deux dimensions, contrairement à la tokenisation unidimensionnelle des textes. SAP a noté que son modèle était proportionnellement deux fois plus grand que BERT, utilisé pour diverses tâches de traitement du langage.
TabFM synthétise les forces architecturales de modèles précédents, tels que TabPFN et TabICL, en intégrant trois mécanismes. Les tables en entrée sont traitées par un mécanisme multicouche qui alterne l’attention entre les colonnes et les lignes, permettant au modèle d’identifier les relations entre les caractéristiques et les variables cibles. Après contextualisation, chaque ligne est compressée dans un vecteur dense, ce qui facilite le traitement de grandes tables.
Les chercheurs de Google soulignent que TabFM est entièrement entraîné sur des centaines de millions de jeux de données synthétiques, obtenus grâce à des modèles causaux structurels. Ces tables synthétiques sont cruciales pour le préentraînement à cette échelle, car il existe une insuffisance de données publiques de qualité.
Sur le benchmark TabArena, TabFM a surpassé Autogluon 1.5 dans les tâches de régression et de classification. La variante TabFM-Ensemble, qui combine les colonnes existantes et utilise la décomposition en valeurs singulières, a montré des résultats particulièrement prometteurs. Les modèles seront intégrés à Google BigQuery via la commande AI.PREDICT SQL dans les prochaines semaines.
Cependant, les chercheurs mettent en garde sur la consommation de mémoire qui augmente avec le nombre de lignes, et précisent que les performances de TabFM ne sont pas garanties dans des domaines spécifiques. Il est conseillé de tester le modèle sur des données propres avant de l’utiliser dans des applications critiques.
Les tests effectués par Yann Debray, Chief Product Officer chez Probabl, montrent que TabFM a devancé TabICL sur quatre des six petits jeux de données, bien que les écarts soient minimes. Toutefois, sur une puce Apple, TabFM nécessite deux fois plus de temps pour effectuer une prédiction par rapport à d’autres modèles.
Les benchmarks indiquent que TabFM surpasse légèrement TabICLv2 et TabFPN3 sur 15 jeux de données, tout en surpassant les principaux frameworks de Gradient Boosting. Cependant, le temps de calcul reste un point de préoccupation, TabFM ayant nécessité en moyenne 174 secondes par itération, contre 3,1 secondes pour TabICLv2.
Les porte-parole de Google Research n’ont pas précisé les prochaines étapes de développement. L’adoption de cette technologie par les utilisateurs de BigQuery reste à observer, d’autant plus que les LLM ne traitent pas ce type de prédiction.
Source : Le Mag IT.
