Comprendre les bases de données vectorielles et leur rôle dans les LLM
Comprendre les bases de données vectorielles
Les modèles de langage modernes (LLM) utilisent fréquemment des bases de données vectorielles pour stocker et interroger de l’information de manière sémantique.
Contrairement aux bases de données traditionnelles qui recherchent des correspondances exactes (mots-clés, égalité, motifs), les bases vectorielles permettent de rechercher des contenus similaires en fonction de leur sens.
1. Les embeddings : la base du mécanisme
Un LLM transforme un texte en un vecteur numérique appelé embedding.
Exemple simplifié
"chien" → [0.12, -0.87, 0.44, ..., 0.03]
"chiot" → [0.10, -0.82, 0.47, ..., 0.05]
"voiture" → [-0.91, 0.33, -0.12, ..., 0.77]Ces vecteurs contiennent généralement entre 768 et 1536 dimensions selon le modèle utilisé.
Plus deux textes sont proches en sens, plus leurs vecteurs sont proches mathématiquement dans l’espace vectoriel.
2. Pourquoi une base SQL classique ne suffit pas
Une base relationnelle classique peut répondre à une requête comme :
SELECT * FROM documents WHERE title LIKE '%chien%';Mais elle ne sait pas répondre efficacement à une requête du type :
« Trouve-moi les documents proches du concept chiot. »
Ce type de recherche nécessite de comparer des vecteurs dans un espace à très haute dimension, ce qui dépasse les capacités des index relationnels traditionnels (B-tree, hash).
3. Qu’est-ce qu’une base de données vectorielle ?
Une base vectorielle est un système spécialisé qui :
- Stocke des vecteurs haute dimension
- Indexe ces vecteurs pour des recherches rapides
- Permet une recherche par similarité
Elle répond typiquement à une requête comme :
« Quels sont les 5 vecteurs les plus proches de celui-ci ? »
On parle alors de recherche de plus proches voisins (Nearest Neighbors).
4. Les algorithmes utilisés
Une comparaison exhaustive de tous les vecteurs serait trop lente à grande échelle.
Les bases vectorielles utilisent donc des algorithmes spécialisés, notamment :
- HNSW (Hierarchical Navigable Small World)
- IVF (Inverted File Index)
- ANN (Approximate Nearest Neighbors)
Ces techniques permettent une recherche rapide même avec des millions (ou milliards) de vecteurs, au prix d’une approximation contrôlée.
5. Cas d’usage : RAG (Retrieval-Augmented Generation)
Dans une architecture RAG (Retrieval-Augmented Generation) :
-
On découpe des documents en segments.
-
On génère un embedding pour chaque segment.
-
On stocke ces embeddings dans une base vectorielle.
-
Lorsqu’un utilisateur pose une question :
- On génère l’embedding de la question.
- On cherche les vecteurs les plus proches.
- On fournit les passages correspondants au LLM.
- Le LLM génère une réponse contextualisée.
Ce mécanisme permet à un LLM de travailler avec votre propre base documentaire, sans nécessiter un nouvel entraînement.
6. Mesures de similarité
Les distances les plus courantes pour comparer deux vecteurs sont :
- Cosine similarity
- Distance euclidienne
- Produit scalaire (dot product)
Ces mesures déterminent la proximité sémantique entre deux textes dans l’espace vectoriel.
7. Différence entre SQL et base vectorielle
| Base SQL | Base vectorielle |
|---|---|
| Recherche exacte | Recherche approximative |
| Index B-tree | Index ANN |
| Basée sur mots-clés | Basée sur similarité sémantique |
| Logique relationnelle | Logique géométrique |
Les deux approches ne s’opposent pas : elles sont souvent complémentaires dans une architecture moderne.
8. Pourquoi c’est crucial pour les LLM
Les bases vectorielles permettent :
- Une mémoire externe persistante
- La recherche sémantique à grande échelle
- Des chatbots personnalisés
- L’analyse de bases de code
- Des systèmes d’agents intelligents
Sans ce mécanisme, un LLM est limité à sa fenêtre de contexte interne, ce qui restreint sa capacité à exploiter des corpus volumineux ou dynamiques.
Conclusion
Les bases de données vectorielles représentent une évolution majeure dans la manière de stocker et d’interroger l’information.
Elles transforment une base de données en un espace géométrique de concepts, permettant aux LLM de raisonner sur le sens plutôt que sur des mots-clés.
Dans les architectures modernes d’IA, elles constituent le pont essentiel entre le modèle et la connaissance externe.