Comprendre les bases de données vectorielles

Les modèles de langage modernes (LLM) utilisent fréquemment des bases de données vectorielles pour stocker et interroger de l’information de manière sémantique.

Contrairement aux bases de données traditionnelles qui recherchent des correspondances exactes (mots-clés, égalité, motifs), les bases vectorielles permettent de rechercher des contenus similaires en fonction de leur sens.

1. Les embeddings : la base du mécanisme

Un LLM transforme un texte en un vecteur numérique appelé embedding.

Exemple simplifié

"chien"   → [0.12, -0.87, 0.44, ..., 0.03]
"chiot"   → [0.10, -0.82, 0.47, ..., 0.05]
"voiture" → [-0.91, 0.33, -0.12, ..., 0.77]

Ces vecteurs contiennent généralement entre 768 et 1536 dimensions selon le modèle utilisé.

Plus deux textes sont proches en sens, plus leurs vecteurs sont proches mathématiquement dans l’espace vectoriel.

2. Pourquoi une base SQL classique ne suffit pas

Une base relationnelle classique peut répondre à une requête comme :

SELECT * FROM documents WHERE title LIKE '%chien%';

Mais elle ne sait pas répondre efficacement à une requête du type :

« Trouve-moi les documents proches du concept chiot. »

Ce type de recherche nécessite de comparer des vecteurs dans un espace à très haute dimension, ce qui dépasse les capacités des index relationnels traditionnels (B-tree, hash).

3. Qu’est-ce qu’une base de données vectorielle ?

Une base vectorielle est un système spécialisé qui :

Stocke des vecteurs haute dimension
Indexe ces vecteurs pour des recherches rapides
Permet une recherche par similarité

Elle répond typiquement à une requête comme :

« Quels sont les 5 vecteurs les plus proches de celui-ci ? »

On parle alors de recherche de plus proches voisins (Nearest Neighbors).

4. Les algorithmes utilisés

Une comparaison exhaustive de tous les vecteurs serait trop lente à grande échelle.

Les bases vectorielles utilisent donc des algorithmes spécialisés, notamment :

HNSW (Hierarchical Navigable Small World)
IVF (Inverted File Index)
ANN (Approximate Nearest Neighbors)

Ces techniques permettent une recherche rapide même avec des millions (ou milliards) de vecteurs, au prix d’une approximation contrôlée.

5. Cas d’usage : RAG (Retrieval-Augmented Generation)

Dans une architecture RAG (Retrieval-Augmented Generation) :

On découpe des documents en segments.
On génère un embedding pour chaque segment.
On stocke ces embeddings dans une base vectorielle.
Lorsqu’un utilisateur pose une question :
- On génère l’embedding de la question.
- On cherche les vecteurs les plus proches.
- On fournit les passages correspondants au LLM.
- Le LLM génère une réponse contextualisée.

Ce mécanisme permet à un LLM de travailler avec votre propre base documentaire, sans nécessiter un nouvel entraînement.

6. Mesures de similarité

Les distances les plus courantes pour comparer deux vecteurs sont :

Cosine similarity
Distance euclidienne
Produit scalaire (dot product)

Ces mesures déterminent la proximité sémantique entre deux textes dans l’espace vectoriel.

7. Différence entre SQL et base vectorielle

Base SQL	Base vectorielle
Recherche exacte	Recherche approximative
Index B-tree	Index ANN
Basée sur mots-clés	Basée sur similarité sémantique
Logique relationnelle	Logique géométrique

Les deux approches ne s’opposent pas : elles sont souvent complémentaires dans une architecture moderne.

8. Pourquoi c’est crucial pour les LLM

Les bases vectorielles permettent :

Une mémoire externe persistante
La recherche sémantique à grande échelle
Des chatbots personnalisés
L’analyse de bases de code
Des systèmes d’agents intelligents

Sans ce mécanisme, un LLM est limité à sa fenêtre de contexte interne, ce qui restreint sa capacité à exploiter des corpus volumineux ou dynamiques.

Conclusion

Les bases de données vectorielles représentent une évolution majeure dans la manière de stocker et d’interroger l’information.

Elles transforment une base de données en un espace géométrique de concepts, permettant aux LLM de raisonner sur le sens plutôt que sur des mots-clés.

Dans les architectures modernes d’IA, elles constituent le pont essentiel entre le modèle et la connaissance externe.