NLP

Natural Language Processing

Style moderne

---

NLP moderne - Embeddings

--- # Embeddings

Le problème : comment trouver des textes similaires ?

Dans un large corpus, comment trouver des phrases, des paragraphes qui traitent de sujets similaires ?

Ou dit autrement, comment calculer une distance entre 2 textes qui conservent le sens des textes, distance sémantique?


Distance

Comment calculer une distance entre 2 textes pour pouvoir dire que

d(_fenêtre_, _porte_) < d(_fenêtre_, _café_)

Avant 2013 : compter les mots et leurs fréquences relatives La méthode, rudimentaire, appelée tf-idf, fonctionnait bien pour la détection de spam, nécessite beaucoup de pré-traitement de texte (stopwords, lemmatization, ...). OOV, ne peut pas passer à l'échelle pour de grands vocabulaires, sensible aux fautes de frappe, etc etc


Word2vec 2013

Thomas Mikolov @Google Efficient Estimation of Word Representations in Vector Space

Distance sémantique de mots similaires

Queen - Woman = King - Man
France + capital = Paris
Germany + capital = Berlin

mais toujours pas de désambiguïsation contextuelle : les vers de terre = je vais vers la table.

word2vec

word2vec 2013

Chaque mot est un vecteur de grande dimension

word2vec

CBOW vs skip-gram

cbow skip gram

cbow-skipgram


Cosine similarity

Une fois que vous avez les embeddings (vecteurs, séries de nombres) de 2 textes (phrases, mots, tokens, ...), leur distance est donnée par la similarité cosinus de leurs embeddings

word2vec cosine similarity word2vec cosine similarity

Word2Vec (2013)


Évolution des Word Embeddings

BERT/GPT (2018+)


Comment le contexte sémantique est préservé ?

Mécanisme d'attention

Positional encoding

Layers empilées


attention mechanism diagram

Exemple de workflow :

  1. Charger un modèle d'embedding pré-entraîné.
  2. Passer les phrases dans le modèle.
  3. Obtenir un vecteur de dimension N (embedding) pour chaque phrase.
  4. Utiliser ces embeddings pour la tâche en aval.
Embedding workflow

Embeddings spécialisés

Différentes entreprises optimisent pour différentes priorités—facilité d'utilisation, support multilingue, expertise de domaine, ou reduction des coûts !

Principales entreprises de modèles d'Embedding

OpenAI – Embeddings polyvalents, usage général

Cohere – Embeddings multilingues, orientés entreprise

Voyage AI – Embeddings personnalisables, spécifiques au domaine

Jina AI – Embeddings multimodaux et open-source

Google (Vertex AI) – Embeddings intégrés et évolutifs


Ressources


RAG : Retrieval Augmented Generation

La limitation du context window des LLMs

Les Large Language Models ont une context window—une limite sur la quantité de texte qu'ils peuvent traiter à la fois (typiquement 32K-200K tokens, soit ~25-150 pages).

Le défi :

Comment RAG résout cela :

Avant RAG : Vous demandez : "Quelle est notre politique de retour pour l'électronique ?" Le LLM pense : "Je n'ai pas accès aux politiques spécifiques de cette entreprise... Je vais faire une supposition éclairée basée sur les pratiques courantes" ❌

Avec RAG :

  1. Votre question est convertie en embedding
  2. RAG recherche dans TOUS vos documents et récupère seulement les 3-5 pages les plus pertinentes (vos documents de politique de retour)
  3. Ces pages spécifiques sont insérées dans le prompt du LLM comme contexte
  4. Le LLM répond en se basant sur VOTRE politique réelle ✓

RAG agit comme un système de recherche intelligent qui trouve l'aiguille dans la botte de foin, puis donne SEULEMENT cette aiguille au LLM comme contexte. De cette façon, le LLM a toujours les bonnes informations pour répondre avec précision—sans avoir besoin de faire rentrer toute votre base de connaissances dans sa context window.

En résumé : RAG = Retrieval (trouver les bons docs) + Augmented (les ajouter au prompt) + Generation (le LLM crée une réponse à partir de ce contexte)


RAG : retrieval augmented generation

RAG diagram

Principaux défis des systèmes RAG

Problèmes de chunking

Qualité du retrieval

Contrôle de version et fraîcheur

Limitations de contexte

Les hallucinations persistent

Coût et latence


Pratique NLP classique et moderne

---

Sur l'API Wikipedia


Colab

https://colab.research.google.com/drive/1FT5hdlnj23c85CEYvaIc6nh4xDWu7VSW#scrollTo=cYFFIRy-6Ign


Pratique

1 / 0