L'Intelligence Artificielle ?


Promesses

Beaucoup de promesses d'efficacité de gain de temps.

En réalité, on obtient un mélange de savonette et de fadeur et avec aussi des expériences bluffantes.

Notion de jagged frontier : frontière irrégulière.

Par exemple ce matin, je demande a Mistral de compter le nombre de r dans le mot strawberry :

R dans strawberry

En insistant on finit par voir la bonne réponse

R dans strawberry

Evolution de l'IA

Ethan Mollick prof à Wharton

utilise le même prompt depuis 2021:

Une loutre dans un avion qui utilise le wifi

otter on a plane using wifi


Historique de l'IA Générative

nlp history

NLP Timeline


Les ancètres

Nuit des temps

Google translate

Avant 2013 : NLP classique (Natural Language Processing)


La renaissance

2013 - Word2Vec (Google)

2014 - Seq2Seq et Attention

2017 - Transformers ("Attention Is All You Need")

2018 - BERT (Google) - 1er LLM


Les précurseurs

2018 - GPT-1 (OpenAI)

2019 - GPT-2 (OpenAI)

2020 - GPT-3 (OpenAI)


L'ère des grands modèles

2021 - DALL-E (OpenAI)

2022 - ChatGPT (OpenAI)

2022 - Stable Diffusion

2023 - GPT-4 (OpenAI)

2023 - LLaMA (Meta)

2023 - Claude (Anthropic)

2024-25

2026 - ...


NLP classique


Le langage est... compliqué

Homonymie

  • Je vais acheter un livre.
  • Il pèse dix livres.
  • Il livre des colis toute la journée.
  • Mangeons , grand-père.
  • Mangeons grand-père.
  • Poser un lapin
  • Je ne sais pas si je ne viendrai pas
  • I'm bad (Michael Jackson)
  • Septante, acronymes, ...

Le langage est... compliqué


NLP classique

et des tâches plus difficiles telles que


NLP classique

Nécessite des modèles, des règles qui sont spécifiques à chaque langue. Le russe ou le français ont besoin de lemmatizers différents de l'anglais.


Tokenization

Quelle est l'unité du texte ?

On pourrait travailler avec

Il faut gérer


Démo NLP classique : NER et POS

https://cloud.google.com/natural-language

Entrez du texte :

"Like everyone, we have definitely felt the impact of AI Overviews. There is only one direction of travel; not only are AIs getting better, but they're getting better in an exponential fashion," said Sean Cornwell, chief executive of Immediate Media, which owns the Radio Times and Good Food brands in the UK.


POS : part of speech et dependency tagging

Malheureusement, cette fonctionnalité n'est plus disponible dans la démo NLP de Google.


Tokens et LLMs


Tarification basée sur les tokens

https://openai.com/api/pricing/

openai pricing

NLP moderne (post 2013)

voir ces slides


LLMs

Large Language Models

Grands modèles de langage


Tokens, temperature

génération de texte :

Generation

Autre exemple

Hier soir j'ai mangé:


fenêtre de contexte et tokens:

mais si le contenu est trop grand, le LLM aura tendance

Donc garder le contexte petit est important.

C'est une bonne stratégie pour être efficace.


Température :

Le paramètre qui permet de changer la distribution de probabilité des tokens

Les mots moins fréquents ont une probabilité plus grande de être générés quand la température est élevée.

Quand on augmente la temperature :


Donc


Pourquoi les tokens


token based pricing

OpenAI Pricing

OpenAI pricing


embeddings - vectorisation du texte

Word Embeddings

Le plateformes de type chatbot

Pour les acteurs de type OpenAI, Claude, etc : abonnement et API sont facturés distinctement


Les plateformes specialisées

Voici une liste élargie de plateformes et services d’IA spécialisés

IA tout-en-un / plateformes multiplateformes

Génération d’images / visuels

Création vidéo / audio


Mais aussi

Assistant de recherche / gestion des connaissances

Création d’applications / développement

Marketing & contenus social

Automatisation & productivité

Support client & prospection

Éducation & contenus pédagogiques


En local. Ollama. on download le LLM et on le fait tourner en local. donc petit LLM, ok pour des tâches très spécifiques. gratuit. mais nécessite machine puissante.


Pléthore de modèles

2024 AI Timeline

2024 AI Timeline - Hugginface release dashboards

Distinction majeure entre les modèles open source et closed source


Opensource vs Proprietaire: software

Open source:

  • Le code est public : Linux
  • Linux, OpenOffice, Firefox, Chromium, Python, grandes bases de données,
  • Peut être copié et modifié par n'importe qui
Open source

Closed source:

  • Le code n'est pas accessible.
  • Windows, Word, Chrome, Edge, Oracle
  • nécessite une licence pour utiliser, boîte noire
Closed source

Open source LLMs

Différents niveaux d'ouverture :

Certains modèles sont entièrement ouverts (DeepSeek), partiellement ouverts (Llama, Mistral 7B), ou fermés (OpenAI o1, Claude Sonnet, Gemini)

Si vous avez les poids d'un modèle vous pouvez le fine-tuner sur vos propres données. Version allégée de l'entraînement d'un modèle complet


Evaluation des LLMs, les benchmarks


Performances comparées: LLM Benchmarks

Comment évaluer et comparer les LLMs ?

Les benchmarks LLM sont des suites de tests qui mesurent la performance des grands modèles de langage sur différentes tâches, comme répondre à des questions, résoudre des problèmes, ou écrire du texte. Ils permettent de comparer les modèles côte à côte.

Défis : Les benchmarks ne reflètent pas toujours l'usage du monde réel, peuvent devenir obsolètes rapidement, et les modèles s'entraînent souvent sur les tests, ce qui signifie que des scores élevés ne garantissent pas toujours une meilleure utilité.


Benchmarks traditionnels :

  • MMLU Massive Multitask Language Understanding : 16 000 questions à choix multiples
  • HellaSwag : Une machine peut-elle vraiment finir votre phrase ?
  • HumanEval : Génération de code
  • GSM8K Problèmes de mathématiques : 8K Q&R niveau école primaire

Problème : Les modèles saturent rapidement ces tests

La nouvelle frontière :

  • GPQA Diamond : 198 QCM en biologie, chimie et physique, du niveau "licence difficile" au "niveau post-diplôme".
  • LiveCodeBench : benchmark d'évaluation sans contamination des LLMs pour le code qui collecte continuellement de nouveaux problèmes
  • Humanity's Last Exam : questions de près de 1 000 contributeurs experts de plus de 500 institutions dans 50 pays – composé principalement de professeurs, chercheurs et titulaires de diplômes supérieurs.

Ceux-ci représentent les limites cognitives de l'humanité


Artificial Analysis Intellligence Index

AI Index

Artificial Analysis Intelligence Index combine les performances sur sept évaluations : MMLU-Pro, GPQA Diamond, Humanity's Last Exam, LiveCodeBench, SciCode, AIME 2025, et IFBench.


Score vs release date

AI Index

La course: open source vs propriétaires

Closed-source vs. Open-weight models (MMLU, 5-shot) performance comparison over time from 2022-04 to 2024-04

Les modèles open source rattrapent les modèles closed source


Performance vs Cost - 08/2025

Performance vs Cost

LM arena

LM arena

LM arena


Types de LLMs


Agents

LLMs augmentés

du LLM au LLM agentic : mémoire, outils, planification


Agent mode

les agents: newsletter.maartengrootendorst.com/p/a-visual-guide-to-llm-agents


Prompt

Mon temps: écrire des spécifications comme prompts


system prompt vs user prompt

personnalité des modèles: le prompt system

Un prompt système est le fichier de politique et de personnalité de niveau racine que chaque demande d'utilisateur doit respecter. ... 'le manuel non officiel' des vraies capacités et garde-fous d'un modèle.


Claude 4 system prompt

claude 4 system prompt by simon Willison


focus sur chatGPT


sources d'info

1 / 0