- tokens,
- prediction du prochain token suivant une distribution de probabilité
d(chat, chien) < d(chat, banane)
Pour les acteurs de type OpenAI, Claude, etc : abonnement et API sont facturés distinctement
2024 AI Timeline - Hugginface release dashboards
Distinction majeure entre les modèles open source et closed source
Open source:
Closed source:
Différents niveaux d’ouverture :
Certains modèles sont entièrement ouverts (DeepSeek), partiellement ouverts (Llama, Mistral 7B), ou fermés (OpenAI o1, Claude Sonnet, Gemini)
Si vous avez les poids d’un modèle vous pouvez le fine-tuner sur vos propres données. Version allégée de l’entraînement d’un modèle complet
Comment évaluer et comparer les LLMs ?
Les benchmarks LLM sont des tests qui mesurent la performance des grands modèles de langage sur différentes tâches, comme répondre à des questions, résoudre des problèmes, ou écrire du texte. Ils permettent de comparer les modèles côte à côte.
Défis : Les benchmarks ne reflètent pas toujours l’usage du monde réel, peuvent devenir obsolètes rapidement, et les modèles s’entraînent souvent “pour le test”, ce qui signifie que des scores élevés ne garantissent pas toujours une meilleure utilité.
Benchmarks traditionnels :
Problème : Les modèles saturent rapidement ces tests
La nouvelle frontière :
Ceux-ci représentent les limites cognitives de l’humanité
Artificial Analysis Intelligence Index combine les performances sur sept évaluations : MMLU-Pro, GPQA Diamond, Humanity’s Last Exam, LiveCodeBench, SciCode, AIME 2025, et IFBench.
Les modèles open source rattrapent les modèles closed source
du LLM au LLM agentic : mémoire, outils, planification
les agents: newsletter.maartengrootendorst.com/p/a-visual-guide-to-llm-agents
Agent mode: planification + outils + mémoire + … instance serveur
des exemples si besoin pour ancrer
Mon temps: écrire des spécifications comme prompts
personnalité des modèles: le prompt system
Un prompt système est le fichier de politique et de personnalité de niveau racine que chaque demande d’utilisateur doit respecter. … ‘le manuel non officiel’ des vraies capacités et garde-fous d’un modèle.
https://simonwillison.net/2025/May/25/claude-4-system-prompt/
Mike Caulfield : do a second pass without putting a thumb on the scale almost always leads to a better result.