Beaucoup de promesses d’efficacité de gain de temps.
En realité, un melange de savonette et de fadeur et d’experiences bluffantes.
Notion de jagged frontier.
ce matin:


Ethan Mollick prof à Wharton
même prompt depuis 2021
Homonymie
Donaudampfschiffahrtsgesellschaftskapitän (5 “mots”)et des tâches plus difficiles telles que
Nécessite des modèles, des règles qui sont spécifiques à chaque langue. Le russe ou le français ont besoin de lemmatizers différents de l’anglais.
Quelle est l’unité du texte ?
On pourrait travailler avec
Il faut gérer
https://cloud.google.com/natural-language
Entrez du texte :
“Like everyone, we have definitely felt the impact of AI Overviews. There is only one direction of travel; not only are AIs getting better, but they’re getting better in an exponential fashion,” said Sean Cornwell, chief executive of Immediate Media, which owns the Radio Times and Good Food brands in the UK.


Malheureusement, cette fonctionnalité n’est plus disponible dans la démo NLP de Google.
voir ces slides
Large Language Models
Grands modèles de langage
génération de texte :

Autre exemple
Hier soir j’ai mangé
un camion
temperature = 0 ne veut pas dire determinismeun LLM a une mémoire limité
un LLM fait des réponses aléatoires
d(chat, chien) < d(chat, banane)
Pour les acteurs de type OpenAI, Claude, etc : abonnement et API sont facturés distinctement
Voici une liste élargie de plateformes et services d’IA spécialisés, classés par type d’usage pour te donner un aperçu plus utile que juste une liste brute :
Génération d’images / visuels
Assistant de recherche / gestion des connaissances
Création d’applications / développement
Automatisation & productivité
Création vidéo / audio
Marketing & contenus social
Support client & prospection
IA tout-en-un / plateformes multiplateformes
Éducation & contenus pédagogiques

2024 AI Timeline - Hugginface release dashboards
Distinction majeure entre les modèles open source et closed source
Open source:

Closed source:

Différents niveaux d’ouverture :
Certains modèles sont entièrement ouverts (DeepSeek), partiellement ouverts (Llama, Mistral 7B), ou fermés (OpenAI o1, Claude Sonnet, Gemini)
Si vous avez les poids d’un modèle vous pouvez le fine-tuner sur vos propres données. Version allégée de l’entraînement d’un modèle complet
Comment évaluer et comparer les LLMs ?
Les benchmarks LLM sont des suites de tests qui mesurent la performance des grands modèles de langage sur différentes tâches, comme répondre à des questions, résoudre des problèmes, ou écrire du texte. Ils permettent de comparer les modèles côte à côte.
Défis : Les benchmarks ne reflètent pas toujours l’usage du monde réel, peuvent devenir obsolètes rapidement, et les modèles s’entraînent souvent sur les tests, ce qui signifie que des scores élevés ne garantissent pas toujours une meilleure utilité.
Benchmarks traditionnels :
Problème : Les modèles saturent rapidement ces tests
La nouvelle frontière :
Ceux-ci représentent les limites cognitives de l’humanité

Artificial Analysis Intelligence Index combine les performances sur sept évaluations : MMLU-Pro, GPQA Diamond, Humanity’s Last Exam, LiveCodeBench, SciCode, AIME 2025, et IFBench.


Les modèles open source rattrapent les modèles closed source

du LLM au LLM agentic : mémoire, outils, planification
les agents: newsletter.maartengrootendorst.com/p/a-visual-guide-to-llm-agents
Agent mode: planification + outils + mémoire + … instance serveur
des exemples si besoin pour ancrer
Mon temps: écrire des spécifications comme prompts
personnalité des modèles: le prompt system
Un prompt système est le fichier de politique et de personnalité de niveau racine que chaque demande d’utilisateur doit respecter. … ‘le manuel non officiel’ des vraies capacités et garde-fous d’un modèle.
Mike Caulfield : do a second pass without putting a thumb on the scale almost always leads to a better result.