
L’essentiel
- Mistral OCR 4 ajoute aux textes extraits des boîtes englobantes, une classification de blocs typés (titres, tableaux, équations, signatures) et un score de confiance par région.
- Le modèle couvre 170 langues, tient dans un conteneur unique pour un déploiement auto-hébergé, et revendique 85,20 sur OlmOCRBench avec un taux de préférence moyen de 72 % face aux systèmes concurrents.
- Cette structure est conçue pour alimenter les citations ancrées à la source et le découpage (chunking) sémantique du RAG et de la recherche d’entreprise.
Vous confiez à un agent IA un contrat de 80 pages, et vous lui demandez une synthèse sourcée. Il vous renvoie une réponse propre, assortie d’une citation. Sauf que la citation pointe vers le mauvais paragraphe, ou vers une ligne d’en-tête qui n’a rien à voir. Pourquoi cette erreur, alors que le texte semblait correctement lu ?
La réponse tient dans une étape qu’on regarde rarement : l’ingestion. Et c’est précisément là que Mistral vient de pousser un nouveau modèle, OCR 4, annoncé le 23 juin sur mistral.ai. Derrière le sigle OCR (reconnaissance optique de caractères, la conversion d’une image de page en texte), il ne s’agit pas d’une simple mise à jour cosmétique.
Le maillon faible, c’est l’entrée
Un agent ne vaut que ce qu’il lit. Si la couche qui transforme un PDF en texte se contente de recracher des caractères dans le désordre, tout ce qui suit hérite du désordre. Le modèle de langage le plus brillant ne devine pas qu’un nombre isolé était en réalité une cellule de tableau, ni qu’une ligne en gras était un titre de section.
Jusqu’ici, l’OCR jouait le rôle d’une photocopieuse un peu douée : elle vous rendait le texte, à plat, sans vous dire à quoi il servait. OCR 4 change de métier. Au lieu de livrer une page convertie en texte propre, il renvoie une représentation structurée du document.
Ce que change une boîte englobante
Concrètement, OCR 4 ajoute trois choses au texte extrait. D’abord des boîtes englobantes (bounding boxes), c’est-à-dire les coordonnées exactes de chaque bloc sur la page. Ensuite une classification : ce bloc est un titre, celui-là un tableau, cet autre une équation ou une signature. Enfin un score de confiance, calculé par page et par mot, qui indique à quel point le modèle est sûr de sa lecture sur chaque région.
Reprenons l’analogie. OCR 4 ne photocopie plus le document : il l’annote, comme le ferait un documentaliste. « Ici un titre, là un tableau, là une signature, et je suis fiable à 98 % sur ce passage, beaucoup moins sur celui-ci. » Le système en aval ne sait donc plus seulement ce que dit le document, mais aussi où chaque élément se trouve, quel rôle il joue, et avec quelle certitude il a été lu.
Pourquoi le RAG attendait ça
Le RAG (Retrieval-Augmented Generation, ces architectures où le modèle va chercher des passages dans une base documentaire avant de répondre) repose sur une opération discrète mais décisive : le chunking, le découpage du document en morceaux qu’on indexera et qu’on ressortira à la demande. Découpez mal, et vous récupérez des fragments coupés au milieu d’une phrase, des bouts de tableaux orphelins, des en-têtes mêlés au corps de texte. La meilleure recherche du monde retombe alors sur de la bouillie.
Avec des blocs déjà classés et délimités, le découpage cesse d’être un pari. Un tableau reste un tableau, une section reste entière. Mistral présente d’ailleurs OCR 4 comme une brique d’ingestion de son Search Toolkit, son cadre de recherche open source : la sortie structurée alimente directement les workflows d’indexation et d’évaluation.
Les boîtes englobantes, présentées comme la fonctionnalité la plus demandée, servent l’autre moitié du problème : la citation. Quand chaque passage extrait connaît sa position exacte sur la page, l’agent peut surligner la phrase précise qui fonde sa réponse, et la citation devient vérifiable au lieu d’être approximative. Le score de confiance, lui, ouvre la porte à la supervision humaine ciblée : on ne relit pas tout, on relit les régions où le modèle doute.
De la lecture à l’action
L’enjeu déborde le simple confort de lecture. Mistral décrit le passage d’agents qui lisent des documents à des agents qui agissent dessus : remplir un formulaire, traiter une facture, vérifier une conformité. Or on ne déclenche pas une action métier sur un texte plat ; on la déclenche sur des champs identifiés, localisés, et assortis d’un niveau de confiance. La structure typée fournit ces primitives.
Côté déploiement, le modèle est compact au point de tenir dans un conteneur unique, et peut tourner entièrement auto-hébergé : les documents ne quittent jamais l’environnement de l’entreprise, argument de poids pour la résidence des données et la souveraineté. Il couvre 170 langues réparties en 10 groupes linguistiques, avec des gains annoncés sur les langues spécialisées et peu dotées, là où plusieurs concurrents décrochent. Les boîtes englobantes et les scores de confiance ne sont d’ailleurs pas une exclusivité maison : Amazon Textract comme Google Document AI les renvoient déjà pour aiguiller les passages douteux vers une relecture humaine. La singularité de Mistral tient plutôt à cet ensemble auto-hébergeable et à l’ampleur de sa couverture linguistique.
Les chiffres, et leurs angles morts
Sur les performances, Mistral avance un taux de préférence moyen de 72 % chez des annotateurs indépendants face aux principaux systèmes d’OCR et d’analyse documentaire testés, et le meilleur score global sur OlmOCRBench, à 85,20. Des chiffres flatteurs, mais l’éditeur prend soin de signaler lui-même les limites connues de ces benchmarks. C’est honnête, et c’est aussi un rappel utile : un classement public ne dit rien de vos documents à vous, avec leurs tableaux tordus et leurs scans médiocres. La vraie évaluation se fera sur vos propres corpus.
Reste que la promesse est cohérente avec ce qui manquait. La course aux modèles qui raisonnent et qui rédigent a longtemps éclipsé la porte d’entrée par laquelle les documents arrivent. Une couche d’ingestion qui rend la structure explicite, c’est moins spectaculaire qu’un nouveau modèle de raisonnement, mais c’est exactement ce dont une chaîne RAG a besoin pour cesser d’halluciner ses sources.
Mon avis
Je parie que la prochaine vague de gains en fiabilité des agents ne viendra pas des modèles de langage, mais de cette couche d’ingestion qu’on snobait. Pendant deux ans, on a sur-investi le raisonnement et sous-investi l’entrée des données, alors que la majorité des citations fausses naissent là, dans un découpage bâclé. Un OCR qui rend la structure et le doute explicites attaque le problème à la racine. Et je serais surpris que les autres éditeurs laissent passer ce terrain encore longtemps.
