Mistral OCR 4 : l'IA qui lit ce que vos administrations entassent depuis trente ans
Un document, ce n'est pas un bloc de texte proprement aligné dans un PDF bien sage. C'est une mise en page bancale, un tableau à sept colonnes, une signature griffonnée, une note manuscrite dans la marge que personne ne pourra relire dans vingt ans. Mistral, la fierté tricolore de la tech européenne, a décidé de s'attaquer à ce problème avec OCR 4, présenté le 23 juin 2026. Et pour une fois, l'annonce ne se résume pas à une démo bluffante sur Twitter.
L'OCR reconnaissance optique de caractères, pour ceux qui découvrent existe depuis des décennies. Pas besoin de l'IA pour scanner un document et en extraire du texte. Là où OCR 4 change de niveau, c'est dans le détail. D'après MarkTechPost, le blog spécialisé qui a disséqué l'outil, le modèle ne se contente pas de lire : il localise chaque bloc de la page avec des cadres de détection, le classe par type (titre, tableau, équation, signature), et attribue un score de confiance à chaque mot. Le système qui reçoit le résultat sait donc non seulement ce qui est écrit, mais où, et à quel point la machine est sûre d'elle.
170 langues prises en charge. Y compris des langues peu documentées que la plupart des outils lisent comme un gosse de CE1 lirait du grec ancien. Le modèle tourne dans un seul conteneur, s'héberge en interne, et coûte 4 dollars pour 1 000 pages soit environ 3,70 €, ou 2 dollars en traitement par lots. Pour une technologie capable de lire des manuscrits historiques et des formulaires CERFA remplis au stylo bille par un fonctionnaire pressé, c'est honnête.
Face aux modèles chinois, Mistral joue la carte souveraineté
Mistral n'est pas seul. 2025 et 2026 ont vu déferler une vague de petits modèles OCR spécialisés, en grande partie chinois et souvent open source : DeepSeek-OCR, PaddleOCR-VL de Baidu, Qwen3-VL d'Alibaba. Plusieurs trustent les premières places du classement OmniDocBench, la référence du secteur. Les géants américains ne sont pas en reste : Google avec Document AI, Microsoft avec Azure, sans oublier les modèles de vision généralistes comme Gemini.
Face à ce beau monde, Mistral avance deux arguments. Le premier, statistique : des annotateurs indépendants ont comparé OCR 4 à chaque concurrent sur plus de 600 documents réels dans plus de 12 langues, et l'ont préféré dans 72 % des cas en moyenne. Vous m'avez bien lu. 72 %.
Le second argument est plus tangible et franchement plus intéressant pour les organisations qui nous lisent : la possibilité de faire tourner le modèle sur ses propres serveurs, sans envoyer ses documents sensibles vers le cloud d'un tiers. Pour un particulier, c'est anecdotique. Pour une administration publique, un service de l'État ou une entreprise qui brasse des données confidentielles, c'est tout sauf un détail. C'est même exactement ce que les juristes appellent la conformité RGPD sans les migraines.
Les archives françaises : le chantier dont personne ne parle assez
L'enjeu réel n'est pas dans la démo. Il est dans le volume.
Mistral cite des usages déjà en place : transformer des factures en champs structurés, numériser des archives d'entreprise, extraire du texte propre depuis des rapports techniques. Formulaires remplis à la main, cartons de dossiers qui dorment depuis des lustres, documents administratifs que personne n'a les moyens de ressaisir manuellement, c'est là que la lecture manuscrite et la gestion des tableaux complexes deviennent utiles.
On pense forcément à notre bon vieux pays, gangréné par son administrativite aiguë et sa passion des formulaires CERFA en quadruple exemplaire, où la numérisation traîne des pieds depuis des années. Des montagnes de dossiers attendent encore d'être exploitables. Des archives entières dorment dans des sous-sols humides parce que personne n'a le budget pour les ressaisir à la main.
Mistral précise, et c'est important, que son modèle est conçu pour comprendre des documents, pas pour décider. Diagnostic médical, jugement juridique, décision financière à fort enjeu : explicitement écarté. L'outil trie, cherche, structure. Il ne valide pas. C'est déjà considérable. Merci l'IA.
OCR 4 est disponible via API sur Mistral Studio, Amazon SageMaker, Microsoft Foundry, et bientôt sur Snowflake Parse Document.
À très vite,
JD