Mistral OCR dokładnie konwertuje złożone dokumenty na edytowalne pliki za pomocą sztucznej inteligencji

Mistral OCR wykorzystuje sztuczną inteligencję do dokładnej konwersji dokumentów drukowanych i PDF na pliki edytowalne. (Źródło obrazu: Mistral)

Firma Mistral zaprezentowała swój interfejs API optycznego rozpoznawania znaków do użytku przez firmy w celu szybkiego i dokładnego konwertowania dużych ilości dokumentów na edytowalne pliki cyfrowe.

David Chien (tłumaczenie Ninh Duy), Opublikowany 11/03/2025 🇺🇸 🇫🇷 ...

Launch Business Software AI

Firma Mistral wprowadziła na rynek nowy produkt o nazwie Mistral OCR, oparty na sztucznej inteligencji interfejs API do optycznego rozpoznawania znaków, zaprojektowany z myślą o konwersji drukowanych dokumentów na pliki cyfrowe.

Istnieją miliony drukowanych dokumentów i nieedytowalnych plików PDF, w tym stare akty urodzenia i książki. Oprogramowanie do optycznego rozpoznawania znaków konwertuje tekst i układ tych materiałów źródłowych na edytowalne pliki cyfrowe. Chociaż oprogramowanie OCR z łatwością konwertuje zwykłe dokumenty tekstowe, często ma problemy ze złożonymi tabelami i wykresami, a także językami obcymi.

Mistral OCR został stworzony specjalnie z myślą o wielojęzycznej, złożonej konwersji dokumentów. Dokładność Mistral w konwersji tekstu w 11 językach waha się od 97,00% do 99,54%, co jest wynikiem lepszym niż w przypadku ofert Microsoft i Google AI OCR. Jego dokładność jest również wyższa niż testowanych konkurentów w przypadku złożonych konwersji dokumentów, takich jak te obejmujące matematykę lub tabele.

Interfejs API Mistral OCR jest obecnie ograniczony do przesyłanych dokumentów o rozmiarze mniejszym niż 50 MB i długości mniejszej niż 1000 stron. Drukowane dokumenty muszą być najpierw zdigitalizowane przez skanery , takie jak ten na Amazon, podczas gdy pliki PDF, obrazy i strony internetowe mogą być przetwarzane bezpośrednio.

Mistral OCR działa lepiej niż konkurencja na złożonych dokumentach. (Źródło obrazu: Mistral)

Mistral OCR radzi sobie z konwersją tekstu w kilkunastu językach lepiej niż konkurencja. (Źródło obrazu: Mistral)

Do korzystania z Mistral OCR API wymagane jest tylko kilka linijek kodu Python. (Źródło obrazu: Mistral)

▶ load Youtube video

Źródło(a)

Komunikat prasowy Mistral, Mistral na YouTube

▶ ▼ Informacja prasowa

Mistral OCR

Przedstawiamy najlepszy na świecie interfejs API do rozpoznawania dokumentów.

Badania

6 marca 2025 r

Zespół Mistral AI

W całej historii postęp w abstrakcji i wyszukiwaniu informacji napędzał ludzki postęp. Od hieroglifów po papirusy, od prasy drukarskiej po cyfryzację, każdy skok sprawił, że ludzka wiedza stała się bardziej dostępna i możliwa do wykorzystania, napędzając dalsze innowacje.

Dziś jesteśmy u progu kolejnego wielkiego skoku - odblokowania zbiorowej inteligencji wszystkich zdigitalizowanych informacji. Około 90% danych organizacyjnych na świecie jest przechowywanych w postaci dokumentów i aby wykorzystać ten potencjał, wprowadzamy Mistral OCR.

Mistral OCR to interfejs API optycznego rozpoznawania znaków, który wyznacza nowy standard rozumienia dokumentów. W przeciwieństwie do innych modeli, Mistral OCR rozumie każdy element dokumentów - media, tekst, tabele, równania - z niespotykaną dokładnością i poznaniem. Przyjmuje obrazy i pliki PDF jako dane wejściowe i wyodrębnia zawartość w uporządkowanym, przeplatanym tekście i obrazach.

W rezultacie Mistral OCR jest idealnym modelem do wykorzystania w połączeniu z systemem RAG przyjmującym jako dane wejściowe dokumenty multimodalne (takie jak slajdy lub złożone pliki PDF).

Uczyniliśmy Mistral OCR domyślnym modelem rozumienia dokumentów dla milionów użytkowników Le Chat i udostępniamy API mistral-ocr-latest w cenie 1000 stron za dolara (i około dwukrotnie więcej stron za dolara z wnioskowaniem wsadowym). API jest dostępne już dziś w naszym pakiecie deweloperskim la Plateforme, a wkrótce będzie dostępne dla naszych partnerów w chmurze i inferencji, a także lokalnie.

Najważniejsze cechy

Najnowocześniejsze rozumienie złożonych dokumentów

Natywnie wielojęzyczne i multimodalne

Najwyższy poziom testów porównawczych

Najszybszy w swojej kategorii

Ustrukturyzowane dane wyjściowe w formie dokumentów

Selektywnie dostępny do samodzielnego hostowania dla organizacji zajmujących się wysoce wrażliwymi lub niejawnymi informacjami

Przyjrzyjmy się każdemu z nich.

Najnowocześniejsze rozumienie złożonych dokumentów

Mistral OCR doskonale radzi sobie ze zrozumieniem złożonych elementów dokumentów, w tym przeplatanych obrazów, wyrażeń matematycznych, tabel i zaawansowanych układów, takich jak formatowanie LaTeX. Model umożliwia głębsze zrozumienie bogatych dokumentów, takich jak prace naukowe z wykresami, grafami, równaniami i liczbami.

Poniżej znajduje się przykład modelu wyodrębniającego tekst oraz obrazy z danego pliku PDF do pliku markdown. Dostęp do notatnika można uzyskać tutaj.

Poniżej znajduje się porównanie plików PDF i ich wyników OCR. Proszę najechać kursorem na suwak, aby przełączać się między danymi wejściowymi i wyjściowymi.

Tabele + rysunki

3 Przykład

Wynik OCR

3 Ocr

Matematyka

4 Przykład

Wynik OCR

4 Ocr

Hindi

5 Przykład

Wynik OCR

Hindi Ocr

Dokument

6 Przykład

Wynik OCR

6 Ocr

Arabski

7 Przykład

Wynik OCR

Arabski OCR

Najlepsze testy porównawcze

Mistral OCR konsekwentnie przewyższa inne wiodące modele OCR w rygorystycznych testach porównawczych. Jego najwyższą dokładność w wielu aspektach analizy dokumentów zilustrowano poniżej. Wyodrębniamy osadzone obrazy z dokumentów wraz z tekstem. Inne porównywane poniżej modele LLM nie mają takiej możliwości. Aby uzyskać rzetelne porównanie, oceniamy je na naszym wewnętrznym zestawie testowym "tylko tekst" zawierającym różne publikacje i pliki PDF z Internetu; poniżej:

Model Ogólny Matematyczny Wielojęzyczny Zeskanowany Tabele

Google Document AI 83,42 80,29 86,42 92,77 78,16

Azure OCR 89.52 85.72 87.52 94.65 89.52

Gemini-1.5-Flash-002 90.23 89.11 86.76 94.87 90.48

Gemini-1.5-Pro-002 89.92 88.48 86.33 96.15 89.71

Gemini-2.0-Flash-001 88.69 84.18 85.80 95.11 91.46

GPT-4o-2024-11-20 89.77 87.55 86.00 94.58 91.70

Mistral OCR 2503 94.89 94.29 89.55 98.96 96.12

Natywnie wielojęzyczny

Od momentu powstania firmy Mistral aspirowaliśmy do służenia światu naszymi modelami, a co za tym idzie, dążyliśmy do zapewnienia wielojęzycznych możliwości w całej naszej ofercie. Mistral OCR przenosi to na nowy poziom, będąc w stanie analizować, rozumieć i transkrybować tysiące skryptów, czcionek i języków na wszystkich kontynentach. Ta wszechstronność ma kluczowe znaczenie zarówno dla globalnych organizacji, które obsługują dokumenty z różnych środowisk językowych, jak i dla hiperlokalnych firm obsługujących niszowe rynki.

Model Fuzzy Match in Generation

Google-Document-AI 95.88

Gemini-2.0-Flash-001 96.53

Azure OCR 97.31

Mistral OCR 2503 99.02

Testy porównawcze według języka:

Język Azure OCR Google Doc AI Gemini-2.0-Flash-001 Mistral OCR 2503

ru 97.35 95.56 96.58 99.09

fr 97.50 96.36 97.06 99.20

hi 96.45 95.65 94.99 97.55

zh 91.40 90.89 91.85 97.11

pt 97.96 96.24 97.25 99.42

de 98.39 97.09 97.19 99.51

es 98.54 97.52 97.75 99.54

tr 95.91 93.85 94.66 97.00

uk 97.81 96.24 96.70 99.29

it 98.31 97.69 97.68 99.42

ro 96.45 95.14 95.88 98.79

Najszybszy w swojej kategorii

Będąc lżejszym niż większość modeli w tej kategorii, Mistral OCR działa znacznie szybciej niż jego odpowiedniki, przetwarzając do 2000 stron na minutę w jednym węźle. Zdolność do szybkiego przetwarzania dokumentów zapewnia ciągłe uczenie się i doskonalenie nawet w środowiskach o wysokiej przepustowości.

Dokument jako monit, ustrukturyzowane dane wyjściowe

Mistral OCR wprowadza również wykorzystanie dokumentów jako podpowiedzi, umożliwiając bardziej wydajne i precyzyjne instrukcje. Ta funkcja pozwala użytkownikom wyodrębniać określone informacje z dokumentów i formatować je w ustrukturyzowanych danych wyjściowych, takich jak JSON. Użytkownicy mogą łączyć wyodrębnione dane wyjściowe w kolejne wywołania funkcji i tworzyć agenty. Proszę zobaczyć ten przykładowy notatnik.

Dostępne do samodzielnego hostowania na zasadzie selektywnej

Dla organizacji o rygorystycznych wymaganiach dotyczących prywatności danych, Mistral OCR oferuje opcję samodzielnego hostingu. Gwarantuje to, że poufne lub niejawne informacje pozostaną bezpieczne w Państwa własnej infrastrukturze, zapewniając zgodność ze standardami regulacyjnymi i bezpieczeństwa. Jeśli chcieliby Państwo zbadać z nami możliwość samodzielnego wdrożenia, prosimy o kontakt.

Przypadki użycia

Umożliwiamy naszym klientom w wersji beta poszerzanie wiedzy organizacyjnej poprzez przekształcanie ich obszernych repozytoriów dokumentów w działania i rozwiązania. Niektóre z kluczowych przypadków użycia, w których nasza technologia ma znaczący wpływ, obejmują

Digitalizacja badań naukowych: Wiodące instytucje badawcze eksperymentują z Mistral OCR w celu konwersji artykułów naukowych i czasopism do formatów gotowych na sztuczną inteligencję, dzięki czemu są one dostępne dla dalszych silników wywiadowczych. Ułatwiło to wymiernie szybszą współpracę i przyspieszyło naukowe przepływy pracy.

Ochrona dziedzictwa historycznego i kulturowego: Organizacje i organizacje non-profit, które są opiekunami dziedzictwa kulturowego, używają Mistral OCR do digitalizacji historycznych dokumentów i artefaktów, zapewniając ich zachowanie i udostępniając je szerszej publiczności.

Usprawnienie obsługi klienta: Działy obsługi klienta wykorzystują Mistral OCR do przekształcania dokumentacji i podręczników w zindeksowaną wiedzę, skracając czas reakcji i zwiększając zadowolenie klientów.

Przygotowanie literatury z zakresu projektowania, edukacji, prawa itp. AI ready: Mistral OCR pomaga również firmom przekształcać literaturę techniczną, rysunki inżynieryjne, notatki z wykładów, prezentacje, dokumenty regulacyjne i wiele innych w zindeksowane, gotowe do odpowiedzi formaty, odblokowując inteligencję i produktywność w milionach dokumentów.

Proszę przekonać się już dziś

Możliwości Mistral OCR można wypróbować bezpłatnie na le Chat. Aby wypróbować API, proszę przejść do la Plateforme. Chętnie poznamy Państwa opinie; spodziewamy się, że w nadchodzących tygodniach model będzie jeszcze lepszy. W ramach naszych strategicznych programów zaangażowania będziemy również oferować wdrożenie lokalne na zasadzie selektywności.

Podstawowe specyfikacje GPU RTX 505...

Telewizor TCL X11K QD-Mini LED z no...

Editor of the original article: David Chien - Tech Writer - 525 articles published on Notebookcheck since 2023

Translator: Ninh Ngoc Duy - Editorial Assistant - 521685 articles published on Notebookcheck since 2008

contact me via: Facebook

Please share our article, every link counts!

> laptopy testy i recenzje notebooki > Nowinki > Archiwum v2 > Archiwum 2025 03 > Mistral OCR dokładnie konwertuje złożone dokumenty na edytowalne pliki za pomocą sztucznej inteligencji

David Chien, 2025-03-11 (Update: 2025-03-11)