Prima pagină Articole Mistral a lansat Voxtral, primul său model audio AI open source. Compania promite inteligență artificială vocală cu adevărat utilizabilă în producție

3 minute de citit

Mistral a lansat Voxtral, primul său model audio AI open source. Compania promite inteligență artificială vocală cu adevărat utilizabilă în producție

Remus Suciu

21 iulie 2025

Sursa foto: Jaque Silva/NurPhoto/Shutterstoc / Shutterstock Editorial / Profimedia

Mistral a lansat un model vocal open source care ar putea rivaliza cu AI-ul vocal plătit, precum cele de la ElevenLabs și Hume AI, despre care compania a declarat că acoperă diferența dintre modelele proprietare de recunoaștere vocală și versiunile libere, open source, dar mai predispuse la erori.

Urmărește cele mai noi producții video TechRider.ro
- articolul continuă mai jos -

Startup-ul francez Mistral AI a intrat în cursa audio cu primul său model deschis, open source, cu scopul de a provoca dominația sistemelor corporative închise cu alternative deschise, potrivit TechCrunch. Voxtral este prima sa familie de modele audio ale Mistral AI destinate atât companiilor cât și utilizatorilor finali.

Pe măsură ce sistemele de IA devin mai performante, vorbirea devine rapid modul implicit de comunicare cu mașinile

Voxtral, lansat sub licență Apache 2.0, este disponibil într-o versiune cu 24B parametri și o variantă cu 3B. Modelul mai mare este destinat aplicațiilor la scară largă, în timp ce versiunea mai mică este destinat utilizării locale în principal.

Compania prezintă Voxtral ca fiind primul model deschis capabil să implementeze „inteligență vocală cu adevărat utilizabilă în producție”.

Cu alte cuvinte, dezvoltatorii nu vor mai trebui să aleagă între un sistem ieftin și deschis, care greșește transcrierile și nu înțelege cu adevărat ce se spune, și unul care funcționează bine, dar este închis, lăsând dezvoltatorii cu o factură mai mare și mai puțin control asupra implementării.

Pentru companii, asta înseamnă că Voxtral oferă o alternativă accesibilă, care, potrivit companiei, costă „mai puțin de jumătate din prețul” soluțiilor comparabile.

Mistral afirmă că Voxtral, care folosește o fereastră de context de 32K tokenuri, poate asculta și transcrie până la 30 de minute de audio. Datorită Mistral Small 3.1, modelul LLM pe baza căruia a fost construit, poate înțelege până la 40 de minute, permițând utilizatorilor să pună întrebări despre conținutul audio, să genereze rezumate sau să transforme comenzile vocale în acțiuni în timp real, cum ar fi apelarea API-urilor sau executarea funcțiilor. Voxtral este, de asemenea, multilingv, având capacitatea de a transcriere și înțelege limbi precum engleza, spaniola, franceza, portugheza, hindi, germana, olandeza și italiana.

Sunt disponibile două variante

Compania oferă două variante ale „modelelor sale de înțelegere a vorbirii”. Primul, Voxtral Small, are 24 de miliarde de parametri și este recomandat de compania franceză pentru implementări la scară de producție. Mistral AI afirmă că acesta este competitiv cu ElevenLabs Scribe, GPT-4o-mini și Gemini 2.5 Flash.

Al doilea, Voxtral Mini, are 3 miliarde de parametri și este destinat în principal implementărilor locale și utilizărilor speciale. Există, de asemenea, o versiune API foarte ieftină, simplificată și rapidă a modelului de 3 miliarde, numită Voxtral Mini Transcribe, care este optimizată pentru cazuri de utilizare exclusiv pentru transcriere.

Performanța promisă în anunțul de lansare

Recunoașterea vocală AI este disponibilă astăzi pe multe platforme. Utilizatorii pot vorbi cu ChatGPT, iar platforma va procesa instrucțiunile vocale în mod similar cu instrucțiunile scrise. Lanțurile de fast-food precum White Castle au implementat SoundHound în serviciile lor drive-thru, iar ElevenLabs și-a îmbunătățit constant platforma multimodală. Spațiul open-source oferă, de asemenea, opțiuni puternice. Startup-ul Nari Labs a lansat în aprilie modelul de recunoaștere vocală open-source Dia. Cu toate acestea, unele dintre aceste servicii pot fi destul de costisitoare.

Serviciile de transcriere precum Otter și Read.ai se pot integra acum în întâlnirile Zoom, înregistrând, rezumând și chiar alertând utilizatorii cu privire la elementele care necesită acțiune. Multe platforme de întâlniri video online oferă nu doar transcriere, ci și AI vocal și AI agentic, Google Meetings oferind opțiunea de a lua notițe pentru utilizatorii care folosesc Gemini. Însă, ca orice tehnologie nouă AI-ul pentru recunoaștere vocală nu este perfect, dar se îmbunătățește.

Mistral a declarat că Voxtral a depășit modelele vocale existente, inclusiv Whisper de la OpenAI, Gemini 2.5 Flash și Scribe de la ElevenLabs. Voxtral a prezentat mai puține erori de cuvinte în comparație cu Whisper, care este considerat în prezent cel mai bun model de recunoaștere automată a vorbirii disponibil, și reușește această performanta la mai puțin de jumătate din preț.

În ceea ce privește înțelegerea audio, Voxtral Small este „competitiv cu GPT-4o-mini și Gemini 2.5 Flash în toate sarcinile, atingând performanțe de ultimă generație în traducerea vorbirii”.

De la anunțarea Voxtral, utilizatorii rețelelor sociale au declarat că așteptau un model de vorbire open-source care să poată egala performanța Whisper.

Puteți încerca Voxtral gratuit descărcând amândouă variantele de pe Hugging Face sau testând modelele în chatbotul Mistral, Le Chat. Integrarea API-ului în aplicații începe de la 0,001 dolari pe minut, potrivit companiei.

Lansarea vine la o lună după ce Mistral a anunțat Magistral, prima sa familie de modele de raționament care rezolvă problemele pas cu pas pentru o fiabilitate îmbunătățită.

Mistral, una dintre cele mai importante firme de IA din Europa și este recunoscută pentru promovarea modelelor de AI open source.

Remus Suciu

Hand-Picked Top-Read Stories

Topul companiilor după vânzările de roboți umanoizi în 2025 / China domină piața globală

Netflix lansează în cinema debutul animației „Stranger Things”

Un nou sistem bazat pe scanarea irisului promite să limiteze abuzurile generate de armatele de agenți AI care pot copleși platformele online

Trending Tags

Mistral a lansat Voxtral, primul său model audio AI open source. Compania promite inteligență artificială vocală cu adevărat utilizabilă în producție

Urmărește cele mai noi producții video TechRider.ro

- articolul continuă mai jos -

Pe măsură ce sistemele de IA devin mai performante, vorbirea devine rapid modul implicit de comunicare cu mașinile

Sunt disponibile două variante

Performanța promisă în anunțul de lansare

Lasă un răspuns Anulează răspunsul

Topul companiilor după vânzările de roboți umanoizi în 2025 / China domină piața globală

Netflix lansează în cinema debutul animației „Stranger Things”

Un nou sistem bazat pe scanarea irisului promite să limiteze abuzurile generate de armatele de agenți AI care pot copleși platformele online

Mistral a lansat Voxtral, primul său model audio AI open source. Compania promite inteligență artificială vocală cu adevărat utilizabilă în producție

Urmărește cele mai noi producții video TechRider.ro

- articolul continuă mai jos -

Pe măsură ce sistemele de IA devin mai performante, vorbirea devine rapid modul implicit de comunicare cu mașinile

Sunt disponibile două variante

Performanța promisă în anunțul de lansare

Lasă un răspuns Anulează răspunsul

Citește si...

ChatGPT nu urmează reguli. Preferă, mai degrabă, exemple și analogii, la fel ca oamenii

Apple ar putea lansa un nou MacBook Air săptămâna aceasta / Noul model promite până la două ore de autonomie în plus

Internetul pur a dispărut. Unii cercetători încearcă acum să salveze ceea ce a mai rămas din web-ul scris de oameni