Mistral a lansat un model vocal open source care ar putea rivaliza cu AI-ul vocal plătit, precum cele de la ElevenLabs și Hume AI, despre care compania a declarat că acoperă diferența dintre modelele proprietare de recunoaștere vocală și versiunile libere, open source, dar mai predispuse la erori.
Urmărește cele mai noi producții video TechRider.ro
- articolul continuă mai jos -
Startup-ul francez Mistral AI a intrat în cursa audio cu primul său model deschis, open source, cu scopul de a provoca dominația sistemelor corporative închise cu alternative deschise, potrivit TechCrunch. Voxtral este prima sa familie de modele audio ale Mistral AI destinate atât companiilor cât și utilizatorilor finali.
Pe măsură ce sistemele de IA devin mai performante, vorbirea devine rapid modul implicit de comunicare cu mașinile
Voxtral, lansat sub licență Apache 2.0, este disponibil într-o versiune cu 24B parametri și o variantă cu 3B. Modelul mai mare este destinat aplicațiilor la scară largă, în timp ce versiunea mai mică este destinat utilizării locale în principal.
Compania prezintă Voxtral ca fiind primul model deschis capabil să implementeze „inteligență vocală cu adevărat utilizabilă în producție”.
Cu alte cuvinte, dezvoltatorii nu vor mai trebui să aleagă între un sistem ieftin și deschis, care greșește transcrierile și nu înțelege cu adevărat ce se spune, și unul care funcționează bine, dar este închis, lăsând dezvoltatorii cu o factură mai mare și mai puțin control asupra implementării.
Pentru companii, asta înseamnă că Voxtral oferă o alternativă accesibilă, care, potrivit companiei, costă „mai puțin de jumătate din prețul” soluțiilor comparabile.
Mistral afirmă că Voxtral, care folosește o fereastră de context de 32K tokenuri, poate asculta și transcrie până la 30 de minute de audio. Datorită Mistral Small 3.1, modelul LLM pe baza căruia a fost construit, poate înțelege până la 40 de minute, permițând utilizatorilor să pună întrebări despre conținutul audio, să genereze rezumate sau să transforme comenzile vocale în acțiuni în timp real, cum ar fi apelarea API-urilor sau executarea funcțiilor. Voxtral este, de asemenea, multilingv, având capacitatea de a transcriere și înțelege limbi precum engleza, spaniola, franceza, portugheza, hindi, germana, olandeza și italiana.
Sunt disponibile două variante
Compania oferă două variante ale „modelelor sale de înțelegere a vorbirii”. Primul, Voxtral Small, are 24 de miliarde de parametri și este recomandat de compania franceză pentru implementări la scară de producție. Mistral AI afirmă că acesta este competitiv cu ElevenLabs Scribe, GPT-4o-mini și Gemini 2.5 Flash.
Al doilea, Voxtral Mini, are 3 miliarde de parametri și este destinat în principal implementărilor locale și utilizărilor speciale. Există, de asemenea, o versiune API foarte ieftină, simplificată și rapidă a modelului de 3 miliarde, numită Voxtral Mini Transcribe, care este optimizată pentru cazuri de utilizare exclusiv pentru transcriere.
Performanța promisă în anunțul de lansare
Recunoașterea vocală AI este disponibilă astăzi pe multe platforme. Utilizatorii pot vorbi cu ChatGPT, iar platforma va procesa instrucțiunile vocale în mod similar cu instrucțiunile scrise. Lanțurile de fast-food precum White Castle au implementat SoundHound în serviciile lor drive-thru, iar ElevenLabs și-a îmbunătățit constant platforma multimodală. Spațiul open-source oferă, de asemenea, opțiuni puternice. Startup-ul Nari Labs a lansat în aprilie modelul de recunoaștere vocală open-source Dia. Cu toate acestea, unele dintre aceste servicii pot fi destul de costisitoare.
Serviciile de transcriere precum Otter și Read.ai se pot integra acum în întâlnirile Zoom, înregistrând, rezumând și chiar alertând utilizatorii cu privire la elementele care necesită acțiune. Multe platforme de întâlniri video online oferă nu doar transcriere, ci și AI vocal și AI agentic, Google Meetings oferind opțiunea de a lua notițe pentru utilizatorii care folosesc Gemini. Însă, ca orice tehnologie nouă AI-ul pentru recunoaștere vocală nu este perfect, dar se îmbunătățește.
Mistral a declarat că Voxtral a depășit modelele vocale existente, inclusiv Whisper de la OpenAI, Gemini 2.5 Flash și Scribe de la ElevenLabs. Voxtral a prezentat mai puține erori de cuvinte în comparație cu Whisper, care este considerat în prezent cel mai bun model de recunoaștere automată a vorbirii disponibil, și reușește această performanta la mai puțin de jumătate din preț.
În ceea ce privește înțelegerea audio, Voxtral Small este „competitiv cu GPT-4o-mini și Gemini 2.5 Flash în toate sarcinile, atingând performanțe de ultimă generație în traducerea vorbirii”.
De la anunțarea Voxtral, utilizatorii rețelelor sociale au declarat că așteptau un model de vorbire open-source care să poată egala performanța Whisper.
Puteți încerca Voxtral gratuit descărcând amândouă variantele de pe Hugging Face sau testând modelele în chatbotul Mistral, Le Chat. Integrarea API-ului în aplicații începe de la 0,001 dolari pe minut, potrivit companiei.
Lansarea vine la o lună după ce Mistral a anunțat Magistral, prima sa familie de modele de raționament care rezolvă problemele pas cu pas pentru o fiabilitate îmbunătățită.
Mistral, una dintre cele mai importante firme de IA din Europa și este recunoscută pentru promovarea modelelor de AI open source.