O lucrare produsă de modelul The AI Scientist-v2 de la Sakana AI a trecut de procesul de evaluare inter pares (în engleză peer review) la un atelier de lucru în cadrul unei conferințe internaționale de top AI Conferința internațională privind reprezentările învățării (inteligență artificială) ICLR.
Startup-ul japonez Sakana a spus că sistemul AI propriu a generat una dintre primele publicații științifice evaluate de colegi. Dar, deși afirmația nu este neapărat neadevărată, există note de reținut.
Dezbaterea care se învârte în jurul AI și rolul acesteia în procesul științific devine din ce în ce mai acerbă. Mulți cercetători nu cred că inteligența artificială este destul de pregătită să servească drept „om de știință-colaborator”, în timp ce alții cred că există potențial, dar recunosc că suntem încă în stare incipientă.
Compania a spus că a folosit un sistem AI numit The AI Scientist-v2 pentru a genera o lucrare pe care Sakana a prezentat-o apoi la un workshop la ICLR (International Conference on Learning Representations), o conferință AI de lungă durată și de renume. Sakana susține că organizatorii atelierului, precum și conducerea ICLR, au fost de acord să colaboreze cu compania pentru a efectua un experiment de revizuire dublu-orb a manuscriselor generate de AI.
În revizuirea dublu-orb evaluatorii au fost informați despre posibilitatea unui conținut generat de AI, dar nu li s-a spus ce articole au fost produse de The AI Scientist.
Sakana a spus că a colaborat cu cercetătorii de la Universitatea din Columbia Britanică și de la Universitatea din Oxford pentru a trimite trei lucrări generate de inteligență artificială la atelierul menționat mai sus pentru evaluarea inter pares.
AI Scientist-v2 a acceptat provocarea de a produce o publicație științifică de la zero. I s-a dat doar un subiect amplu de cercetare, relevant pentru atelier, pe baza căruia sistemul in mod independent a făcut următoarele:
A formulat o ipoteză științifică,
A propus proiecte experimentale,
A dezvoltat și rafinat cod software,
A efectuat experimente,
A analizat și vizualizat date și
A scris un manuscris complet de la titlu la referințe.
Acest proces a dus la o lucrare intitulată „Regularizare compozițională: Obstacole neașteptate în îmbunătățirea generalizării rețelelor neuronale”. Manuscrisul, care a raportat un rezultat negativ în inovarea metodelor de regularizare pentru rețelele neuronale, a obținut un scor mediu de recenzent de 6,33, peste pragul de acceptare pentru workshop.
Experimentul a implicat trimiterea a trei lucrări în întregime generate de AI la atelierul ICLR care este specializat în explorarea limitărilor și provocărilor practice ale învățării profunde.
Dintre cele trei, doar o lucrare a depășit ștacheta pentru acceptare, dar faptul că a obținut un punctaj competitiv alături de lucrări scrise de oameni este un semn promițător.
Puncte cheie din evaluare:
Generare de la capăt la capăt: AI Scientist-v2 a generat fiecare aspect al lucrării, de la ipoteză până la formatarea finală, fără modificări umane.
Rezultatele revizuirii: Lucrarea acceptată a primit scoruri de 6, 7 și 6 în diferite runde de revizuire, indicând o calitate la egalitate cu multe lucrări de autor.
Proces dublu-orb: evaluatorii s-au implicat cu lucrarea în conformitate cu liniile directoare standard ale conferinței, subliniind că calitatea muncii generate de AI poate fi evaluată riguros.
Proiectul a fost executat cu deplină transparență și supraveghere etică. Cu sprijinul atât din partea conducerii ICLR, cât și din partea IRB a Universității din Columbia Britanică, experimentul a aderat la un cod etic strict. Decizia de a retrage lucrarea după revizuirea reflectă o dezbatere mai largă a comunității: manuscrisele generate de inteligența artificială ar trebui publicate împreună cu cercetările scrise de oameni sau ar trebui să fie marcate distinct?
„Am generat idei de cercetare furnizând rezumatul atelierului și descrierea AI”, a declarat Robert Lange, om de știință și membru fondator la Sakana, pentru TechCrunch prin e-mail. „Acest lucru a asigurat că lucrările generate erau pe subiect și trimiterile adecvate.”
„Lucrarea acceptată introduce atât o metodă nouă, promițătoare pentru antrenarea rețelelor neuronale, cât și arată că mai există provocări empirice”, a spus Lange. „Oferă un punct de date interesant pentru a declanșa investigații științifice suplimentare.”
Dar realizarea nu este atât de impresionantă pe cât ar părea la prima vedere.
În postarea de pe blog, Sakana admite că AI-ul său a făcut ocazional erori de citare „jenante”, de exemplu atribuind incorect o metodă unei lucrări din 2016 în locul lucrării originale din 1997.
Lucrarea lui Sakana AI nu a fost supusă la o analiză ulterioară ca și alte publicații evaluate de colegi (peer reviewed). Deoarece compania l-a retras după evaluarea inițială, lucrarea nu a primit o „meta-evaluare” suplimentară, timp în care organizatorii atelierului ar fi putut, teoretic, să-l respingă.
Apoi, este faptul că ratele de acceptare pentru atelierele de conferință tind să fie mai mari decât ratele de acceptare pentru „cursul principal al conferinței” – un fapt pe care Sakana îl menționează cu sinceritate în postarea de pe blog. Compania a spus că niciunul dintre studiile sale generate de inteligență artificială nu a depășit barajul său intern pentru publicarea în cadrul conferinței ICLR.
Matthew Guzdial, cercetător AI și profesor asistent la Universitatea din Alberta, a calificat rezultatele lui Sakana „puțin înșelătoare”.
„Oamenii din Sakana au selectat lucrările dintr-un număr de documente generate, ceea ce înseamnă că foloseau raționamentul uman în ceea ce privește alegerea rezultatelor despre care credeau că ar putea avea șanse de succes”, a spus el prin e-mail. „Ceea ce cred că arată asta este că oamenii plus AI pot fi eficienți, nu că AI singură poate crea progres științific.”
Deficiențele tehnice ale inteligenței artificiale, cum ar fi tendința de a halucina, îi fac pe mulți oameni de știință să fie precauți să susțină AI pentru o muncă serioasă. În plus, experții se tem că AI ar putea pur și simplu să genereze „zgomot” în literatura științifică, nu să ridice nivelul progresului.
„Trebuie să ne întrebăm dacă rezultatul [Sakana] se referă la cât de bună este AI la proiectarea și efectuarea experimentelor sau dacă este vorba despre cât de bună este la vânzarea ideilor oamenilor – despre care știm că AI este excelentă deja”, a spus Cook. „Există o diferență între trecerea peer review și contribuția cu cunoștințe într-un domeniu.”
Sakana, spre meritul său, nu pretinde că AI-ul său poate produce lucrări științifice inovatoare – sau chiar mai ales noi. Mai degrabă, scopul experimentului a fost „să studieze calitatea cercetării generate de AI”, a spus compania și să evidențieze nevoia urgentă de „norme privind știința generată de AI”.
Acest experiment declanșează conversații importante despre transparență: Câte informații despre procesul de generare a AI ar trebui dezvăluite?, considerații etice: când și cum ar trebui să fie recunoscute contribuțiile AI în cercetarea științifică? Standarde pentru evaluarea inter pares: dacă meritul științific al lucrărilor generate de AI ar trebui judecat pe cont propriu, independent de originea sa.
„În continuare, vom continua să facem schimb de opinii cu comunitatea de cercetare cu privire la starea acestei tehnologii pentru a ne asigura că aceasta nu se va dezvolta în viitor într-o situație în care singurul scop este să treacă peer review, subminând astfel în mod substanțial sensul procesului științific de evaluare inter pares.” a scris compania.