Din seria hai să ne dăm mari ce fain e AI-ul, OpenAI a prezentat acum modelul Voice Engine, ce poate să imite orice voce (cu foarte puține șanse de a detecta că vorbim de o voce sintetică) pornind de la exemple care au doar 15 secunde. Nu e prima dată când companii încearcă să ˝cloneze˝ vocea, însă în doar 2 ani de când a început să lucreze în direcția asta, OpenAI pare că are rezultate bune.
Însă … la ce ajută? Dincolo de faptul că asistăm la goana asta nebună în investiții în AI, unde orice companie care se vrea solidă și în trend, anunță investiții mari în direcția asta (de exemplu Microsoft mai dă niște oameni afară ca să poată să bage 100 de miliarde USD într-un nou datacenter), sperând să vină investitori care să pompeze bani și să le meargă bine, realizările cu adevărat utile sunt cam pe nicăieri.
Rezultatele sunt bune doar pentru a genera falsuri, pe care unii le vor folosi maxim în folos propriu. Vorbesc aici și despre Sora, modelul ce poate genera … filme, iar acum avem Voice Engine, soluția care clonează vocea. Folosite împreună pot genera chestii nasoale de tot, mai ales în contextul în care populația e din ce în ce mai slab pregătită intelectual și se lasă guvernată de dezinformare via Facebook, Whatsapp, TikTok, Twitter etc. Pentru că e clar că Google și alții nu se chinuie să oprească acest trend.
În ciuda faptului că OpenAI vine și spune că sunt câteva direcții în care această tehnologie de clonare a vocii umane poate să fie utilă, sunt niște povești care nu stau în picioare în realitate. Modelul ăsta AI de clonare a vocii ar fi util pentru copii sau persoane care nu știu încă să citească, pentru că ar emula vocea caldă a unei persoane de încredere. Adică … de ce să plătim un actor care știe să citească și să introducă nuanțe, pe care îl putem verifica? Nu mai bine punem AI-ul să zică toate bălăriile? Adică un robot, așa cum am tot văzut în filmele SciFi.
Sau … pentru creatorii de conținut, să își traducă materialele audio, automat, în diverse limbi folosind AI-ul, sau și mai tare, voluntarii/muncitorii din zona health care să se poată înțelege cu cei cărora le vin în ajutor, în colțurile îndepărtate ale lumii. Că e clar că e nevoie să se folosească fix vocea lor …
Motivul care mi se pare și mai penibil este acela că îi ajută pe cei ce nu pot vorbi să comunice mai bine. Cum adică … păi dacă o persoană nu poate vorbi, cum îi folosești vocea ca să antrenezi modelul? Poate doar în situația în care o persoană și-a pierdut vocea/capacitatea de a vorbi și ar putea fi ajutată să comunice așa cum o făcea înainte de accident.
Spun toate astea pentru că din tot ce văd în ultima vreme, avansul ăsta rapid al AI-ului nu e altceva decât cea mai nouă modalitate de a arunca banii într-un hype, cu rezultate care sunt departe de a ajuta umanitatea. Din contră, toate chestiile de care auzim în mod frecvent nu fac decât să aducă în mâinile tuturor instrumente avansate de generare a falsurilor. Și falsurile astea, create profesionist vor fi extrem de greu de detectat și excelente pentru a manipula oamenii.
Dar da, să ne lăudăm că facem AI și ce mișto este el.
Totuși, e de reținut că ÎNCĂ Voice Engine nu e disponibil public, tocmai în ideea că o să aibă impact negativ. Țineți minte că pentru antrenare e nevoie doar de 15 secunde cu vocea cuiva …
În altă ordine de idei, nu e deloc o coincidență că ieri a ieșit și un comunicat al Artist Rights Alliance (ARA) în care peste 200 de artiști printre care se numără Pearl Jam, Nicki Minaj, Billie Eilish, Stevie Wonder, Elvis Costello și fondul Frank Sinatra, care ridică exact problema asta: generarea de falsuri și încălcarea drepturilor artiștilor umani. Probabil că o să fie doar puțin fum aruncat în piață, pentru că în mod cert sunt mai mulți care sunt tentați să fure și să mintă decât cei care înțeleg că nu e ok să faci asta. Da, e o inițiativă a UE de reglementare a AI-ului, însă sunt sigur că va fi degeaba – la fel cum s-au găsit indivizi să cloneze celulele umane, în ciuda restricțiilor legale și a celor legate de costuri, se vor găsi milioane de ˝hackeri˝care să folosească AI-ul pentru fake-uri. De la poze, la înregistrări audio și filme, cu care să amenințe și să controleze masele.
Doar zic …
via OpenAI