OpenAI’dan Ses Klonlama Aracı: Voice Engine

OpenAI, Voice Engine ismini verdiği yeni bir ses üretme aracı duyurdu. Bu araç, insan seslerini gerçekçi bir şekilde kopyalayabiliyor ve metinleri sese çevirebiliyor.

Yapay zekâ deyince akla gelen ilk şirket şüphesiz OpenAI. Teknoloji devi, sohbet botlarından görsel üretmeye kadar birçok farklı alandaki modeliyle âdeta girdiğimiz yeni çağa öncülük ediyor. Son olarak kendisini herkesin ağzını açık bırakacak derecede gerçekçi videolar oluşturan “Sora” modeliyle görmüştük.

OpenAI, şimdi de yepyeni bir modelini duyurdu. “Voice Engine” ismi verilen bu araç, insan sesini gerçekçi bir şekilde kopyalıyor.

15 saniyede gerçek insan sesini klonlayabiliyor

Bu şirketin ses odaklı ilk hamlesi değil. Hâlihazırda yapay zekâ destekli ses araçlarına sahipti. ChatGPT’yle konuşmamızı sağlayan özellik bunun en iyi örneği. Voice Engine de şirketin metinden ses üretme çabalarının bir parçası. OpenAI’a göre bu araç, aslında 2022’den beri küçük bir grup üzerinde test ediliyor.

Voice Engine’in ne olduğunu kısaca açıklayalım. Bu araç, aslında bir ses klonlama modeli. Sadece 15 saniyelik bir örnekle gerçek bir insanın sesini ayırt edilemeyecek derecede kopyalayabiliyor. Bunun ardından kullanıcı istediği bir metni girerek yapay zekânın ürettiği kopya sese istediği şeyi okutabiliyor. Ayrıca klonlanan sesi farklı dillere de çevirmek mümkün oluyor.

OpenAI’ın Uygulama Mağazasının Müşterileri Belli Oldu: Kopyacılar ve Yatırımcılar

OpenAI, paylaştığı blog gönderisinde modelin nerelerde kullanılabileceğine dair bilgiler de verdi. Bunlar arasında okuma yardımı, içerik çevirisi, konuşma bozukluklarına sahip kişilere yardım etme gibi hedefler yer alıyor.

OpenAI, güvenlik endişeleri nedeniyle henüz Voice Engine’i kullanıma sunmuyor

Voice Engine, geniş çapta kullanıma sunulmadı. Şirket, bunun ana nedeninin böyle bir klonlama teknolojisinin getireceği riskler olduğunu ifade ediyor. Hatta en başta geliştiricilerin katılabileceği bir program oluşturmayı planladığı ancak oluşabilecek sorunlardan dolayı iptal ettiğini bile ekliyor. Zaten şu an test edilen gruba da rızası olmadan ses kullanımını yasaklayan sözleşmeler imza atılmış.

Güvenlik konusu gerçekten ciddi bir problem. Günümüzde deepfake teknolojilerin ne kadar geliştiğini biliyoruz. Her yerde sahte görüntüler ve sesler görüyoruz. Ünlü isimleri taklit eden uygunsuz içerikler, dolandırıcılık amaçlayan görüntüler ve selser bunların en iyi örnekleri. Bu yüzden OpenAI’ın Voice Engine modeli çok riskli. Şirket de bunun farkında. Bu yüzden henüz geniş çapta çıkarma gibi bir planları yok. Yani ne zaman geleceğini bilemiyoruz.

OpenAI, Sanatçıların “Sora” Modeli Hakkındaki İlk İzlenimlerini Paylaştı: Ağzınızı Açık Bırakacak Yeni Videolar da Yayımlandı

OpenAI, Voice Engine ile oluşturulan ses kayıtlarını sitesinden paylaştı. Yukarıdaki videodan örneklere ulaşabilrisiniz. İkili veya üçlü olarak paylaşılan kayıtlarda üstte bulunanlar gerçek insanlara, “Generated audio” olarak paylaşılan alttakiler ise yapay zekâya ait.