Google'ın yeni yapay zeka aracı Whisk, istem olarak görselleri kullanıyor

Sesli dinle

Labs deneyi kaynak görselleri yeniden düzenlemenize izin veriyor, ancak karmaşıklık konusunda sıkıntı yaşıyor.

Google, yığınına ekleyeceği yeni bir AI aracı tanıttı. Whisk, mevcut bir resmi giriş olarak kullanmanıza olanak tanıyan bir Google Labs resim oluşturucusudur. Ancak çıktısı, yalnızca başlangıç ​​resminizin "özünü" yakalayarak, yeni ayrıntılar eklemek yerine resmi yeniden oluşturur. Bu nedenle, kaynak resmin düzenlenmesinden çok, beyin fırtınası yapmak ve hızlı görselleştirmeler için daha uygundur.

Şirket, Whisk'i "yeni bir tür yaratıcı araç" olarak tanımlıyor. Giriş ekranı, stil ve konu için girişlerin bulunduğu sade bir arayüzle başlar. Bu basit arayüz, yalnızca üç önceden tanımlanmış stilden birini seçmenize olanak tanır: çıkartma, emaye iğne ve peluş. Google, bu üç stilin deneysel aracın mevcut haliyle en ideal olduğu ve kaba taslak çıktılar için en uygun seçenekler olduğuna inanıyor.

Yukarıdaki resimde görebileceğiniz gibi, Whisk, Wilford Brimley'nin peluş oyuncak şeklinde sağlam bir görüntüsünü üretti.

Whisk ayrıca daha gelişmiş bir düzenleyici içeriyor (ana ekrandan "Sıfırdan başla"ya tıklanarak erişilebilir). Bu modda, konu, sahne ve stil olmak üzere üç kategoride metin veya kaynak resim kullanabilirsiniz. Son rötuşlar için ek metin eklemeye de olanak tanıyan bir giriş çubuğu bulunuyor. Ancak mevcut haliyle, gelişmiş kontroller sorgularım gibi sonuçlar üretmedi.

Örneğin, çevrimiçi bulduğum bir mors peluş oyuncak görseli tarzında, ışık kutusu sahnesinde Wilford Brimley'yi oluşturma girişimimi inceleyebilirsiniz.

Wilford Brimley'e benzeyen bir adamın görüntülerini üreten bir yapay zeka üretim aracının ekran görüntüsü.

Whisk, ışık kutusu çerçevesinde, yulaf ezmesi yiyen ve belirsiz şekilde Wilford Brimley'ye benzeyen bir aktör görüntüsü oluşturdu. Ancak, anladığım kadarıyla bu kişi bir peluş değil. Bu da, Google'ın aracı "hızlı görsel keşif" için kullanmanızı, ancak üretime hazır içerik için pek önerdiğini gösteriyor.

Google, Whisk'in yalnızca kaynak görüntünüzün "birkaç temel özelliğinden" faydalandığını kabul ediyor. Şirket, "Örneğin, oluşturulan özne farklı bir boy, kilo, saç modeli veya cilt tonuna sahip olabilir" şeklinde uyarıyor.

Nedenini anlamak için, Google'ın Whisk'in perde arkasında nasıl çalıştığını açıklamasına bakmak yeterli. Yüklediğiniz kaynak resmin ayrıntılı bir açıklamasını yazmak için Gemini dil modelini kullanır. Ardından, bu açıklama Imagen 3 resim oluşturucusuna beslenir. Yani, sonuç Gemini'nin resminiz hakkındaki açıklamalarına dayanan bir resimdir — kaynak resmin kendisinden değil.

Whisk şu an için yalnızca ABD'de mevcut. Projeyi Google Labs sitesinde deneyebilirsiniz.


0
0
0
0
0
0
0
0
0
0


henüz yorum yok
Tema Ayarları

Kendi özelleştirilmiş stilini belirle

Mod Seç

Uygulamanız için mükemmel renk modunu seçin.


RTL Mode

Dil yönünüzü değiştirin


Fluid Layout

Tam ekran modu aç/kapat

Görünüm