Mei 1, 2024

Bejagadget

Ikuti perkembangan terkini Indonesia di lapangan dengan berita berbasis fakta Beja Gadget, cuplikan video eksklusif, foto, dan peta yang diperbarui.

Stability mengumumkan Stable Diffusion 3, pembuat gambar AI generasi berikutnya

Stability mengumumkan Stable Diffusion 3, pembuat gambar AI generasi berikutnya

Perbesar / Difusi Stabil Generasi ke-3 dengan Vektor: Potret studio close-up bunglon dengan latar belakang hitam.

Stability AI pada hari Kamis mengumumkan Stable Diffusion 3, model sintesis gambar generasi berikutnya dengan bobot terbuka. Ini mengikuti pendahulunya dengan membuat gambar multi-subjek yang detail dengan peningkatan kualitas dan akurasi dalam pembuatan teks. Pengumuman singkat tersebut tidak disertai dengan demo publik, namun stabilitas Buka daftar tunggu Hari ini untuk mereka yang ingin mencobanya.

Stable mengatakan rangkaian model Stable Diffusion 3 (yang mengambil deskripsi teks yang disebut “prompt” dan mengubahnya menjadi gambar yang sesuai) memiliki ukuran berkisar antara 800 juta hingga 8 miliar parameter. Skala ini memungkinkan versi model yang berbeda untuk dijalankan secara lokal di berbagai perangkat — mulai dari ponsel cerdas hingga server. Ukuran parameter secara kasar sesuai dengan kemampuan model dalam hal jumlah detail yang dapat dihasilkannya. Model yang lebih besar juga memerlukan lebih banyak VRAM pada akselerator GPU agar dapat dijalankan.

Sejak tahun 2022, kami telah melihat Stable meluncurkan evolusi model pembuatan gambar AI: Stable Diffusion 1.4, 1.5, 2.0, 2.1, XL, XL Turbo, dan sekarang 3. Stabilitas telah terkenal karena menyediakan alternatif yang lebih terbuka terhadap model sintesis gambar berpemilik seperti DALL-E 3 OpenAI, meskipun bukannya tanpa kontroversi karena penggunaan pelatihan berhak cipta data. Bias dan potensi penyalahgunaan. (Hal ini menyebabkan tuntutan hukum yang belum terselesaikan.) Model difusi kondisi tunak bersifat open-weighted dan open-source, yang berarti bahwa model tersebut dapat dijalankan secara lokal dan disesuaikan untuk mengubah keluarannya.

Mengenai perbaikan teknis, kata CEO Stability Imad Mushtaq buku Di

READ  Semua Acara Ulang Tahun 2022 Battle Weekend Special Timed Quests dan Rewards untuk Pokémon Go

Seperti yang dikatakan Mostaque, keluarga Stable menggunakan Diffusion 3 Struktur transformator difusimetode baru dalam membuat gambar menggunakan kecerdasan buatan yang menggantikan elemen penyusun gambar biasa (mis arsitektur UNET) untuk sistem yang bekerja pada potongan kecil gambar. Metode ini terinspirasi dari trafo yang pandai menangani pola dan rangkaian. Pendekatan ini tidak hanya meningkatkan efisiensi, tetapi juga dikatakan menghasilkan gambar dengan kualitas lebih tinggi.

Difusi Stabil 3 juga digunakan”Pencocokan aliran“, suatu teknik untuk membuat model kecerdasan buatan yang dapat membuat gambar dengan mempelajari cara beralih dari gangguan acak ke gambar terstruktur dengan lancar. Hal ini dilakukan tanpa harus mensimulasikan setiap langkah proses, dan sebaliknya berfokus pada arah atau aliran umum yang haruskah pembuatan gambar mengikuti.

Membandingkan output antara DALL-E 3 dan Stable Diffusion 3 OpenAI dengan router, "Gambar malam mobil sport dengan teks "SD3" Di sampingnya, mobil melaju di trek balap dengan kecepatan tinggi, dengan tulisan tanda jalan besar di atasnya
Perbesar / Perbandingan keluaran antara DALL-E 3 OpenAI dan Stable Diffusion 3 dengan klaim “Gambar malam mobil sport dengan teks 'SD3' di sampingnya, mobil di trek balap dengan kecepatan tinggi, rambu jalan besar dengan teks 'Lebih Cepat '.”

Kami tidak memiliki akses ke Stable Diffusion 3 (SD3), tetapi dari sampel yang kami temukan diposting di situs web Stable dan akun media sosial terkait, Generasi tersebut terlihat kira-kira sebanding dengan model montase foto modern lainnya saat ini. Termasuk DALL-E 3 yang disebutkan di atas, Adobe Firefly, Imagine with Meta AI, Midjourney, dan Google Imagen.

SD3 tampaknya menangani pembuatan teks dengan sangat baik dalam contoh yang diberikan oleh orang lain, yang kemungkinan besar dipilih dengan baik. Pembuatan teks telah menjadi kelemahan khusus pada model montase gambar sebelumnya, jadi meningkatkan kemampuan ini dalam bentuk bebas adalah suatu hal yang besar. Selain itu, akurasi kecepatannya (seberapa mirip dengan deskripsi pada petunjuknya) tampak serupa dengan DALL-E 3, namun kami belum mengujinya sendiri.

READ  Sepertinya pembaruan Pixel Agustus tertunda

Meskipun Stable Diffusion 3 tidak tersedia secara luas, Stability mengatakan bahwa setelah pengujian selesai, bobotnya akan bebas diunduh dan dijalankan secara lokal. “Fase pratinjau ini, seperti model sebelumnya, sangat penting untuk mengumpulkan ide guna meningkatkan kinerja dan keamanannya sebelum dirilis secara terbuka,” tulis Stability.

Stabilitas telah diujicobakan dengan berbagai arsitektur montase gambar baru-baru ini. Selain SDXL dan SDXL Turbo, perusahaan baru mengumumkannya minggu lalu Kaskade yang stabilyang menggunakan proses tiga tahap untuk melapisi teks ke gambar.

Daftar gambar oleh Imad Mushtaq (AI untuk Stabilitas)