Postingan terakhir di Blog Keamanan Google Merinci peningkatan baru pada filter spam Gmail yang disebut Google sebagai “salah satu peningkatan pertahanan terbesar dalam beberapa tahun terakhir”. Peningkatan ini hadir dalam bentuk sistem klasifikasi teks baru yang disebut RETVec (Vektor Teks Efisien dan Fleksibel). Google mengatakan ini dapat membantu memahami “manipulasi teks yang tidak bersahabat” – email yang berisi karakter khusus, emoji, kesalahan ketik, dan karakter tidak diinginkan lainnya yang sebelumnya dapat dibaca oleh manusia tetapi tidak dapat dengan mudah dipahami oleh mesin. Sebelumnya, email spam berisi karakter khusus dengan mudah menembus pertahanan Gmail.
Jika Anda ingin contoh seperti apa “manipulasi teks yang tidak bersahabat”, pesan di bawah ini berasal dari folder spam Anda. Pengalaman pribadi saya dengan Gmail dengan email-email ini adalah bahwa ini merupakan masalah besar selama paruh pertama tahun ini, karena email seperti ini sering masuk ke kotak masuk saya. Peningkatan teknis ke RETVec ini tampaknya berhasil, karena email seperti ini tidak menjadi masalah sama sekali bagi saya dalam beberapa bulan terakhir.
Sangat sulit untuk memilah email seperti ini, dan meskipun filter spam apa pun mungkin dapat memindai email yang mengatakan, “Selamat! Kredit $1.000 tersedia untuk akun jackpot Anda,” sebenarnya bukan itu yang tertulis di email tersebut. Sebagian besar huruf di sini adalah “Homofon“Menyelami kedalaman standar Unicode yang tak ada habisnya, Anda dapat menemukan karakter tidak jelas yang terlihat seperti bagian dari alfabet Latin biasa namun sebenarnya bukan.
Misalnya, subjek “𝐂𝐡𝐞𝐜𝐤_𝐘𝐨𝐮𝐫_𝐀𝐜𝐜𝐨𝐮𝐧𝐭” terlihat sangat tebal bukan karena desainnya tebal, namun karena menggunakan mesin terbang Unicode seperti “Matematika kapital tebal c“. Ini adalah simbol matematika yang terlihat seperti huruf “C” bagi orang-orang, tetapi bot pemfilteran spam melihatnya hanya sebagai simbol matematika dan tidak memahami artinya dalam bahasa Inggris. Semakin dekat Anda melihat email seperti ini, semakin parah: Berisi ” “C0NGRATULATIONS” pada angka nol menggantikan salah satu karakter “O”, karakter yang digarisbawahi dalam “Jᴀ̲ᴄ̲ᴋ̲pot” sangat aneh sehingga tidak muncul dalam penelusuran Unicode, dan banyak spasi yang tertukar keluar tanda titik atau garis bawah, hasilnya filter spam terlihat seperti ini Kekacauan Dari email dan pada dasarnya menyerah. (Saya tidak mengerti mengapa email yang belum dibaca disetel ke “Kotak Masuk” dan bukan “Spam”, namun saya tidak bertanggung jawab.)
Google mengatakan RETVec hadir untuk menyelamatkan situasi: “RETVec dilatih agar tahan terhadap manipulasi tingkat karakter termasuk penyisipan, penghapusan, kesalahan ketik, karakter homonim, substitusi LEET, dan banyak lagi.” Model RETVec dilatih di atas karakter baru encoder yang “dapat mengenkripsi semua karakter dan kata.” UTF-8 secara efisien. Oleh karena itu, RETVec dapat digunakan dalam lebih dari 100 bahasa tanpa memerlukan tabel pencarian atau ukuran kosakata tetap.”
Google mengatakan efisiensi adalah masalah besar di sini. Pendekatan alternatif yang menggunakan “ukuran kosakata tetap” atau “tabel pencarian” untuk homomorf menjadikan operasinya membutuhkan banyak sumber daya. Bayangkan daftar semua kemungkinan salah eja dan salah eja “Selamat” yang menggantikan satu atau lebih huruf dengan angka, simbol matematika, Sirilik, Ibrani, atau emoji, dan Anda akan mendapatkan daftar yang hampir tak ada habisnya. Google mengatakan RETVec hanya 200.000 “bukan jutaan parameter”, jadi meskipun awan pemfilteran spam Google mungkin cukup besar untuk menjalankan apa pun, namun cukup kecil sehingga dapat dijalankan di mesin lokal. Ritvik Sumber terbukaGoogle berharap dapat menghilangkan serangan spoof di dunia, sehingga bagian komentar lokal Anda suatu hari nanti mungkin memicu serangan tersebut.
RETVec tampaknya bekerja sangat mirip dengan cara manusia membaca: ini adalah model pembelajaran mesin TensorFlow yang menggunakan “kesamaan” visual untuk menentukan arti kata, bukan konten karakter sebenarnya. Google Tunjukkan kesamaan Ia menggunakan teknologi yang sama untuk mengenali gambar kucing, sehingga mengubahnya menjadi sistem pengenalan karakter optik paling keren di dunia tampaknya dapat dilakukan. Rupanya, pendekatan ini menghasilkan perbaikan yang signifikan, seperti yang dikatakan Google: “Mengganti vektor teks sebelumnya untuk pengklasifikasi spam Gmail dengan RETVec memungkinkan kami meningkatkan tingkat deteksi spam dibandingkan data dasar sebesar 38% dan mengurangi tingkat positif palsu sebesar 19,4%.” Selain itu, penggunaan RETVec mengurangi penggunaan TPU model tersebut sebesar 83%, menjadikan penerapan RETVec salah satu peningkatan pertahanan terbesar dalam beberapa tahun terakhir.”
Google mengatakan telah menguji RETVec secara internal “selama setahun terakhir”, dan sudah diluncurkan ke akun Gmail Anda.
“Penjelajah ramah hipster. Penggemar kopi pemenang penghargaan. Analis. Pemecah masalah. Pembuat masalah.”
More Stories
Penawaran Prime Day terbaik untuk AirPods, Apple Watch, dan lainnya
Catatan tempel untuk Super Smash Bros. Terakhir 13.0.3
Samsung berhenti memperbarui Galaxy Z Fold 2 yang diluncurkan pada tahun 2020 seharga $2.000