Juli 14, 2024

Bejagadget

Ikuti perkembangan terkini Indonesia di lapangan dengan berita berbasis fakta Beja Gadget, cuplikan video eksklusif, foto, dan peta yang diperbarui.

OpenAI, aturan pengabaian yang manusiawi yang mencegah bot menggores konten web

OpenAI, aturan pengabaian yang manusiawi yang mencegah bot menggores konten web

Dua startup AI terbesar di dunia mengabaikan permintaan penerbit media untuk berhenti mengambil konten web mereka untuk mendapatkan sampel data pelatihan gratis, demikian yang diketahui oleh Business Insider.

OpenAI dan Anthropic ditemukan mengabaikan atau menghindari aturan web statis yang disebut robots.txt, yang mencegah penghapusan situs web secara otomatis.

TollBit, sebuah startup yang bertujuan untuk menjadi perantara kesepakatan lisensi berbayar antara penerbit dan perusahaan AI, menemukan bahwa banyak perusahaan AI berperilaku seperti ini dan memberi tahu beberapa penerbit besar melalui surat pada hari Jumat, yang merupakan Reuters melaporkannya sebelumnya. Surat itu tidak mencantumkan nama perusahaan kecerdasan buatan mana pun yang dituduh mengabaikan aturan tersebut.

OpenAI dan Anthropic secara terbuka menyatakan bahwa mereka menghormati file robots.txt dan memblokir perayap web mereka sendiri, seperti GTBot dan ClaudeBot.

Namun, menurut temuan TollBit, pemblokiran tersebut tidak dipatuhi, seperti yang diklaim. Perusahaan AI, termasuk OpenAI dan Anthropic, memilih untuk “melewati” file robots.txt untuk mengambil atau mengekstrak semua konten dari situs web atau halaman tertentu.

Juru bicara OpenAI menolak berkomentar selain arahan BI kepada perusahaan tersebut Entri blog Pada bulan Mei, perusahaan mengatakan bahwa izin perayap web “diperhitungkan setiap kali kami melatih model baru.” Juru bicara Anthropic tidak menanggapi email yang meminta komentar.

Robots.txt adalah salah satu kode yang telah digunakan sejak akhir tahun 1990-an sebagai cara situs web memberi tahu perayap robot bahwa mereka tidak ingin datanya dihapus dan dikumpulkan. Ini telah diterima secara luas sebagai salah satu aturan pendukung tidak resmi di Web.

Dengan munculnya AI generatif, perusahaan rintisan dan teknologi berlomba untuk membangun model AI yang paling kuat. Bahan utamanya adalah data berkualitas tinggi. Kebutuhan akan data pelatihan semacam ini telah melemahkan robots.txt dan konvensi informal yang mendukung penggunaan kode ini.

READ  Saham berjangka sedikit berubah karena Wall Street mengantisipasi laporan pekerjaan Oktober

OpenAI berada di belakang chatbot ChatGPT yang populer. Investor terbesar perusahaan adalah Microsoft. Anthropic berada di balik chatbot lain yang relatif populer, Claude. Investor terbesarnya adalah Amazon.

Kedua chatbots memberikan jawaban atas pertanyaan pengguna dengan nada manusiawi. Jawaban seperti itu hanya mungkin terjadi karena model AI yang menjadi landasan pembuatannya mencakup sejumlah besar teks tertulis dan data yang diambil dari web, yang sebagian besar berada di bawah hak cipta atau dimiliki oleh pembuatnya.

Beberapa perusahaan teknologi berargumen tahun lalu di hadapan Kantor Hak Cipta AS bahwa tidak ada apa pun di web yang dianggap tunduk pada hak cipta jika menyangkut data pelatihan AI.

OpenAI memiliki beberapa kesepakatan dengan penerbit untuk mengakses konten, termasuk Axel Springer, pemilik BI. Kantor Hak Cipta AS akan memperbarui panduannya mengenai kecerdasan buatan dan hak cipta pada akhir tahun ini.

Apakah Anda seorang karyawan teknologi atau orang lain yang memiliki saran atau wawasan untuk dibagikan? Hubungi Callie Hayes di [email protected] Atau di aplikasi perpesanan yang amanSinyal Di +1-949-280-0267. Berkomunikasi menggunakan perangkat non-kerja.