Ironis, Jutaan Buku Dirobek Isinya Lalu Dibuang Fisiknya Demi Melatih AI
Jutaan buku telah dirobek isinya demi melatih AI agar responsif dan punya jawaban yang tepat.
Praktik perusahaan AI ini bagi penggemar buku barangkali dianggap keji. Bagaimana tidak, ribuan buku dirobek, diambil halamannya, lalu dibuang begitu saja. Cara itu dilakukan Anthropic untuk melatih model bahasa AI-nya, Claude. Hal itu terungkap dalam sebuah dokumen publik di pengadilan Amerika Serikat.
Dikutip dari laman ArsTechnica, Rabu (2/7), dokumen pengadilan setebal 32 halaman itu mengungkap bagaimana Anthropic mengeluarkan duit jutaan dolar demi beli buku bekas dalam jumlah besar dari pengecer.
Buku-buku itu kemudian dipotong dari jilidnya, halamannya dipisah dan discan menjadi file PDF yang bisa dibaca mesin. Setelah proses itu selesai, kemudian fisik buku itu dibuang begitu saja. Mereka hanya menginginkan isi buku yang diekstrak demi melatih Claude lebih responsif.
Persoalan itu, menurut Hakim William Alsup dikategorikan sebagai praktir yang fair use. Pasalnya, Anthropic melakukannya secara legal, yakni membeli buku secara resmi namun tidak didistribusikan ulang dan hanya menggunakan hasil pemindaian untuk keperluan internal.
Hakim membandingkan tindakan itu dengan "konversi format" yang sifatnya digitalisasi teks. Kendati begitu, pengadilan juga menyinggung reputasi Anthropic yang sebelumnya diketahui memakai salinan bajakan untuk melatih model mereka sebelum 2024, pada akhirnya beralih ke jalur legal dengan membeli fisik buku.
Mengapa Harus Dihancurkan?
Praktik menghancurkan buku untuk dipindai dinilai lebih murah dan cepat dibanding metode non-destruktif seperti yang digunakan Google Books.
Pada 2024, Anthropic bahkan merekrut Tom Turvey, mantan kepala kemitraan Google Books, untuk membantu strategi ini. Namun berbeda dengan Google yang memindai buku tanpa merusaknya, Anthropic secara sistematis memotong dan membuang fisiknya.
Alasan di balik langkah drastis itu gara-gara industri AI saat ini mengalami "kelaparan data" untuk melatih model bahasa besar. Model seperti Claude dan ChatGPT membutuhkan miliaran kata dari teks berkualitas tinggi, dan buku-buku yang sudah diedit profesional menjadi sumber yang sangat berharga.
Membeli lisensi konten dari penerbit dinilai mahal dan rumit. Dengan memanfaatkan prinsip first-sale doctrine, Anthropic bisa membeli buku fisik dan memindainya tanpa perlu membayar lisensi tambahan.
Menurut pengadilan, proses pemindaian Anthropic sangat langsung. Buku dijilid ulang, dipotong ke ukuran ideal, discan seluruh halamannya—termasuk sampul—dan diubah menjadi format PDF.
Tidak ada indikasi bahwa buku langka dihancurkan, tapi praktik ini memicu kritik karena mengabaikan aspek pelestarian fisik buku yang masih bisa dipertahankan dengan metode pemindaian lain.
Ironisnya, model bahasa Claude yang dilatih dari hasil pemindaian destruktif itu kini digunakan untuk membantu orang menulis, mendiskusikan sastra, atau menjawab pertanyaan tentang buku.