Seiring dengan meningkatnya teknik pemrosesan bahasa alami, saran menjadi lebih cepat dan lebih relevan
Dalam sebuah studi baru, para peneliti di MIT dan IBM menggabungkan tiga alat analisis teks populer – pemodelan topik, embeddings kata, dan transportasi optimal – untuk membandingkan ribuan dokumen per detik. Di sini, mereka menunjukkan bahwa metode mereka (kiri) mengelompokkan posting newsgroup berdasarkan kategori lebih ketat daripada metode yang bersaing. Kredit: Massachusetts Institute of Technology

Dengan milyaran buku, berita, dan dokumen online, tidak pernah ada waktu yang lebih baik untuk membaca — jika Anda punya waktu untuk menyaring semua pilihan. “Ada satu ton teks di internet,” kata Justin Solomon, asisten profesor di MIT. “Apa pun untuk membantu memotong semua materi itu sangat berguna.”

Dengan MIT-IBM Watson AI Lab dan Kelompok Pemrosesan Data Geometriknya di MIT, Solomon baru-baru ini mempresentasikan teknik baru untuk memotong sejumlah besar teks pada Konferensi Sistem Pemrosesan Informasi Saraf Tiruan (NeurIPS). Metode mereka menggabungkan tiga alat analisis teks yang populer — pemodelan topik, embedding kata, dan transportasi optimal — untuk memberikan hasil yang lebih baik, lebih cepat daripada metode yang bersaing pada tolok ukur populer untuk mengklasifikasikan dokumen.

Jika suatu algoritma mengetahui apa yang Anda sukai di masa lalu, ia dapat memindai jutaan kemungkinan untuk hal yang serupa. Ketika teknik pemrosesan bahasa alami meningkat, saran “Anda mungkin juga suka” menjadi semakin cepat dan lebih relevan.

Dalam metode yang disajikan di NeurIPS, sebuah algoritma merangkum koleksi, katakanlah, buku, ke dalam topik berdasarkan kata-kata yang biasa digunakan dalam koleksi. Kemudian membagi setiap buku menjadi lima hingga 15 topik paling penting, dengan perkiraan seberapa besar masing-masing topik berkontribusi terhadap buku secara keseluruhan.

Untuk membandingkan buku, para peneliti menggunakan dua alat lain: embeddings kata , teknik yang mengubah kata menjadi daftar angka untuk mencerminkan kesamaan mereka dalam penggunaan populer, dan transportasi optimal, kerangka kerja untuk menghitung cara paling efisien untuk memindahkan objek — atau titik data —Di antara banyak tujuan.

Word embeddings memungkinkan untuk memanfaatkan transportasi optimal dua kali: pertama untuk membandingkan topik dalam koleksi secara keseluruhan, dan kemudian, dalam setiap pasangan buku, untuk mengukur seberapa dekat tema umum tumpang tindih.

Teknik ini bekerja sangat baik ketika memindai koleksi besar buku dan dokumen yang panjang. Dalam studi tersebut, para peneliti menawarkan contoh karya Frank Stockton “The Great War Syndicate,” sebuah novel Amerika abad ke-19 yang mengantisipasi munculnya senjata nuklir. Jika Anda mencari buku yang serupa, model topik akan membantu mengidentifikasi tema dominan yang dibagikan dengan buku lain — dalam hal ini, bahari, unsur, dan bela diri.

Tetapi model topik saja tidak akan mengidentifikasi kuliah Thomas Huxley 1863, ” The Past Condition of Organic Nature ,” sebagai pasangan yang baik. Penulis adalah juara teori evolusi Charles Darwin, dan ceramahnya, dibumbui dengan menyebutkan fosil dan sedimentasi, mencerminkan gagasan yang muncul tentang geologi. Ketika tema-tema dalam kuliah Huxley dicocokkan dengan novel Stockton melalui transportasi optimal, beberapa motif lintas sektor muncul: geografi, flora / fauna, dan tema-tema pengetahuan Huxley memetakan secara dekat masing-masing tema bahari, elemen, dan bela diri Stockton.

Memodelkan buku berdasarkan topik yang representatif, alih-alih kata-kata individual, memungkinkan perbandingan tingkat tinggi. “Jika Anda meminta seseorang untuk membandingkan dua buku, mereka memecah masing-masing menjadi konsep yang mudah dipahami, dan kemudian membandingkan konsep-konsep itu,” kata penulis utama studi itu Mikhail Yurochkin, seorang peneliti di IBM.

Hasilnya lebih cepat, perbandingan yang lebih akurat, studi menunjukkan. Para peneliti membandingkan 1.720 pasang buku dalam dataset Proyek Gutenberg dalam satu detik — lebih dari 800 kali lebih cepat daripada metode terbaik berikutnya.

Teknik ini juga melakukan pekerjaan yang lebih baik dalam menyortir dokumen secara akurat daripada metode saingan — misalnya, mengelompokkan buku-buku dalam dataset Gutenberg oleh penulis, ulasan produk di Amazon berdasarkan departemen, dan berita olahraga BBC dengan olahraga. Dalam serangkaian visualisasi, penulis menunjukkan bahwa metode mereka dengan rapi mengelompokkan dokumen berdasarkan jenis.

Selain mengelompokkan dokumen dengan cepat dan lebih akurat, metode ini menawarkan jendela ke dalam proses pengambilan keputusan model. Melalui daftar topik yang muncul, pengguna dapat melihat mengapa model ini merekomendasikan dokumen .

oleh Kim Martineau, Massachusetts Institute of Technology

Leave a Reply

Your email address will not be published. Required fields are marked *