Peringkasan teks otomatis (automated text summarization) pada artikel berbahasa indonesia menggunakan algoritma lexrank

  • Halimah Universitas Islam Negeri Sultan Syarif Kasim Riau
  • Surya Agustian Universitas Islam Negeri Sultan Syarif Kasim Riau
  • Siti Ramadhani Universitas Islam Negeri Sultan Syarif Kasim Riau

Abstract

Artikel merupakan kumpulan teks atau kalimat yang panjang dan berisikan gagasan atau pendapat terhadap suatu topik tertentu. Artikel yang sangat panjang akan menghabiskan waktu cukup lama untuk membaca dan memahami poin-poin penting yang disampaikan. Penelitian ini mengusulkan algoritma Lexrank untuk meringkas teks otomatis pada artikel berbahasa indonesia. Penelitian ini menggunakan dataset berupa korpus yang tersusun atas 300 artikel dari berbagai topik. Kalimat yang dipilih menjadi ringkasan untuk gold standard dirata-ratakan dari dua orang annotator. Metode peringkas dokumen dikembangkan untuk menghasilkan ringkasan yang performanya dibandingkan dengan gold standard tersebut menggunakan ROUGE score. Metode bekerja dengan beberapa tahap, mulai dari text preprocessing yang meliputi segmentasi kalimat, case folding, tokenisasi, punctuation removal, stemming dan stopword removal. Kemudian menghitung bobot tf-idf, bobot similarity, pembentukan graf, pemeringkatan kalimat, dan tahap akhir adalah membentuk hasil ringkasan. Untuk pengembangan sistem, 150 dokumen diuji coba dengan variasi pemilihan ranking similarity, dan yang terbaik digunakan sebagai model untuk test document. Hasil pengujian dengan compression rate 50% menghasilkan nilai f-measure rata-rata untuk 150 test document, pada metrik ROUGE-1, ROUGE-2 dan ROUGE-L secara berturut-turut adalah 67,53%, 59,10%, dan 67,05%. Sedangkan untuk compression rate 30% menghasilkan rata-rata f-measure pada ROUGE-1, ROUGE-2 dan ROUGE-L secara berturut-turut adalah  55,82%, 45,51%, dan 54,76%. Penelitian ini menghasilkan akurasi  f-measure yang lebih baik dan kompetitif bila merujuk pada hasil-hasil penelitian sejenis.

Downloads

Download data is not yet available.
Published
2022-12-19
Abstract views: 67 , pdf downloads: 62