Integrasi OCR dan TF-IDF untuk Metadata Otomatis pada Pencarian Dokumen Digital

Authors

  • Alvian Tri Putra Darti Akhsa Institut Teknologi Bacharuddin Jusuf Habibie
  • Muhammad Ikhwan Burhan Institut Teknologi Bacharuddin Jusuf Habibie
  • Aris Munandar Institut Teknologi Bacharuddin Jusuf Habibie

DOI:

https://doi.org/10.37859/jf.v15i2.9918
Keywords: optical character recognition, TF-IDF, metadata otomatis, pencarian dokumen, e-government

Abstract

Pengelolaan dokumen administratif pada tingkat kelurahan umumnya masih dilaksanakan secara manual, sehingga proses pencarian arsip sering memerlukan waktu yang relatif lama dan berpotensi menurunkan kualitas layanan publik. Kondisi tersebut menjadi latar belakang pelaksanaan uji coba penelitian di Kantor Kelurahan Lompoe, Kota Parepare, yang setiap tahunnya mengalami peningkatan signifikan jumlah dokumen administrasi. Penelitian ini bertujuan untuk mengembangkan model metadata otomatis berbasis Optical Character Recognition (OCR) dan Term Frequency–Inverse Document Frequency (TF-IDF) untuk meningkatkan efisiensi klasifikasi serta akurasi pencarian dokumen digital. Metodologi yang diterapkan meliputi ekstraksi teks dari dokumen fisik menggunakan OCR, praproses teks yang mencakup normalisasi, tokenisasi, dan stopword removal, perhitungan bobot kata melalui TF-IDF, pembentukan vektor kueri, pencocokan menggunakan cosine similarity, serta penyajian hasil pencarian. Uji coba dilakukan terhadap 30 dokumen yang terdiri atas surat keterangan, surat perizinan, dan surat pengantar. Hasil pengujian menunjukkan bahwa sistem mampu menampilkan dokumen dengan tingkat relevansi tertinggi, ditunjukkan oleh skor kemiripan sebesar 0,3989, dengan waktu pencarian kurang dari 0,002 detik. Integrasi OCR dan TF-IDF terbukti efektif dalam menghasilkan metadata terstruktur, mempercepat proses temu kembali informasi, serta meningkatkan akurasi pencarian dibandingkan metode manual. Penelitian ini diharapkan menjadi langkah awal transformasi pengelolaan arsip kelurahan menuju sistem digital yang lebih efisien, transparan, dan selaras dengan implementasi e-Government.

Downloads

Download data is not yet available.

References

L. Choirunnisa, T. H. C. Oktaviana, A. A. Ridlo, and E. I. Rohmah, “Peran Sistem Pemerintah Berbasis Elektronik (SPBE) Dalam Meningkatkan Aksesibilitas Pelayanan Publik di Indonesia,” Sosio Yustisia: Jurnal Hukum dan Perubahan Sosial, vol. 3, no. 1, pp. 71–95, Aug. 2023, doi: 10.15642/sosyus.v3i1.401.

F. Khoirunnisa, S. Roifah, S. Setiawan, and M. Ary, “STRATEGI PENGEMBANGAN SISTEM INFORMASI PELAYANAN KANTOR KELURAHAN MENGGUNAKAN ANALISIS SWOT,” JURNAL TEKNOLOGI DAN OPEN SOURCE, vol. 3, no. 1, pp. 44–59, Jun. 2020, doi: 10.36378/jtos.v3i1.519.

B. D. Kencono, H. H. Putri, and T. W. Handoko, “Transformasi Pemerintahan Digital: Tantangan dalam Perkembangan Sistem Pemerintahan Berbasis Elektronik (SPBE) di Indonesia,” JIIP - Jurnal Ilmiah Ilmu Pendidikan, vol. 7, no. 2, pp. 1498–1506, Feb. 2024, doi: 10.54371/jiip.v7i2.3519.

Kartika Setianingrum, H. I Nyoman Sumaryadi, and Ella Wargadinata, “PENERAPAN E-GOVERNMENT DALAM MENINGKATKAN KUALITAS PELAYANAN PUBLIK DI DINAS PENANAMAN MODAL DAN PELAYANAN TERPADU SATU PINTU KOTA BANDUNG PROVINSI JAWA BARAT,” VISIONER : Jurnal Pemerintahan Daerah di Indonesia, vol. 12, no. 4, pp. 843–854, Jan. 2021, doi: 10.54783/jv.v12i4.344.

K. Kibtiyah and Somantri, “Rancang Bangun Aplikasi Arsip Berbasis Mobile Untuk Pencarian Dokumen pada Gudang Arsip di CV Santoni Sukabumi,” Jurnal Sistim Informasi dan Teknologi, pp. 187–192, Jul. 2023, doi: 10.60083/jsisfotek.v5i2.257.

A. T. P. D. Akhsa, M. Agus, R. Rosmiati, and A. M. B. Ulum, “Perancangan E-Office Pelayanan Dan Pengarsipan Digital Menggunakan Metode OCR Berbasis Web,” INTECOMS: Journal of Information Technology and Computer Science, vol. 7, no. 1, pp. 218–226, Feb. 2024, doi: 10.31539/intecoms.v7i1.8367.

S. Kulkarni, R. Madurwar, R. Narlawar, A. Pandya, and N. Gawande, “Digitization of Physical Notes: A Comprehensive Approach Using OCR, CNN, RNN, and NMF,” in 2023 7th International Conference On Computing, Communication, Control And Automation (ICCUBEA), IEEE, Aug. 2023, pp. 1–5. doi: 10.1109/ICCUBEA58933.2023.10391967.

K. V Ujwal Karanth, A. T. Sujan, Y. R. Thanay Kumar, S. Joshi, K. P. Asha Rani, and S. Gowrishankar, “Breaking Barriers in Text Analysis: Leveraging Lightweight OCR and Innovative Technologies for Efficient Text Analysis,” in 2023 2nd International Conference on Automation, Computing and Renewable Systems (ICACRS), IEEE, Dec. 2023, pp. 359–366. doi: 10.1109/ICACRS58579.2023.10404305.

A. Yudistira and D. Novita, “Analisis Kepuasan Pengguna Aplikasi Arsip Digital Menggunakan Model End User Computing Satisfaction (EUCS),” Jurnal Teknologi Sistem Informasi, vol. 3, no. 2, pp. 176–188, Sep. 2022, doi: 10.35957/jtsi.v3i2.3059.

Moh. Syahrul Iskandar, Akhlis Munazilin, and Adi Susanto, “Implementasi Aplikasi Manajemen Arsip Surat Berbasis Optical Character Recognition Pada Badan Pusat Statistik Banyuwangi,” Jurnal Teknologi dan Manajemen Industri Terapan, vol. 4, no. 3, pp. 622–631, Jul. 2025, doi: 10.55826/jtmit.v4i3.793.

A. Anisah, D. Wahyuningsih, E. Helmud, T. Suwanda, P. Romadiana, and D. Irawan, “Rancang Bangun Sistem Informasi Manajemen Arsip Digital,” Jurnal Sisfokom (Sistem Informasi dan Komputer), vol. 10, no. 3, pp. 419–425, Dec. 2021, doi: 10.32736/sisfokom.v10i3.1300.

A. Takano, T. C. H. Cole, and H. Konagai, “A novel automated label data extraction and data base generation system from herbarium specimen images using OCR and NER,” Sci Rep, vol. 14, no. 1, p. 112, Jan. 2024, doi: 10.1038/s41598-023-50179-0.

D. Smith-Glaviana, W. N. Ng, C. Miller, and J. Spencer, “Digitizing Metadata of a University Fashion Collection’s Holdings Using OCR and Costume Core,” J Libr Metadata, vol. 24, no. 2, pp. 57–86, Apr. 2024, doi: 10.1080/19386389.2024.2303849.

Thomas. Roelleke, Information Retrieval Models. 2022.

Downloads

Published

2025-08-28