Integrasi OCR dan TF-IDF untuk Metadata Otomatis pada Pencarian Dokumen Digital
DOI:
https://doi.org/10.37859/jf.v15i2.9918
Abstract
Pengelolaan dokumen administratif pada tingkat kelurahan umumnya masih dilaksanakan secara manual, sehingga proses pencarian arsip sering memerlukan waktu yang relatif lama dan berpotensi menurunkan kualitas layanan publik. Kondisi tersebut menjadi latar belakang pelaksanaan uji coba penelitian di Kantor Kelurahan Lompoe, Kota Parepare, yang setiap tahunnya mengalami peningkatan signifikan jumlah dokumen administrasi. Penelitian ini bertujuan untuk mengembangkan model metadata otomatis berbasis Optical Character Recognition (OCR) dan Term Frequency–Inverse Document Frequency (TF-IDF) untuk meningkatkan efisiensi klasifikasi serta akurasi pencarian dokumen digital. Metodologi yang diterapkan meliputi ekstraksi teks dari dokumen fisik menggunakan OCR, praproses teks yang mencakup normalisasi, tokenisasi, dan stopword removal, perhitungan bobot kata melalui TF-IDF, pembentukan vektor kueri, pencocokan menggunakan cosine similarity, serta penyajian hasil pencarian. Uji coba dilakukan terhadap 30 dokumen yang terdiri atas surat keterangan, surat perizinan, dan surat pengantar. Hasil pengujian menunjukkan bahwa sistem mampu menampilkan dokumen dengan tingkat relevansi tertinggi, ditunjukkan oleh skor kemiripan sebesar 0,3989, dengan waktu pencarian kurang dari 0,002 detik. Integrasi OCR dan TF-IDF terbukti efektif dalam menghasilkan metadata terstruktur, mempercepat proses temu kembali informasi, serta meningkatkan akurasi pencarian dibandingkan metode manual. Penelitian ini diharapkan menjadi langkah awal transformasi pengelolaan arsip kelurahan menuju sistem digital yang lebih efisien, transparan, dan selaras dengan implementasi e-Government.
Downloads
References
L. Choirunnisa, T. H. C. Oktaviana, A. A. Ridlo, and E. I. Rohmah, “Peran Sistem Pemerintah Berbasis Elektronik (SPBE) Dalam Meningkatkan Aksesibilitas Pelayanan Publik di Indonesia,” Sosio Yustisia: Jurnal Hukum dan Perubahan Sosial, vol. 3, no. 1, pp. 71–95, Aug. 2023, doi: 10.15642/sosyus.v3i1.401.
F. Khoirunnisa, S. Roifah, S. Setiawan, and M. Ary, “STRATEGI PENGEMBANGAN SISTEM INFORMASI PELAYANAN KANTOR KELURAHAN MENGGUNAKAN ANALISIS SWOT,” JURNAL TEKNOLOGI DAN OPEN SOURCE, vol. 3, no. 1, pp. 44–59, Jun. 2020, doi: 10.36378/jtos.v3i1.519.
B. D. Kencono, H. H. Putri, and T. W. Handoko, “Transformasi Pemerintahan Digital: Tantangan dalam Perkembangan Sistem Pemerintahan Berbasis Elektronik (SPBE) di Indonesia,” JIIP - Jurnal Ilmiah Ilmu Pendidikan, vol. 7, no. 2, pp. 1498–1506, Feb. 2024, doi: 10.54371/jiip.v7i2.3519.
Kartika Setianingrum, H. I Nyoman Sumaryadi, and Ella Wargadinata, “PENERAPAN E-GOVERNMENT DALAM MENINGKATKAN KUALITAS PELAYANAN PUBLIK DI DINAS PENANAMAN MODAL DAN PELAYANAN TERPADU SATU PINTU KOTA BANDUNG PROVINSI JAWA BARAT,” VISIONER : Jurnal Pemerintahan Daerah di Indonesia, vol. 12, no. 4, pp. 843–854, Jan. 2021, doi: 10.54783/jv.v12i4.344.
K. Kibtiyah and Somantri, “Rancang Bangun Aplikasi Arsip Berbasis Mobile Untuk Pencarian Dokumen pada Gudang Arsip di CV Santoni Sukabumi,” Jurnal Sistim Informasi dan Teknologi, pp. 187–192, Jul. 2023, doi: 10.60083/jsisfotek.v5i2.257.
A. T. P. D. Akhsa, M. Agus, R. Rosmiati, and A. M. B. Ulum, “Perancangan E-Office Pelayanan Dan Pengarsipan Digital Menggunakan Metode OCR Berbasis Web,” INTECOMS: Journal of Information Technology and Computer Science, vol. 7, no. 1, pp. 218–226, Feb. 2024, doi: 10.31539/intecoms.v7i1.8367.
S. Kulkarni, R. Madurwar, R. Narlawar, A. Pandya, and N. Gawande, “Digitization of Physical Notes: A Comprehensive Approach Using OCR, CNN, RNN, and NMF,” in 2023 7th International Conference On Computing, Communication, Control And Automation (ICCUBEA), IEEE, Aug. 2023, pp. 1–5. doi: 10.1109/ICCUBEA58933.2023.10391967.
K. V Ujwal Karanth, A. T. Sujan, Y. R. Thanay Kumar, S. Joshi, K. P. Asha Rani, and S. Gowrishankar, “Breaking Barriers in Text Analysis: Leveraging Lightweight OCR and Innovative Technologies for Efficient Text Analysis,” in 2023 2nd International Conference on Automation, Computing and Renewable Systems (ICACRS), IEEE, Dec. 2023, pp. 359–366. doi: 10.1109/ICACRS58579.2023.10404305.
A. Yudistira and D. Novita, “Analisis Kepuasan Pengguna Aplikasi Arsip Digital Menggunakan Model End User Computing Satisfaction (EUCS),” Jurnal Teknologi Sistem Informasi, vol. 3, no. 2, pp. 176–188, Sep. 2022, doi: 10.35957/jtsi.v3i2.3059.
Moh. Syahrul Iskandar, Akhlis Munazilin, and Adi Susanto, “Implementasi Aplikasi Manajemen Arsip Surat Berbasis Optical Character Recognition Pada Badan Pusat Statistik Banyuwangi,” Jurnal Teknologi dan Manajemen Industri Terapan, vol. 4, no. 3, pp. 622–631, Jul. 2025, doi: 10.55826/jtmit.v4i3.793.
A. Anisah, D. Wahyuningsih, E. Helmud, T. Suwanda, P. Romadiana, and D. Irawan, “Rancang Bangun Sistem Informasi Manajemen Arsip Digital,” Jurnal Sisfokom (Sistem Informasi dan Komputer), vol. 10, no. 3, pp. 419–425, Dec. 2021, doi: 10.32736/sisfokom.v10i3.1300.
A. Takano, T. C. H. Cole, and H. Konagai, “A novel automated label data extraction and data base generation system from herbarium specimen images using OCR and NER,” Sci Rep, vol. 14, no. 1, p. 112, Jan. 2024, doi: 10.1038/s41598-023-50179-0.
D. Smith-Glaviana, W. N. Ng, C. Miller, and J. Spencer, “Digitizing Metadata of a University Fashion Collection’s Holdings Using OCR and Costume Core,” J Libr Metadata, vol. 24, no. 2, pp. 57–86, Apr. 2024, doi: 10.1080/19386389.2024.2303849.
Thomas. Roelleke, Information Retrieval Models. 2022.
Downloads
Published
Issue
Section
License
Copyright (c) 2025 Alvian Tri Putra Darti Akhsa, Muhammad Ikhwan Burhan; Aris Munandar

This work is licensed under a Creative Commons Attribution-ShareAlike 4.0 International License.
Copyright Notice
An author who publishes in the Jurnal FASILKOM (teknologi inFormASi dan ILmu KOMputer) agrees to the following terms:
- Author retains the copyright and grants the journal the right of first publication of the work simultaneously licensed under the Creative Commons Attribution-ShareAlike 4.0 License that allows others to share the work with an acknowledgement of the work's authorship and initial publication in this journal
- Author is able to enter into separate, additional contractual arrangements for the non-exclusive distribution of the journal's published version of the work (e.g., post it to an institutional repository or publish it in a book) with the acknowledgement of its initial publication in this journal.
- Author is permitted and encouraged to post his/her work online (e.g., in institutional repositories or on their website) prior to and during the submission process, as it can lead to productive exchanges, as well as earlier and greater citation of the published work (See The Effect of Open Access).
Read more about the Creative Commons Attribution-ShareAlike 4.0 Licence here: https://creativecommons.org/licenses/by-sa/4.0/.










_(1).png)



