ANALISIS KOMPARATIF KINERJA MINICPM-V2.6 SEBAGAI LLM MULTIMODAL DALAM VISUAL QUESTION ANSWERING PADA STRUK PEMBELIAN DIGITAL

Authors

  • Richo Richo Politeknik Perkapalan Negeri Surabaya

DOI:

https://doi.org/10.23960/jitet.v13i3S1.7987

Abstract Views: 31 File Views: 25

Keywords:

LLM Multimodal, MiniCPM-v2.6, Struk Digital, VQA

Abstract

Meningkatnya volume transaksi digital dan kebutuhan otomatisasi pemrosesan dokumen, terutama dokumen semi-struktural seperti struk pembelian, maka diperlukan sistem cerdas yang mampu mengekstraksi informasi penting secara otomatis dan efisien. Namun, dokumen semacam ini umumnya memiliki format visual yang tidak konsisten, informasi numerik yang kompleks, dan tata letak tidak terstruktur, sehingga menimbulkan tantangan besar dalam proses ekstraksi informasi berbasis Optical Character Recognition (OCR) konvensional. Untuk menjawab tantangan tersebut, penelitian ini mengembangkan dan mengevaluasi sistem Visual Question Answering (VQA) berbasis Large Language Model (LLM) multimodal untuk mendeteksi dan memahami isi struk pembelian secara menyeluruh. Beberapa model VQA mutakhir seperti MiniCPM-v2.6, LLaMA-3, DeepSeek-VL2, LLaVA, dan BLIP-2 diuji menggunakan prompt engine multifungsi yang dirancang secara sistematis. Evaluasi dilakukan menggunakan metrik BERT Cosine Accuracy (BCA) untuk mengukur kesesuaian semantik antara jawaban model dan jawaban aktual, serta waktu inferensi sebagai indikator efisiensi eksekusi. Hasil menunjukkan bahwa MiniCPM-v2.6 unggul dengan rata-rata BCA sebesar 97,68% dan waktu eksekusi tercepat sekitar 5,51 menit. Dengan keunggulan ini, MiniCPM-v2.6 direkomendasikan sebagai model yang paling efisien dan akurat untuk sistem VQA berbasis dokumen semi-struktural, khususnya untuk implementasi dalam perangkat edge atau sistem kasir cerdas.

Downloads

Download data is not yet available.

References

Y. Astuti and K. K. Wicaksana, “Rancang Bangun Sistem Pemindaian Struk Belanja untuk Mendapatkan Rincian Belanja,” Semin. Nas. Teknol. Inf. dan Multimed., vol. 6, no. 1, pp. 37–42, 2018.

G. Lee and X. Zhai, “Realizing Visual Question Answering for Education: GPT-4V as a Multimodal AI,” TechTrends, vol. 69, no. 2, pp. 271–287, 2025, doi: 10.1007/s11528-024-01035-z.

L. S. Arifiyanto and F. Masya, “Analisa dan Perancangan Sistem Struk Digital Berbasis Android dan SMS Gateway,” J. Sist. Inf. dan E-Bisnis, vol. 1, no. 6, pp. 214–222, 2019.

G. Singh et al., “Efficiently Serving Large Multimodal Models Using EPD Disaggregation,” 2024.

Y. Hu et al., “SF2T: Self-supervised Fragment Finetuning of Video-LLMs for Fine-Grained Understanding,” Comput. Vis. Found. J., pp. 29108–29117, 2025.

N. N. Qonita, M. R. Handayani, and K. Umam, “Digital Forensic Chatbot Using DeepSeek LLM and NER for Automated Electronic Evidence Investigation,” J. Tek. Inform., vol. 6, no. 3, pp. 1203–1216, 2025.

R. Richo, “Sistem Identifikasi Informasi Expired Date Produk Kemasan Menggunakan Kolaborasi Metode Yolo-V11M Dan Paddleocr,” J. Rekayasa Sist. Inf. dan Teknol., vol. 2, no. 3, pp. 886–900, 2025, doi: 10.70248/jrsit.v2i3.1719.

S. Zhou et al., “EgoTextVQA: Towards Egocentric Scene-Text Aware Video Question Answering,” CVPR Pap. J., pp. 3363–3373, 2025.

R. Richo, “Analisis Keandalan YOLOv8m untuk Deteksi Varian Produk Kemasan Kotak pada Sistem Manajemen Kesediaan Stock,” INFORMATICS Digit. Expert, vol. 2, pp. 124–131, 2024.

Nur Wahyuningsih Ramadhani, E. Herianto, A. Fauzan, and M. Zubair, “PENGARUH MODEL PEMBELAJARAN KOOPERATIF TIPE GIVING QUESTION AND GETTING ANSWERS BERBASIS MEDIA AUDIO VISUAL TERHADAP HASIL BELAJAR PPKn PADA SISWA KELAS VIII DI SMPN 16 MATARAM,” Pendas J. Ilm. Pendidik. Dasar, vol. 9, no. 02, pp. 3968–3977, 2024, doi: 10.2207/jjws.91.328.

D. N. Pratomo, D. U. K. Putri, and A. Azhari, “Implementasi Optical Character Recognition berbasis Deep Learning untuk Ekstraksi Data Sertifikat Tanah,” J. Inform. J. Pengemb. IT, vol. 7, no. 3, pp. 131–134, 2022.

A. Yudertha and R. D. Putri, “Mapping Machine Learning Trends in Chemistry Research using LLM with Multi-Turn Prompting,” Sistemasi, vol. 14, no. 2, p. 587, 2025, doi: 10.32520/stmsi.v14i2.4961.

R. Richo, R. Y. Adhitya, M. K. Hasin, M. Syai’in, and E. Setiawan, “Eksplorasi Keandalan Sistem Sortir dan Klasifikasi Kecacatan Perekat Kemasan Menggunakan Arsitektur UNet-Inception Convolutional Neural Network,” J. Elektron. dan Otomasi Ind., vol. 10, no. 3, pp. 321–333, 2023, doi: 10.33795/elkolind.v10i3.3835.

F. Hibatulwafi and L. Laksmi, “Fenomena Penggunaan Generative AI dalam Perilaku Pencarian Informasi Praktisi Teknologi,” Media Pustak., vol. 31, no. 2, pp. 141–155, 2024, doi: 10.37014/medpus.v31i2.5222.

R. Richo, R. Yudha Adhitya, M. Khoirul Hasin, M. Syai’in, and E. Setiawan, “Analisis Pengaruh Optimizer pada Model CNN untuk Identifikasi Cacat pada Perekat Kemasan Optimizer,” J. Sisfotenika, vol. 13, no. 2, pp. 217–229, 2023, [Online]. Available: http://sisfotenika.stmikpontianak.ac.id/index.php/ST

Downloads

Published

2025-10-19

How to Cite

Richo, R. (2025). ANALISIS KOMPARATIF KINERJA MINICPM-V2.6 SEBAGAI LLM MULTIMODAL DALAM VISUAL QUESTION ANSWERING PADA STRUK PEMBELIAN DIGITAL. Jurnal Informatika Dan Teknik Elektro Terapan, 13(3S1). https://doi.org/10.23960/jitet.v13i3S1.7987

Issue

Section

Articles