CHANIF, MOCH. CHAIDAR (2025) PENERAPAN MULTILINGUAL BERT UNTUK KLASIFIKASI BAHASA INDONESIA DAN ATAU BAHASA MALAYSIA PADA TEKS PENDEK MEDIA SOSIAL. Undergraduate thesis, Universitas Islam Sultan Agung Semarang.
|
Text
Teknik Informatika_32602100066_pernyataan_publikasi.pdf Restricted to Registered users only |
|
|
Text
Teknik Informatika_32602100066_fullpdf.pdf |
Abstract
Bahasa Indonesia dan Bahasa Malaysia memiliki akar linguistik yang sama sehingga sering menunjukkan kemiripan kosakata dan struktur kalimat, namun juga menyimpan perbedaan makna yang dapat menimbulkan ambiguitas, khususnya pada teks pendek di media sosial. Kondisi ini menjadi tantangan dalam pengklasifikasian bahasa secara otomatis. Penelitian ini bertujuan mengimplementasikan model Multilingual Bidirectional Encoder Representations from Transformers (mBERT) untuk membedakan Bahasa Indonesia dan Bahasa Malaysia pada teks pendek dari platform Twitter. Data dikumpulkan melalui web scraping dengan panjang teks 1–20 kata, menghasilkan total 56.701 data, dengan distribusi Bahasa Indonesia (48,47%), Bahasa Malaysia (14,31%), dan campuran keduanya (37,22%). Proses penelitian mencakup preprocessing (pembersihan teks, case folding, normalisasi, tokenisasi), pembagian data latih dan uji (80:20), fine-tuning mBERT, serta evaluasi menggunakan akurasi, precision, recall, dan F1-score. Hasil pengujian menunjukkan bahwa model mBERT mencapai akurasi 95,8%, precision 97,9%, recall 95,1%, dan F1-score 96,5%, dengan performa stabil pada kedua kelas bahasa. Kesimpulan penelitian ini adalah mBERT efektif dan andal dalam mengklasifikasikan bahasa yang memiliki kemiripan tinggi pada teks pendek media sosial, sehingga berpotensi diterapkan pada pengolahan bahasa alami untuk bahasa-bahasa serumpun lainnya.
Kata Kunci: Klasifikasi Bahasa, Bahasa Indonesia, Bahasa Malaysia, mBERT, Teks Pendek, Media Sosial, NLP.
| Dosen Pembimbing: | Subroto, Imam Much. Ibnu | UNSPECIFIED |
|---|---|
| Item Type: | Thesis (Undergraduate) |
| Subjects: | Z Bibliography. Library Science. Information Resources > ZA Information resources > ZA4050 Electronic information resources |
| Divisions: | Fakultas Teknologi Industri Fakultas Teknologi Industri > Mahasiswa FTI - Skripsi Teknik Komputer |
| Depositing User: | Pustakawan Reviewer UNISSULA |
| Date Deposited: | 18 Nov 2025 07:36 |
| URI: | https://repository.unissula.ac.id/id/eprint/43658 |
Actions (login required)
![]() |
View Item |
