CHANIF, MOCH. CHAIDAR (2025) PENERAPAN MULTILINGUAL BERT UNTUK KLASIFIKASI BAHASA INDONESIA DAN ATAU BAHASA MALAYSIA PADA TEKS PENDEK MEDIA SOSIAL. Undergraduate thesis, Universitas Islam Sultan Agung Semarang.

[thumbnail of Teknik Informatika_32602100066_pernyataan_publikasi.pdf] Text
Teknik Informatika_32602100066_pernyataan_publikasi.pdf
Restricted to Registered users only

| Download (179kB)
[thumbnail of Teknik Informatika_32602100066_fullpdf.pdf] Text
Teknik Informatika_32602100066_fullpdf.pdf

| Download (2MB)

Abstract

Bahasa Indonesia dan Bahasa Malaysia memiliki akar linguistik yang sama sehingga sering menunjukkan kemiripan kosakata dan struktur kalimat, namun juga menyimpan perbedaan makna yang dapat menimbulkan ambiguitas, khususnya pada teks pendek di media sosial. Kondisi ini menjadi tantangan dalam pengklasifikasian bahasa secara otomatis. Penelitian ini bertujuan mengimplementasikan model Multilingual Bidirectional Encoder Representations from Transformers (mBERT) untuk membedakan Bahasa Indonesia dan Bahasa Malaysia pada teks pendek dari platform Twitter. Data dikumpulkan melalui web scraping dengan panjang teks 1–20 kata, menghasilkan total 56.701 data, dengan distribusi Bahasa Indonesia (48,47%), Bahasa Malaysia (14,31%), dan campuran keduanya (37,22%). Proses penelitian mencakup preprocessing (pembersihan teks, case folding, normalisasi, tokenisasi), pembagian data latih dan uji (80:20), fine-tuning mBERT, serta evaluasi menggunakan akurasi, precision, recall, dan F1-score. Hasil pengujian menunjukkan bahwa model mBERT mencapai akurasi 95,8%, precision 97,9%, recall 95,1%, dan F1-score 96,5%, dengan performa stabil pada kedua kelas bahasa. Kesimpulan penelitian ini adalah mBERT efektif dan andal dalam mengklasifikasikan bahasa yang memiliki kemiripan tinggi pada teks pendek media sosial, sehingga berpotensi diterapkan pada pengolahan bahasa alami untuk bahasa-bahasa serumpun lainnya.

Kata Kunci: Klasifikasi Bahasa, Bahasa Indonesia, Bahasa Malaysia, mBERT, Teks Pendek, Media Sosial, NLP.

Dosen Pembimbing: Subroto, Imam Much. Ibnu | UNSPECIFIED
Item Type: Thesis (Undergraduate)
Subjects: Z Bibliography. Library Science. Information Resources > ZA Information resources > ZA4050 Electronic information resources
Divisions: Fakultas Teknologi Industri
Fakultas Teknologi Industri > Mahasiswa FTI - Skripsi Teknik Komputer
Depositing User: Pustakawan Reviewer UNISSULA
Date Deposited: 18 Nov 2025 07:36
URI: https://repository.unissula.ac.id/id/eprint/43658

Actions (login required)

View Item View Item