Menghitung kata di Suara Muhammadiyah

Seperti kita ketahui bahwa suara muhammadiyah adalah majalah tertua milik muhammadiyah. Sebagai media resmi bagi organisasi, sudah selayaknya berisi pedoman dan berita resmi organisasi. Untuk melihat perkembangan wacana organisasi baik jargon ataupun wacana utama berupa kata kunci semestinya dapat kita lihat pada media resmi ini. Dalam kajian IR (Information Retrieval) mungkin ini adalah hal yang menarik untuk dikaji.

Pada kesempatan ini, penulis mendapatkan berkas pdf SM sebanyak 12 edisi tahun 2012 dari sebuah web. Dengan berbekal semangat belajar tentang IR dan text mining, maka dimulailah googling tentang penggunaan bahasa dan kata. Pada kajian ini banyak yang membahas seberapa sering sebuah kata digunakan oleh media seperti ivan lanin dkk, yang membahas penggunaan kata pada media di Indonesia. Untuk paper-paper yang lain belum sempat mencari lagi πŸ™‚

Untuk mendapatkan text dari berkas pdf, penulis menggunakan utilitas dari popler yaitu pdftotext. Perangkat ini memungkinkan untuk mengekstrak berkas pdf menjadi text, utamanya untuk berkas pdf yang bukan hasil scan image. Pada percobaan ini penulis mengekstrak keseluruhan halaman, yaitu dari cover hingga halaman akhir. Dan kemungkinan metode eksktrak ini menjadi kurang valid, karena judul dan daftar isi menjadi redundan kata yang akan dikumpulkan, demikian juga dengan header dan footer majalah yang mengulang-ulang judul majalah dan nomor edisi.

Setelah mendapat berkas teks dari majalah, langkah selanjutnya adalah menghitung kata yang sering digunakan. Dalam hal ini ada beberapa perlakuan yaitu (1) menghitung keseluruhan kata yang muncul tanpa filtering, (2) menghitung kata dengan pentapisan stopwords (disini dan disini) yaitu kata hubung yang sering digunakan,(3) menghitung pasangan kata yang sering digunakan, pada tulisan ini adalah 2 pasangan kata atau sering disebut dengan bigrams. Untuk melakukan tahapan-tahapan ini penulis menggunakan python karena kebetulan banyak contoh skrip yang bisa dibagi pakai secara lisensinya.

Berikut beberapa hasil penghitungan, pada tabel ditampilkan 20 urutan teratas kata dan pasangan kata.

Tabel 1 Β Kata dengan Stopwords

Kata dgn Stopwords Frequensi
yang 12894
dan 11574
di 5796
dengan 4640
muhammadiyah 4400
dalam 4155
ini 3354
tidak 3195
dari 3132
untuk 3011
itu 2663
islam 2472
pada 2024
oleh 1667
adalah 1622
menjadi 1570
atau 1549
sebagai 1523
akan 1414
ada 1413

Tabel 2 Kata tanpa Stopwords

Kata tanpa Stopwords Frekuensi
muhammadiyah 4400
islam 2472
pendidikan 1119
allah 1037
orang 1031
suara 935
umat 927
masyarakat 828
sekolah 750
agama 749
gerakan 679
politik 669
alquran 641
memiliki 640
manusia 631
anak 581
aisyiyah 562
dakwah 548
pimpinan 535
ilmu 529

Tabel 3 Pasangan Kata

Pasangan kata Frekuensi
suara muhammadiyah 805
umat islam 448
allah swt 215
amal usaha 200
rasulullah saw 170
ahmad dahlan 157
pendidikan muhammadiyah 150
prof dr 136
sekolah muhammadiyah 125
nabi saw 121
pp muhammadiyah 120
nabi muhammad 112
ilmu pengetahuan 112
ajaran islam 109
sd muhammadiyah 103
rek no 98
sajian utama 96
warga muhammadiyah 95
agama islam 94
muhammad saw 90

Jika dilihat pada tabel 1 maka penggunaan kata hubung lebih dominan daripada kata kunci dalam hal ini “muhammadiyah”, kata hubung “yang” dominan dalam penulisan di majalah suara muhammadiyah. kemungkinan berkait dengan penggunaan kalimat majemuk untuk menjelaskan sesuatu tema. Pada Tabel 1 kata yang banyak muncul pada 20 urutan teratas adalah kata yang sering disebut dengan istilah stopwords, yaitu kata yang hanya menambah tetapi tidak mempunyai makna tersendiri.

Pada Tabel 2, ketika text di filter dengan stopwords bahasa Indonesia, maka “muhammadiyah”,”Islam”,”pendidikan” menjadi kata pada urutan atas. Dari kemunculan kata-kata ini sudah mulai menggambarkan apa saja tema dalam majalah resmi muhammadiyah ini. Dan kata-kata pada urutan berikutnya adalah menunjukkan bahasan apa saja yang berkait dengan 3 tema besar yang sudah didapatkan diatas.

Pada Tabel 3 dengan model bigram yaitu mengurutkan pasangan kata yang sering muncul, didapatkan “suara muhammadiyah” sesuai dengan nama majalah ini, dan kebetulan tertulis pada footnote majalah ini. Tema berikutnya adalah hal yang banyak dibahas yaitu “umat islam” dan “allah swt”, kata yang saling berkait dengan tema yang dibahas yang tidak lepas dari keumatan dan juga religiusitas, transendensial yaitu “Allah SWT”. Pasangan kata berikutnya tentang “amal usaha” dan kemungkinan info yang ada pada majalah ini adalah membahas kegiatan organisasi. kata tentang pendidikan, penyematan gelar pendidikan, sekolah dan lembaga pendidikan dan ilmu pengetahuan cukup mewarnai majalah ini, ditambah lagi dengan simbol-simbol keislaman juga. Munculnya nama rubrik “sajian utama” tidak lepas dari proses ektraksi majalah yang mengambil halaman lengkap dengan header serta footernya.

pasangankata stopwordsfilter tanpastopwords

Nah jika ada bahan lebih, misal berkas majalah selama 1 periode muktamar muhammadiyah, sepertinya akan lebih menarik lagi untuk ektraski tema-tema muhammadiyah secara tekstualnya. Dan penulis juga meyakini bahwa masih banyak tema lagi yang dapat dipelajari dari ekstraksi Β teks dari lembaga/organisasi untuk pemetaan tema-tema utama organisasi.

About Author:

Leave A Comment