Minggu, 17 Juli 2016

MENGENAL BEBERAPA ANALISIS DALAM TEXT MINING



Melanjutkan hasil riset kemarin terkait text analytics atau text mining, kali ini akan dijelaskan beberapa analisis dalam pendekatan olah kata ini. Sedikitnya ada 5 analisis penting yang dapat digunakan dan dielaborasi. Objek data dalam analisis ini adalah 50 literatur buku terkait keuangan Islam.

Pertama adalah Query Analysis. Query adalah analisa untuk mencari obyek berdasarkan atribut data yang dimiliki. Query analysis adalah proses yang digunakan dalam database yang menggunakan SQL untuk menentukan bagaimana agar lebih mengoptimalkan query untuk kinerja. Hasilnya, dari 50 literatur keuangan Islam, terbagi dalam 3 kelompok. Education sebesar 70%, religion 20% dan business 10%.

Kedua adalah Sentiment Analysis. Analisis sentimen merupakan proses klasifikasi dokumen tekstual ke dalam tiga kategori, yaitu kelas sentimen positif, negatif dan netral. Dari objek data yang diolah, sebanyak 64% memiliki penilaian positif, 28% netral dan hanya 8% yang memiliki sentimen penilaian negatif.

Ketiga adalah Phrases Analysis. Frase adalah sebuah makna linguistik. Lebih tepatnya, frasa merupakan satuan linguistik yang lebih besar dari kata dan lebih kecil dari klausa dan kalimat. Frasa adalah kumpulan kata nonpredikatif. Artinya frasa tidak memiliki predikat dalam strukturnya. Setelah diolah, frase yang paling banyak muncul "Islamic Finance" sebesar 26%. Selanjutnya adalah frase "Islamic Banking" sebesar 6% dan ketiga adalah "Islamic Law" 5%. Sisanya adalah frase-frase lain. 

Keempat adalah Category Analysis. Tujuan dari analisis ini adalah, mengklasifikasi objek data berdasarkan kategori tertentu. Hasilnya seperti yang baru lalu ditampilkan. Business (50%) dan Finance (42%) yang paling dominan dibanding kategori lain seperti: Accounting, IT, Politics etc. 

Last but not least adalah Summary Analysis. Yang terakhir ini mempunyai fungsi dan kegunaan melakukan ekstraksi dari data yang banyak menjadi hanya beberapa kesimpulan penting. Misal, sebuah buku yang terdiri dari ratusan halaman dapat di-ekstrak menjadi hanya 3-4 paragraf yang merupakan kesimpulan dan summary terpenting dari keseluruhan.

Tidak ada komentar:

Posting Komentar