Contoh kasus pengaplikasian Text Mining

ANALISIS ASPIRASI DAN PENGADUAN DI SITUS LAPOR! DENGAN MENGGUNAKAN TEXT MINING













 

Contoh data sebelum preprocessing text



















Langkah-langkah preprocessing text

1. Tokenization


Proses yang paling awal dilakukan yaitu tokenization. Pada prinsipnya, tokenization adalah proses pemisahan teks menjadi potongan kata yang disebut token. Tokenization dilakukan untuk mendapatkan token atau potongan kata yang akan menjadi entitas yang memiliki nilai dalam penyusunan matriks dokumen pada proses selanjutnya.




















2. Case Folding

Case Folding merupakan proses pengubahan huruf dalam dokumen menjadi satu bentuk, misalnya huruf kapital menjadi huruf kecil dan sebaliknya.


















3. Spelling Normalization

Proses ini merupakan proses perbaikan atau subtitusi kata-kata yang salah eja atau disingkat dalam bentuk tertentu. Subtitusi kata dilakukan untuk menghindari jumlah perhitungan dimensi kata yang melebar.



















4. Filtering


Kata dan tanda baca yang tidak memiliki arti yang signifikan atau termasuk noise (pengganggu) akan dieliminasi. Kata atau frase yang tidak bermakna secara signifikan, misalnya hashtag (#), url, tanda baca tertentu (emoticon), dan lainnya. Laporan banyak diterima lewat sms, sehingga menyebabkan banyaknya tanda baca dan frase yang masuk pada penarikan laporan pada sistem LAPOR! yang tidak bisa diproses atau mengurangi performa pengolahan data pada tahap selanjutnya.

















Data setelah tahap awal preprocessing text
















5. Stemming


Pada bagian ini dilakukan proses untuk menemukan akar kata atau kata dasar dari sebuah kata. Proses stemming dilakukan dengan menghilangkan semua imbuhan (afiks) baik yang terdiri dari awalan (prefiks) sisipan (infiks) maupun akhiran (sufiks) dan kombinasi dari awalan dan akhiran (konfiks). Stemming digunakan untuk mengganti bentuk dari suatu kata menjadi kata dasar sesuai dengan struktur morfologi bahasa indonesia yang baik dan benar.



















Data setelah proses Stemming

















Sekian dari saya tentang tahapan preprocessing text pada Text Mining

Komentar

Postingan populer dari blog ini

Tahap Preprocessing Text Mining

Tutorial Ambil data sampai save data ke format .csv