Contoh kasus pengaplikasian Text Mining

September 29, 2017

ANALISIS ASPIRASI DAN PENGADUAN DI SITUS LAPOR! DENGAN MENGGUNAKAN TEXT MINING

Contoh data sebelum preprocessing text

Langkah-langkah preprocessing text

1. Tokenization

Proses yang paling awal dilakukan yaitu tokenization. Pada prinsipnya, tokenization adalah proses pemisahan teks menjadi potongan kata yang disebut token. Tokenization dilakukan untuk mendapatkan token atau potongan kata yang akan menjadi entitas yang memiliki nilai dalam penyusunan matriks dokumen pada proses selanjutnya.

2. Case Folding

Case Folding merupakan proses pengubahan huruf dalam dokumen menjadi satu bentuk, misalnya huruf kapital menjadi huruf kecil dan sebaliknya.

3. Spelling Normalization

Proses ini merupakan proses perbaikan atau subtitusi kata-kata yang salah eja atau disingkat dalam bentuk tertentu. Subtitusi kata dilakukan untuk menghindari jumlah perhitungan dimensi kata yang melebar.

4. Filtering

Kata dan tanda baca yang tidak memiliki arti yang signifikan atau termasuk noise (pengganggu) akan dieliminasi. Kata atau frase yang tidak bermakna secara signifikan, misalnya hashtag (#), url, tanda baca tertentu (emoticon), dan lainnya. Laporan banyak diterima lewat sms, sehingga menyebabkan banyaknya tanda baca dan frase yang masuk pada penarikan laporan pada sistem LAPOR! yang tidak bisa diproses atau mengurangi performa pengolahan data pada tahap selanjutnya.

Data setelah tahap awal preprocessing text

5. Stemming

Pada bagian ini dilakukan proses untuk menemukan akar kata atau kata dasar dari sebuah kata. Proses stemming dilakukan dengan menghilangkan semua imbuhan (afiks) baik yang terdiri dari awalan (prefiks) sisipan (infiks) maupun akhiran (sufiks) dan kombinasi dari awalan dan akhiran (konfiks). Stemming digunakan untuk mengganti bentuk dari suatu kata menjadi kata dasar sesuai dengan struktur morfologi bahasa indonesia yang baik dan benar.

Data setelah proses Stemming

Sekian dari saya tentang tahapan preprocessing text pada Text Mining

Cari Blog Ini

Huracan's Blog

Contoh kasus pengaplikasian Text Mining

Komentar

Posting Komentar

Postingan populer dari blog ini

Tutorial menggunakan WEKA untuk perhitungan Naive Bayes

Tahap Preprocessing Text Mining