Contoh kasus pengaplikasian Text Mining
ANALISIS ASPIRASI DAN PENGADUAN DI SITUS LAPOR! DENGAN MENGGUNAKAN TEXT MINING
Contoh data sebelum preprocessing text
Langkah-langkah preprocessing text
1. Tokenization
3. Spelling Normalization
Proses ini merupakan proses perbaikan atau subtitusi kata-kata yang salah eja atau disingkat dalam bentuk tertentu. Subtitusi kata dilakukan untuk menghindari jumlah perhitungan dimensi kata yang melebar.
4. Filtering
Kata dan tanda baca yang tidak memiliki arti yang signifikan atau termasuk noise (pengganggu) akan dieliminasi. Kata atau frase yang tidak bermakna secara signifikan, misalnya hashtag (#), url, tanda baca tertentu (emoticon), dan lainnya. Laporan banyak diterima lewat sms, sehingga menyebabkan banyaknya tanda baca dan frase yang masuk pada penarikan laporan pada sistem LAPOR! yang tidak bisa diproses atau mengurangi performa pengolahan data pada tahap selanjutnya.
Data setelah tahap awal preprocessing text
5. Stemming
Contoh data sebelum preprocessing text
Langkah-langkah preprocessing text
1. Tokenization
Proses yang
paling awal dilakukan yaitu tokenization. Pada prinsipnya, tokenization adalah
proses pemisahan teks menjadi potongan kata yang disebut token. Tokenization
dilakukan untuk mendapatkan token atau potongan kata yang akan menjadi entitas
yang memiliki nilai dalam penyusunan matriks dokumen pada proses selanjutnya.
2. Case Folding
Case Folding merupakan proses pengubahan huruf dalam dokumen menjadi satu bentuk, misalnya huruf kapital menjadi huruf kecil dan sebaliknya.
Case Folding merupakan proses pengubahan huruf dalam dokumen menjadi satu bentuk, misalnya huruf kapital menjadi huruf kecil dan sebaliknya.
3. Spelling Normalization
Proses ini merupakan proses perbaikan atau subtitusi kata-kata yang salah eja atau disingkat dalam bentuk tertentu. Subtitusi kata dilakukan untuk menghindari jumlah perhitungan dimensi kata yang melebar.
4. Filtering
Kata dan tanda baca yang tidak memiliki arti yang signifikan atau termasuk noise (pengganggu) akan dieliminasi. Kata atau frase yang tidak bermakna secara signifikan, misalnya hashtag (#), url, tanda baca tertentu (emoticon), dan lainnya. Laporan banyak diterima lewat sms, sehingga menyebabkan banyaknya tanda baca dan frase yang masuk pada penarikan laporan pada sistem LAPOR! yang tidak bisa diproses atau mengurangi performa pengolahan data pada tahap selanjutnya.
Data setelah tahap awal preprocessing text
5. Stemming
Pada bagian
ini dilakukan proses untuk menemukan akar kata atau kata dasar dari sebuah
kata. Proses stemming dilakukan dengan menghilangkan semua imbuhan
(afiks) baik yang terdiri dari awalan (prefiks) sisipan (infiks) maupun akhiran
(sufiks) dan kombinasi dari awalan dan akhiran (konfiks). Stemming digunakan
untuk mengganti bentuk dari suatu kata menjadi kata dasar sesuai dengan
struktur morfologi bahasa indonesia yang baik dan benar.
Data setelah proses Stemming
Sekian dari saya tentang tahapan preprocessing text pada Text Mining
Komentar
Posting Komentar