Tahap Preprocessing Text Mining

Tahap Preprocessing Text


1Case Folding
Case folding merupakan tahapan yang mengubah semua huruf dalam dokumen menjadi huruf kecil. Hanya huruf ‘a’ sampai dengan ‘z’ yang diterima. Karakter selain huruf dihilangkan dan dianggap delimiter (pembatas)(Triawati, 2009).Contoh penggunaan case folding adalah sebagai berikut.
                  data input                                                    hasil case folding

2.  Tokenizing 
Tahap tokenizing / parsing adalah tahap pemotongan string input berdasarkan tiap kata yang menyusunnya(Triawati, 2009). Selain itu, spasi digunakan untuk memisahkan antar kata tersebut.

                           data input                                      hasil tokenizing / parsing

Penjelasan:
Input
Output
Kalimat/kata input hasil dari proses case folding
Kumpulan kata

3.  Filtering 
Tahap filtering adalah tahap mengambil kata - kata penting dari hasil tokenizing. Proses filtering dapat menggunakan algoritma stoplist (membuang kata yang kurang penting) atau wordlist (menyimpan kata penting). Stoplist / stopword adalah kata-kata yang tidak deskriptif yang dapat dibuang dalam pendekatan bag-of-words. Contoh stopword adalah “yang”, “dan”, “di”, “dari” dan lain – lain.(Triawati, 2009).
        
 
              data input                                                       hasil filtering

Penjelasan:
Input
Output
Kumpulan kata hasil dari proses tokenizing/parsing
Kumpulan term yang siap untuk diolah dengan proses svd

4. Stemming
Stemming merupakan suatu proses yang terdapat dalam sistem IR yang mentransformasi kata-kata yang terdapat dalam suatu dokumen ke kata-kata akarnya (root word) dengan menggunakan aturan-aturan tertentu (Agusta, 2009). Stemming kebanyakan digunakan pada teks berbahasa inggris dikarenakan teks berbahasa inggris memiliki struktur imbuhan yang tetap dan mudah untuk diolah sementara stemming untuk proses bahasa Indonesia memiliki struktur imbuhan yang rumit / kompleks sehingga agak lebih susah untuk diolah.





5. Spelling Normalization
Merupakan perbaikan dan subtitusi kata-kata yang salah eja ataupun disingkat dengan bentuk tertentu. Subtitusi kata dilakukan untuk menghindari jumlah perhitungan dimensi kata yang melebar. Perhitungan dimensi kata akan melebar jika kata yang salah eja atau disingkat tidak diubah karena kata tersebut sebenarnya memiliki kontribusi dalam merepresentasikan dokumen tetapi akan dianggap sebagai entitas yang berbeda proses penyusunan matriks.

6.  Analyzing
Merupakan tahap penentuan seberapa jauh keterhubungan antar kata-kata antar dokumen yang ada 

Komentar

  1. Assalamu'alaykum mas mau tanya untuk sumber data di atas bisa di lihat di mana ya? kalau bisa mohon di tambahi info data pustakanya yaa terimakasih mas...

    BalasHapus
  2. Casino City: Gambling and gambling in Las Vegas - Dr. MD
    Gambling in Las Vegas 도레미시디 출장샵 is 김해 출장안마 a social activity centered around the 충주 출장안마 use 광주광역 출장마사지 of a card. and a 논산 출장마사지 room for gambling and gambling.

    BalasHapus

Posting Komentar

Postingan populer dari blog ini

Contoh kasus pengaplikasian Text Mining

Tutorial Ambil data sampai save data ke format .csv