Tahap Preprocessing Text Mining
Tahap Preprocessing Text
1. Case Folding
Case folding merupakan tahapan yang mengubah semua huruf dalam dokumen menjadi huruf kecil. Hanya huruf ‘a’ sampai dengan ‘z’ yang diterima. Karakter selain huruf dihilangkan dan dianggap delimiter (pembatas)(Triawati, 2009).Contoh penggunaan case folding adalah sebagai berikut.
2. Tokenizing
Tahap tokenizing / parsing adalah tahap pemotongan string input berdasarkan tiap kata yang menyusunnya(Triawati, 2009). Selain itu, spasi digunakan untuk memisahkan antar kata tersebut.
3. Filtering
Tahap filtering adalah tahap mengambil kata - kata penting dari hasil tokenizing. Proses filtering dapat menggunakan algoritma stoplist (membuang kata yang kurang penting) atau wordlist (menyimpan kata penting). Stoplist / stopword adalah kata-kata yang tidak deskriptif yang dapat dibuang dalam pendekatan bag-of-words. Contoh stopword adalah “yang”, “dan”, “di”, “dari” dan lain – lain.(Triawati, 2009).
4. Stemming
Stemming merupakan suatu proses yang terdapat dalam sistem IR
yang mentransformasi kata-kata yang terdapat dalam suatu dokumen ke kata-kata
akarnya (root word) dengan
menggunakan aturan-aturan tertentu (Agusta,
2009).
Stemming kebanyakan digunakan pada
teks berbahasa inggris dikarenakan teks berbahasa inggris memiliki struktur
imbuhan yang tetap dan mudah untuk diolah sementara stemming untuk proses bahasa Indonesia memiliki struktur imbuhan
yang rumit / kompleks sehingga agak lebih susah untuk diolah.
5. Spelling Normalization
Merupakan perbaikan dan subtitusi kata-kata yang salah eja ataupun disingkat dengan bentuk tertentu. Subtitusi kata dilakukan untuk menghindari jumlah perhitungan dimensi kata yang melebar. Perhitungan dimensi kata akan melebar jika kata yang salah eja atau disingkat tidak diubah karena kata tersebut sebenarnya memiliki kontribusi dalam merepresentasikan dokumen tetapi akan dianggap sebagai entitas yang berbeda proses penyusunan matriks.
6. Analyzing
Merupakan tahap penentuan seberapa jauh keterhubungan antar kata-kata antar dokumen yang ada
1. Case Folding
Case folding merupakan tahapan yang mengubah semua huruf dalam dokumen menjadi huruf kecil. Hanya huruf ‘a’ sampai dengan ‘z’ yang diterima. Karakter selain huruf dihilangkan dan dianggap delimiter (pembatas)(Triawati, 2009).Contoh penggunaan case folding adalah sebagai berikut.
data input hasil case folding
2. Tokenizing
Tahap tokenizing / parsing adalah tahap pemotongan string input berdasarkan tiap kata yang menyusunnya(Triawati, 2009). Selain itu, spasi digunakan untuk memisahkan antar kata tersebut.
data input hasil tokenizing / parsing
Penjelasan:
Input
|
Output
|
Kalimat/kata input hasil dari proses case folding
|
Kumpulan kata
|
3. Filtering
Tahap filtering adalah tahap mengambil kata - kata penting dari hasil tokenizing. Proses filtering dapat menggunakan algoritma stoplist (membuang kata yang kurang penting) atau wordlist (menyimpan kata penting). Stoplist / stopword adalah kata-kata yang tidak deskriptif yang dapat dibuang dalam pendekatan bag-of-words. Contoh stopword adalah “yang”, “dan”, “di”, “dari” dan lain – lain.(Triawati, 2009).
data input hasil filtering
Penjelasan:
Input
|
Output
|
Kumpulan kata hasil dari proses tokenizing/parsing
|
Kumpulan term yang siap untuk diolah dengan proses svd
|
4. Stemming
Merupakan perbaikan dan subtitusi kata-kata yang salah eja ataupun disingkat dengan bentuk tertentu. Subtitusi kata dilakukan untuk menghindari jumlah perhitungan dimensi kata yang melebar. Perhitungan dimensi kata akan melebar jika kata yang salah eja atau disingkat tidak diubah karena kata tersebut sebenarnya memiliki kontribusi dalam merepresentasikan dokumen tetapi akan dianggap sebagai entitas yang berbeda proses penyusunan matriks.
6. Analyzing
Merupakan tahap penentuan seberapa jauh keterhubungan antar kata-kata antar dokumen yang ada
Assalamu'alaykum mas mau tanya untuk sumber data di atas bisa di lihat di mana ya? kalau bisa mohon di tambahi info data pustakanya yaa terimakasih mas...
BalasHapusmantull nih min
BalasHapusmesin pemisah lcd
Casino City: Gambling and gambling in Las Vegas - Dr. MD
BalasHapusGambling in Las Vegas 도레미시디 출장샵 is 김해 출장안마 a social activity centered around the 충주 출장안마 use 광주광역 출장마사지 of a card. and a 논산 출장마사지 room for gambling and gambling.