Text mining merupakan salah satu subjek data mining, karena teks juga adalah data. Secara definisi, text mining adalah proses mengeksplorasi dan menganalisis sejumlah besar data teks tidak terstruktur yang dibantu oleh perangkat lunak yang dapat mengidentifikasi konsep, pola, topik, kata kunci, dan atribut lainnya dalam data.
Namun, karena cakupannya sangat luas sehingga harus dibedakan antara Text Mining dan Data Mining.Â
Data mining menambang pengetahuan dari kumpulan data yang banyak dan biasanya terstruktur. Perbedaannya terdapat dari tugas data miningnya, seperti klasifikasi, klasterisasi, asosiasi, estimasi atau prediksi, bukan pada karakteristik data yang diolahnya.
Data teks itu seperti artikel di media online, chat grup whatsapp, status atau tweet di media sosial dan lain sebagainya. Kira-kira lebih dari 80% data yang ada di internet bersifat tidak terstruktur, seperti data teks, video, audio, image dan lainnya.
Fungsinya sangat banyak. Misalnya menganalisis sentimen para pengguna aplikasi game online Mobile Legend, lebih banyak mana orang yang suka atau orang yang tidak suka.
Text mining juga bisa mengkategorisasikan artikel sesuai dengan kata kunci pada artikelnya. Mudah saja melakukan itu jika artikelnya ada 100, tapi jika artikelnya ada ribuan bahkan ratusan ribu, disinilah letak fungsinya yaitu untuk mengolah data tersebut sehingga bisa dikelompokkan dengan cepat dengan algoritma tertentu.Â
Baca Juga :Â Buku Terbitan Lokal untuk Bacaan Anak Tambang-Geologi
Contoh berikutnya jika ingin mengetahui akun mana yang berkelompok dan yang bertentangan dengan kelompok tersebut, itu disebut dengan Social Network Analysis. Data yang diambil dari Twitter atau Facebook atau media sosial lainnya.
Tahapan dalam text mining dapat dilakukan dengan cara sebagai berikut,
- Knowledge Discovery Goal
- Data Preparation
- Data Pre processing
- Data Modelling
- Evaluation
- Knowledge and Result