ANALISIS TEKS KOMENTAR PRODUK PADA E-COMMERCE DENGAN MENGGUNAKAN ALGORITMA TEKS CLUSTERING BERBASIS PYTHON
Abstract
Fokus dari peneltitian ini adalah melakukan analisis text mining pada produk elektronik yang dijual di e-commerce Shopee dengan menggunakan metode algoritma K-Means menggunakan bahasa python. Data yang di scraping adalah teks komentar, angka penjualan dan skor rating bintang. Data hasil dari penelitian didapatkan pada analisis teks komentar produk dengan wordcloud produk Smartphone low cost menunjukan data komentar marketplace shopee Indonesia dapat bahwa baik di smartphone low cost maupun yang high cost cenderung memiliki pola wordloud yang sama dimana kata-kata yang dominan muncul cenderung netral dan positif, sedang kata-kata yang bermakna negatif cederung tidak dominan. Sementara kata yang sering muncul yaitu barang, mantap, cepat,kirim dan bagus dengan nilai akurasi presentase sebesar 92%. Sedangkan hasil proses wordcloud medium high cost diperoleh kata yang sering muncul ialah kata (kirim, cepat, dan bagus) dengan nilai akurasi dengan presentase 94%. Serta berdasarkan hasil grafik dari proses clustering data k-means menunjukan bahwa angka penjualan 0 sampai 1000 mendapatkan skor rating bintang tertinggi dan penjualan dengan skor rating bintang terendah ialah antara 1500 sampai 2000 ke atas.
Kata kunci :clustering, k-means, python
ABSTRACT
The focus of this research is to analyze text mining on electronic products sold on e-commerce Shopee using the K-Means algorithm method using the python language. The data that is scraped is the comment text, sales figures and star rating scores. The data from the research obtained in the analysis of product commentary text with low cost Smartphone product wordcloud shows that the Indonesian shopee marketplace commentary data can be that both low cost and high cost smartphones tend to have the same wordloud pattern where the dominant words appear tend to be neutral and positive. , while words with negative meanings tend not to be dominant. While the words that often appear are goods, steady, fast, send and good with a percentage accuracy value of 92%. While the results of the medium high cost wordcloud process obtained words that often appear are words (send, fast, and good) with an accuracy value of 94%. And based on the results of the graph from the k-means data clustering process, it shows that sales figures from 0 to 1000 get the highest star rating score and sales with the lowest star rating score are between 1500 to 2000 and above.
Keywords : clustering, k-means, python