CoderCastrov logo
CoderCastrov
Text Mining

Gelora Bung Karno itu kayak gimana sih? (Text mining using R)

Gelora Bung Karno itu kayak gimana sih? (Text mining using R)
просмотров
2 мин чтение
#Text Mining
Table Of Content

    Hi Teman-teman! Kabar baik kan?

    Aku mau cerita ni gais. Sebenernya aku ini lagi kangen nonton bola di stadion, yaa karena pandemi ini gaada kegiatan sepakbola gitu. Selain kangen nonton bola di stadion dari dulu itu aku punya keinginan buat nonton timnas main di Gelora Bung Karno(GBK) Stadium, apalagi stadionnya udah baru kan sekarang. Karena segala keterbatasan, saat ini yang bisa aku lakuin adalah mencari tau seluk beluk mengenai stadion itu salah satunya melakukan text mining pada review GBK Stadium.

    Untuk memulai kita buka Rstudio dan memanggil beberapa library yang bakal kita pakai

    library(xml2)
    library(rvest)
    library(tm)
    library(SnowballC)
    library(wordcloud)
    library(RColorBrewer)
    library(stringr)

    nah selanjutnya ni, kita ambil data review GBK dari tripadvisor.com dan menyimpannya dalam bentuk csv

    #mengambil data review GBK
    review<-html_nodes(GBK,".cPQsENeY")
    reviewtext<-html_text(review)
    reviewtext#menyimpan review dalam format csv
    write.csv(reviewtextbaru,"C:/Users/xiaos/Documents/KULIAH/
              Semester 5/BIML/UAS/reviewtextGBK3.csv")#memanggil data csv yang telah dibuat
    dokumen<-readLines("C:/Users/xiaos/Documents/KULIAH/
                       Semester 5/BIML/UAS/reviewtextGBK3.csv")
    dokumen

    dan berikut adalah hasilnya

    gambar

    Selanjutnya kita buat Corpus/kumpulan teks yang menangkap penggunaan bahasa dalam bentuk tertulis atau lisan untuk dokumen diatas.

    > dokumen <- VCorpus(VectorSource(dokumen)) 
    > dokumen

    Hasilnya akan seperti berikut.

    gambar

    Dan dilanjutkan sintaks berikut.

    > str(dokumen)

    Maka hasil dari sintaks tersebut akan muncul tampilan sebagai berikut.

    gambar

    Selanjutnya kita membuat matriks dari semua kata-kata yang telah diambil

    dokumenDTM<-DocumentTermMatrix(dokumen,control=list(tolower=TRUE,
                                                removeNumbers=TRUE,
                                                stopwords=TRUE,
                                                removePunctuation=TRUE,
                                                stemming=TRUE))
    dokumenDTM

    berikut adalah hasilnya

    gambar

    dari 6 dokumen terdapat 86 kata berbeda yang dapat diambil. selanjutnya kita tampilkan matriks seluruh data yang telah disusun

    gambar

    Selanjutnya, masukkan sintaks berikut

    > dokkudtm <- TermDocumentMatrix(dokumen)
    em <- as.matrix(dokkudtm)
    emve <- sort(rowSums(em),decreasing=TRUE)
    vede <- data.frame(word = names(ve),freq=ve) 
    head(de, 15)

    Selanjutnya membuat wordcloud dengan sintaks berikut:

    > wordcloud(words = de$word, freq = de$freq, min.freq = 1,           
              max.words=50, random.order=FALSE, rot.per=0.35,            
              colors=brewer.pal(8, "Dark2"))

    berikut ini hasil yang akan muncul

    gambar

    Itulah hasil review GBK dan sedikit tutorial pada kali ini, semoga bermanfaat dan Have a Nice Day!!:)

    source:

    Hakim, RB. F. (2019, September 25). Web Scraping dengan R. https://medium.com/@986110101/text-mining-using-r-28ada2abb883