< prev

Page 1Page 2Page 3Page 4Page 5Page 6

Page 3 of 6
next >

Jurnal Ilmiah Komputer dan Informatika (KOMPUTA)

57

Vol. 4, No. 1, Maret 2015, ISSN : 2089-9033

2.2.5

Get Data URL

Dari sejumlah data yang benar terprediksi

sebagai solusi (sentimen positif), kemudian akan

diambil isi dari link yang berupa berita, dengan

detil statistik sebagai berikut:

Tabel 1. Statistik Data Sentimen Positif

true Positif

248

have link l

73

no link

175

distinct url

55

url contain distinct news

13

Dalam proses ini, ditemukan beberpa URL yang

ternyata sama persis isinya dari sumber tweet

maupun url yang berbeda, sehingga pada akhirnya

diperoleh sekitar 13 jenis berita maupun detil

langkah – langkah solusi pengelolaan sampah.

2.2.6

Preprocessing Data

2.2.6.1

Case Folding

Merupakan proses untuk membuat huruf besar

menjadi huruf kecil

2.2.6.2

Stop Words Removal

Proses ini menghilangkan kata – kata yang tidak

penting. Daftar kata–kata yang termasuk tidak

penting ini untuk sementara menggunakan daftar

kata stop word yang umum digunakan pada pre-

processing text mining untuk bahasa Indonesia.

2.2.6.3

Stemming

Proses untuk mengambil kata dasar dari suatu

kata. Untuk bahasa Indonesia sendiri sudah ada

beberapa algoritma untuk proses ini, salah satunya

adalah algoritma Porters yang digunakan pada

penelitian ini.

2.2.7

Calculate TFIDF

Ke-13 dokumen tersebut kemudian diproses lagi

oleh sistem untuk dilakukan perhitungan TFIDF,

dengan tujuan dapat memperoleh term – term

penting sebagai kata kunci dari setiap dokumen

tersebut. Proses untuk melakukan pembobotan

terhadap setiap kata dasar yang terbentuk dari

proses stemming (term). Pada penelitian ini

dilakukan pembobotan dengan perhitungan TF-

Term Frequency

jumlah kemunculan dari suatu term pada suatu

Document Frequency

merupakan jumlah document yang berisi suatu

term. IDF merupakan invers dari DF. Pembobotan

dengan

menggunakan

perhitungan

TF.IDF

merepresentasikan tingkat kepentingan suatu term

pada dokumen tersebut.

2.2.8

Pengujian dan Analisis

Tabel 2 menunjukkan confusion matriks dari

hasil dari sentiment analysis :

Tabel 2. Confusion Matriks Analisis Sentimen

predict

(1)

predict

(-1)

unpredict

(0)

actual(1)

248

8

31

actual(-1)

36

92

66

Dari data tersebut dapat dihitung akurasi nya

sebagai berikut :

Accuracy = (248 +92)/(248+8+31+36+92+66) =

70,68 %

True Positif rate = 248/(248+8+31) = 86,411%

Secara umum, dengan akurasi diatas 70% dan

TPR diatas 85% bisa dikatakan bahwa pendekatan

sentimen analis bisa diterapkan dalam pemilahan

sentimen solusi dan bukan solusi, khususnya dalam

kasus pengelolaan sampah.

False prediction maupun unpredict sentimen

disebabkan dari kamus yang belum dapat

mengakomodir keseluruhan kata positif maupun

negatif seputar pengelolaan sampah. Kamus yang

umum digunakan tidak dapat mengakomodir

sentimen dengan kasus pengelolaan sampah ini,

dikarenakan cukup banyak kata – kata yang tidak

sesuai ( jika secara umum dinyatakan sebagai

kamus negatif, namun dalam kasus ini, tidak bisa

diperlakukan

sebaga

kamus

negatif,

dan

sebagainya).

Gambar 2 menunjukkan snapshot dari hasil

perhitungan TFIDF dengan 13 data dari isi link url.

Gambar 2. Snapshot perhitungan TFIDF

Dari hasil perhitungan TFIDF terlihat beberapa

term yang memilki nilai tinggi dan term yang

bernilai 0 pada setiap dokumen. Kombinasi nilai ini

memperlihatkan bahwa setiap dokumen memang

memiiki keunikan atau isi yang berbeda. Dari data