MPTP : Pengenalan Pembicara dengan Jaringan Syaraf Tiruan Backpropagation

Judul Pustaka

Pengenalan Pembicara dengan Jaringan Syaraf Tiruan Backpropagation

Hasil Karya
Baskoro Aktianto (G06499043)

Source Link


Masalah pada pengenalan pembicara adalah identifikasi dan verifikasi pembicaranya yang merupakan permasalahan non algorithmic. Permasalahan dengan sifat tersebut dapat didekati dengan menggunakan Jaringan Syaraf Tiruan.

Jaringan Syaraf Tiruan (JST) atau artificial neural network (ANN) adalah adalah jaringan dari sekelompok unit pemroses kecil yang dimodelkan berdasarkan jaringan saraf manusia. JST merupakan sistem adaptif yang dapat merubah strukturnya untuk memecahkan masalah berdasarkan informasi eksternal maupun internal yang mengalir melalui jaringan tersebut.

Hecht-Nielsend (1988) mendefinisikan sistem saraf buatan sebagai berikut:

"Suatu neural network (NN), adalah suatu struktur pemroses informasi yang terdistribusi dan bekerja secara paralel, yang terdiri atas elemen pemroses (yang memiliki memori lokal dan beroperasi dengan informasi lokal) yang diinterkoneksi bersama dengan alur sinyal searah yang disebut koneksi. Setiap elemen pemroses memiliki koneksi keluaran tunggal yang bercabang (fan out) ke sejumlah koneksi kolateral yang diinginkan (setiap koneksi membawa sinyal yang sama dari keluaran elemen pemroses tersebut). Keluaran dari elemen pemroses tersebut dapat merupakan sebarang jenis persamaan matematis yang diinginkan. Seluruh proses yang berlangsung pada setiap elemen pemroses harus benar-benar dilakukan secara lokal, yaitu keluaran hanya bergantung pada nilai masukan pada saat itu yang diperoleh melalui koneksi dan nilai yang tersimpan dalam memori lokal".


JST Backpropagation merupakan JST yang menggunakan pembelajaran terbimbing (Supervised Learning), yaitu adanya pasangan data input dan output untuk menghitung bobotnya. Pada JST Backpropagation terdapat 3 buah layer, yaitu layer input, layer tersembunyi, dan layer output.

Pada prosesnya, dibutuhkan fitur-fitur yang menjadi input untuk JST tersebut. Suara diproses terlebih dahulu untuk dengan pengubahan data analog menjadi digital melalui feature extraction. Proses berikutnya adalah pemilihan feature yang akan digunakan sebagai input. Proses terakhir adalah pengambilan keputusan untuk menentukan pembicara didasarkan pada kedekatan/kemiripan suara.

Sistem yang dibangun pada penelitian ini memberikan hasil yang bagus dengan tingkat generalisasi tertinggi sebesar 92.3077% dan melakukan verifikasi pembicara dengan nilai equal error rate sebesar 6.5657%.