Vajdasági Magyar Felsőoktatási Kollégium

A BESZéLő SZEMéLY FELISMERéSE

Szerző: PÁLINKÓ Oszkár abszolvens

Témavezető: Dr. ODRY Péter

Intézmény: Újvidéki Egyetem, Műszaki Kar, Számítástechnikai Intézet, Műszaki Számítástechnikai Tanszék, Újvidék

A dolgozat témája a beszélő személy azonosságának ellenőrzése mesterséges neurális hálózatok felhasználásával. A dolgozat célja egy megbízható algoritmus megvalósítása, amely rövid hanganyag alapján hitelesíti a beszélő egyén azonosságát.

A bevezető röviden ismerteti az automatikus biometrikus hitelesítés (autentifikáció) alapvető módszereit: az ujjlenyomat-, kézgeometria-, retina-, írisz-, arcvonás- és aláírás felimerést. A dolgozat részletesen bemutatja a hangfelismerést, mint a hitelesítés egyik módszerét.

A felismerő rendszer LVQ (learning vector quantization) neurális hálózatok felhasználásával lett megvalósítva. Az LVQ hálózatokra azért esett a választás, mert kimondott diszkriminatív jelleggel rendelkeznek, azaz fokozottan hangsúlyozzák az egyes beszélő személyek közti különbségeket. Miden egyes személy azonosítására egy-egy neurális hálózat rendszer szolgál. Minden ilyen rendszer több neurális hálózatból áll. Egy rendszer neurális hálói egy adott személy felismerésére tanítódnak be. A rendszerenkénti több hálózat felhsználása biztosítja a minőségesebb felismerést valamint a rendszer modularitását.

A személyek azonosságát ellenőrző rendszer, reális körülmények között átlagban 96%-os eredményt ér el, azaz a szituációk 96%-ában végzi el sikeresen az azonosítást. Ez a számérték megközelíti a vezető komerciális felhasználásokban elért 99,5%-os felismerési határt.

Az a következtetés vonható le, hogy a moduláris LVQ neurális hálózat rendszerek kimondottan alkalmasak a beszélő személyek azonosságának megállapításában és, hogy megfelelő továbbfejleszésésükkel elérhető a komerciális rendszerek minősége.

Kulcsszavak: hangfelismerés, azonosítás, neurális hálózatok

SPEAKER RECOGNITION

Author: Oszkár PÁLINKÓ

Supervisor: Dr Péter ODRY

Institution: Chair for Computer Engineering, Institute for Computing and Automation, Faculty of Engineering,
University of Novi Sad, Novi Sad

The topic of this paper is the verification of a speaker’s identity using artificial neural networks (ANN). The goal of this work is to design a reliable algorithm, which will authenticate the speaker based on a short speech sequence.

The introductory part presents the basic methods of automatic biometric authentication: fingerprint, hand geometry, retina, iris, face and signature recognition. The method of speaker authentication is presented in detail.

The designed system for recognition is based on LVQ (learning vector quantization) artificial neural networks. This approach is chosen because of the LVQ’s discriminatory property, i.e. it emphasises the differences between speakers. For the recognition of every speaker, a system of ANN’s is used. Each artificial neural networks of one system is trained to recognise exactly one speaker against other speakers. The results of all of the ANNs in one system are combined together to give a final decision on the speaker identity. The use of more artificial neural networks per system guarantees a higher quality of recognition and modularity.

The implemented system for speaker verification has a precision of 96% in average under real-life circumstances. This result is not far from the margin of 99,5% set by commercial applications in this field.

It can be concluded, that the modular construction of the LVQ neural networks used in this work is adequate for the purpose of speaker verification. With additional improvements this system could approach the margin of 99,5% of recognition precision.

Keywords: speaker recognition, authentication, neural networks

PREPOZNAVANJE GOVORNIKA

Autor: PALINKO Oskar

Mentor: Dr. ODRI Peter

Institucija: Univerzitet u Novom Sadu, Fakultet tehničkih nauka, Institut za računarstvo i automatiku,
Katedra za računarsku tehniku, Novi Sad

Tema rada je automatizovana autentifikacija govornika uz pomoć veštačkih neuronskih mreža (VNM). Cilj rada je projektovanje pouzdanog algoritma za verifikaciju identiteta govornika, a na osnovu kratkog govornog signala.

U uvodnom delu će biti ukratko objašnjene osnovne metode automatske biometrijske autentifikacije. To su: prepoznavanje otiska prstiju, geometrije ruke, mrežnjače, rožnjače, crte lica i potpisa. Metoda prepoznavanja govornika će zatim biti detaljno prikazana.

Realizovan sistem za prepoznavanje govornika se bazira na primeni LVQ (learning vector quantization) veštačkih neuronskih mreža. LVQ su odabrane, jer imaju izrazito diskriminatorno svojstvo, tj. naglašavaju razlike između govornika. Za verifikaciju svakog govorika koristi se po jedan sistem neuronskih mreža. Svaki od tih sistema sadrži određen broj VNM, a njihovi rezultati se kombinuju u krajnju odluku o autentičnosti. Sve neuronske mreže jednog sistema se obučavaju za prepoznavanje jednog od govornika. Primena više VNM obezbeđuje kvalitetnije prepoznavanje kao i modularnost celog sistema.

Implementiran sistem za verifikaciju govornika, pod realnim uslovima postiže tačnost od 96% u proseku i time se približava tačnosti komercijalnih sistema koji iznosi 99,5%.

Modularni LVQ sistemi su izrazito pogodni za verifikaciju govornika, a daljim poboljšanjem sistema bi se mogao dostići nivo preciznosti komercijalnih sistema.

Ključne reči: prepoznavanje govornika, autentifikacija, veštačke neuronske mreže