Deep Learning-Based Speech Enhancement for Robust Sound Classification in Security Systems

Αποθηκεύτηκε σε:

Λεπτομέρειες βιβλιογραφικής εγγραφής
Εκδόθηκε σε:	Electronics vol. 14, no. 13 (2025), p. 2643-2668
Κύριος συγγραφέας:	Mensah, Samuel Yaw
Άλλοι συγγραφείς:	Zhang, Tao, Mahmud, Nahid AI, Geng Yanzhang
Έκδοση:	MDPI AG
Θέματα:	Mean square errors Accuracy Datasets Deep learning Performance evaluation Classification Multilayers Artificial neural networks Real time Signal processing Generative adversarial networks Speech processing Audio recordings Machine learning Access control Sound Statistical analysis Regularization Artificial intelligence Security systems Fourier transforms Signal to noise ratio Intelligibility Neural networks Decision making Network latency Recurrent neural networks Methods Audio signals Surveillance Kalman filters Speech
Διαθέσιμο Online:	Citation/Abstract Full Text + Graphics Full Text - PDF
Ετικέτες:	Προσθήκη ετικέτας Δεν υπάρχουν, Καταχωρήστε ετικέτα πρώτοι!

Περιγραφή
Περίληψη:	Deep learning has emerged as a powerful technique for speech enhancement, particularly in security systems where audio signals are often degraded by non-stationary noise. Traditional signal processing methods struggle in such conditions, making it difficult to detect critical sounds like gunshots, alarms, and unauthorized speech. This study investigates a hybrid deep learning framework that combines Convolutional Neural Networks (CNNs), Recurrent Neural Networks (RNNs), and Generative Adversarial Networks (GANs) to enhance speech quality and improve sound classification accuracy in noisy security environments. The proposed model is trained and validated using real-world datasets containing diverse noise distortions, including VoxCeleb for benchmarking speech enhancement and UrbanSound8K and ESC-50 for sound classification. Performance is evaluated using industry-standard metrics such as Perceptual Evaluation of Speech Quality (PESQ), Short-Time Objective Intelligibility (STOI), and Signal-to-Noise Ratio (SNR). The architecture includes multi-layered neural networks, residual connections, and dropout regularization to ensure robustness and generalizability. Additionally, the paper addresses key challenges in deploying deep learning models for security applications, such as computational complexity, latency, and vulnerability to adversarial attacks. Experimental results demonstrate that the proposed DNN + GAN-based approach significantly improves speech intelligibility and classification performance in high-interference scenarios, offering a scalable solution for enhancing the reliability of audio-based security systems.
ISSN:	2079-9292
DOI:	10.3390/electronics14132643
Πηγή:	Advanced Technologies & Aerospace Database