Intelligent text similarity assessment using Roberta with integrated chaotic perturbation optimization techniques

Guardado en:

Detalles Bibliográficos
Publicado en:	Journal of Big Data vol. 12, no. 1 (Jul 2025), p. 164
Autor principal:	Hassan, Esraa
Otros Autores:	Talaat, Amira Samy, Elsabagh, M. A.
Publicado:	Springer Nature B.V.
Materias:	Language Similarity Dictionaries Accuracy Semantics Swarm intelligence Deep learning Datasets Recommender systems Sentiment analysis Information retrieval Optimization techniques Perturbation Optimization Methods Natural language processing Multilingualism Dialects Representations Efficiency Big Data Plagiarism Experiments Exploitation Training Data mining Stagnation Retrieval Convergence Semantic analysis Bidirectionality Entailment Intelligence
Acceso en línea:	Citation/Abstract Full Text Full Text - PDF
Etiquetas:	Agregar Etiqueta Sin Etiquetas, Sea el primero en etiquetar este registro!

Descripción
Resumen:	Precisely evaluating text similarity remains a fundamental challenge in Natural Language Processing (NLP), with widespread applications in plagiarism detection, information retrieval, semantic analysis, and recommendation systems. Traditional approaches often suffer from overfitting, local optima stagnation, and difficulty capturing deep semantic relationships. To address these challenges, this paper introduces an Intelligent Text Similarity Assessment Model that integrates Robustly Optimized Bidirectional Encoder Representations from Transformers (RoBERTa) with Chaotic Sand Cat Swarm Optimization (CHSCSO), a novel swarm intelligence-based optimization method inspired by chaotic dynamics. The model leverages RoBERTa’s robust contextual embeddings to extract deep semantic representations while utilizing CHSCSO’s controlled chaotic perturbations to optimize hyperparameters dynamically. This integration enhances model generalization, mitigates overfitting, and improves the trade-off between exploration and exploitation during training. CHSCSO refines the parameter search space by employing chaotic maps, ensuring a more adaptive and efficient training process. Extensive experiments on multiple benchmark datasets, including Semantic Textual Similarity (STS) and Textual Entailment (TE), demonstrate the model’s superiority over standard RoBERTa fine-tuning and conventional baselines that reach cosine similarity scores that are clustered at 0.996. The optimized model achieves higher accuracy and improved stability and exhibits faster convergence in text similarity tasks.
ISSN:	2196-1115
DOI:	10.1186/s40537-025-01233-3
Fuente:	ABI/INFORM Global