Comparing Link Prediction and Classification for Gene-Disease Association Discovery

Gorde:
Xehetasun bibliografikoak
Argitaratua izan da:PQDT - Global (2024)
Egile nagusia: Canastra, Catarina Salema
Argitaratua:
ProQuest Dissertations & Theses
Gaiak:
Sarrera elektronikoa:Citation/Abstract
Full Text - PDF
Etiketak: Etiketa erantsi
Etiketarik gabe, Izan zaitez lehena erregistro honi etiketa jartzen!

MARC

LEADER 00000nab a2200000uu 4500
001 3132871984
003 UK-CbPIL
020 |a 9798346714767 
035 |a 3132871984 
045 2 |b d20240101  |b d20241231 
084 |a 189128  |2 nlm 
100 1 |a Canastra, Catarina Salema 
245 1 |a Comparing Link Prediction and Classification for Gene-Disease Association Discovery 
260 |b ProQuest Dissertations & Theses  |c 2024 
513 |a Dissertation/Thesis 
520 3 |a The discovery of gene-disease links is an important challenge in biological and biomedical domains, as it presents opportunities in tasks such as disease detection and drug repurposing. Machine Learning approaches that predict gene-disease associations significantly accelerate this process by leveraging biological knowledge represented in ontologies and the structure of knowledge graphsto organize data.State-of-the-art approaches for gene-disease association typically use Knowledge Graph Embeddings and other Machine Learning algorithms, modeling the problem as a pair binary classification task. Although this is generally the logic behind a Machine Learning approach, the effectiveness of link classificationapproaches is limited by the need to generate negative examples, the absence of relationships between genes and diseases, and because only some Knowledge Graph Embeddings are able to directly predict gene-disease associations.This dissertation explores the differences between addressing the gene-disease association problem as a link classification task and a link predictiontask. We compare means of combining vectors and classification algorithms for the link classification approach. We also analyzed the influence of considering several knowledge graph embeddings in both the link classification and link prediction approaches. The methods were evaluated using biomedical data sources such as DisGeNET and popular ontologies.Our results show that enriching the semantic representation of disease does not support better performance of link classification methods and the performance of link prediction methods in predicting disease-linked genes. However, it does support better performance of link prediction methods in predicting gene-linked diseases. The results also suggest that link prediction methods better explore the semantic richness encoded in knowledge graphs through various ontologies and additional links between ontology classes.Employing link prediction over link classification provides advantages across design aspects and techniques. For instance, link prediction leverages relationships between target entities within knowledge graphs and does not require the synthetic generation of negative examples. While link prediction methods offer an end-to-end approach that directly generates predictions from the learned embeddings, link classification methods require integrating various Machine Learning methods with strategies to combine the embeddings, leading to increased complexity and potential loss of information. A descoberta de ligações gene-doença é um desafio importante nos domínios biológico e biomédico, pois apresenta oportunidades em tarefas como a prevenção de doenças, a sua rápida deteção, diagnóstico e reorientação de medicamentos. Recentemente, têm sido propostos vários métodos de aprendizagem automática para prever associações entre genes e doenças apoiados na teoria de redes, construindo redes biológicas. Estes métodos, são geralmente limitados a vizualizações agnósticas dos dados, não tendo acesso ao seu contexto e significado, mas é reconhecido que o desempenho dos métodos de aprendizagem automática pode melhorar significativamente quando o contexto e as relações entre os dados são tidos em conta.Na última década, a explosão na complexidade, no tamanho e heterogeneidade dos dados biológicos motivou um novo panorama de dados semânticos, onde milhões de entidades biológicas descritas semanticamente (isto quer dizer, com significado) estão disponíveis em grafos de conhecimento. Os grafos de conhecimento são estruturas de dados que representam entidades do mundo real e as suas relações por meio de nós e ligações (arestas) entre esses, de uma forma que incorpore o contexto e significado proveniente das ontologias. Uma ontologia é uma especificação formal e explícita sobre um domínio em específico, na qual cada classe (ou conceito) está precisamente definida e as relações entre classes estão parametrizadas ou restringidas.Apesar dos avanços facilitados pelas ontologias na investigação biológica e biomédica, a maioria dos trabalhos apresenta uma lacuna significativa na forma como as doenças são representadas. Normalmente, as doenças são representadas pelos seus fenótipos, as características ou traços observáveis, sem uma descrição detalhada da doença em si. Esta abordagem ignora a complexidade e o contexto completo das doenças, incluindo conceitos de doenças relacionadas no vocabulário médico. Para além disso, a integração de ontologias em fluxos de trabalhos biológicos e biomédicos é acompanhada pelo desafio de integrar as várias descrições para uma mesma classe quando são combinadas múltiplas ontolodias. A falha na integração destas descrições pode resultar em inconsistências e redundância na análise dos dados, dificultando a capacidade de capturar todo o espetro do conhecimento biológico.A crescente integração de ontologias biomédicas na forma de grafos de conhecimento tem impulsionado o desenvolvimento de métodos combinados de aprendizagem automática. Um desafio significativo é transformar os dados provenientes dos grafos numa representação que possa ser processada pelos algoritmos populares de aprendizagem automática. Atualmente, os métodos de aprendizagem automática dependem de heurísticas definidas pelo utilizador para extrair recursos que codificam informações estruturais do grafo, como as degree statistics e as kernel functions. No entanto, estas abordagens podem não capturar toda a semântica subjacente aos grafos uma vez que se baseiam em contagens. Uma alternativa consiste em transformar as entidades e as relações dos grafos em vetores que capturam a semântica e a informação estrutural do grafo original utilizando Knowledge Graph Embeddings. Deste modo, as abordagens mais recentes para prever associações entre genes e doenças baseiam-se neste modelos para gerar representações e em algoritmos populares de aprendizagem automática para prever associações.O problema da associação gene-doença é tipicamente modelado como uma tarefa de classificação binária de pares. 
653 |a Machine learning 
653 |a Graphs 
653 |a Ontology 
653 |a Disease 
653 |a Web Ontology Language-OWL 
653 |a Resource Description Framework-RDF 
653 |a Genotype & phenotype 
653 |a Genes 
653 |a Knowledge representation 
653 |a Semantics 
653 |a Artificial intelligence 
653 |a Genetics 
653 |a Web studies 
653 |a Logic 
773 0 |t PQDT - Global  |g (2024) 
786 0 |d ProQuest  |t ProQuest Dissertations & Theses Global 
856 4 1 |3 Citation/Abstract  |u https://www.proquest.com/docview/3132871984/abstract/embedded/6A8EOT78XXH2IG52?source=fedsrch 
856 4 0 |3 Full Text - PDF  |u https://www.proquest.com/docview/3132871984/fulltextPDF/embedded/6A8EOT78XXH2IG52?source=fedsrch