paint-brush
Nossos conjuntos de dados e resultados de nosso estudo: modelos GGL-PPIpor@mutation
210 leituras

Nossos conjuntos de dados e resultados de nosso estudo: modelos GGL-PPI

Muito longo; Para ler

Nesta seção, realizamos validação e avaliação de nossos modelos propostos em vários conjuntos de dados de benchmark. Desenvolvemos dois tipos de modelos GGL-PPI: GGL-PPI1 e GGL-PPI2. O primeiro modelo, GGL-PPI1, é construído exclusivamente em características gráficas geométricas discutidas na Seção 3.
featured image - Nossos conjuntos de dados e resultados de nosso estudo: modelos GGL-PPI
The Mutation Publication HackerNoon profile picture

Este artigo está disponível no arxiv sob licença CC 4.0.

Autores:

(1) Md Masud Rana, Departamento de Matemática, Universidade de Kentucky;

(2) Duc Duy Nguyen, Departamento de Matemática, Universidade de Kentucky & [email protected].

Tabela de links

Resumo e Introdução

Conjuntos de dados e resultados

Métodos

Conclusão, Disponibilidade de Dados e Software, Interesses Concorrentes, Reconhecimentos e Referências

2 conjuntos de dados e resultados

Nesta seção, realizamos validação e avaliação de nossos modelos propostos em vários conjuntos de dados de benchmark. Desenvolvemos dois tipos de modelos GGL-PPI: GGL-PPI1 e GGL-PPI2. O primeiro modelo, GGL-PPI1, é construído exclusivamente em características gráficas geométricas discutidas na Seção 3.


Por outro lado, o GGL-PPI2 incorpora recursos gráficos geométricos e recursos auxiliares, conforme detalhado por Wang et al. [41]. Os cálculos do potencial eletrostático para os componentes auxiliares são realizados utilizando o software MIBPB [42].

2.1 Validação

Para validar nossos modelos, consideramos principalmente o conjunto de dados AB-Bind [25], o conjunto de dados SKEMPI 1.0 [23] e o conjunto de dados SKEMPI 2.0 [24]. Empregamos uma metodologia de avaliação rigorosa, conduzindo uma validação cruzada (CV) 10 vezes 10 vezes em cada conjunto de dados. O coeficiente médio de correlação de Pearson (R p ) e a raiz do erro quadrático médio (RMSE) servem como nossas métricas de avaliação.


Ao comparar o desempenho CV de nossos modelos propostos com outros métodos existentes, avaliamos especificamente TopNetTree [41], Hom-ML-V2 [43] e Hom-ML-V1 [43]. Tanto o TopNetTree quanto o Hom-ML-V2 incorporam recursos auxiliares em conjunto com seus recursos baseados em topologia e baseados em complexo Hom, respectivamente. Por outro lado, o Hom-ML-V1 depende apenas de recursos baseados no complexo Hom, sem utilizar quaisquer recursos auxiliares.


Figura 2: Desempenho de nosso modelo GGL-PPI2 em vários conjuntos de dados de validação usando validação cruzada 10 vezes 10 vezes. (a) No conjunto de dados AB-Bind S645, nosso modelo atinge um coeficiente de correlação de Pearson (Rp) de 0,58 e um erro quadrático médio (RMSE) de 1,61 kcal/mol. (b) No conjunto de dados S645, excluindo os 27


Validação no conjunto de dados AB-Bind S645 O conjunto de dados AB-Bind contém 1.101 pontos de dados mutacionais para 32 complexos anticorpo-antígeno, fornecendo alterações de afinidade de ligação determinadas experimentalmente após mutações. Pires et al. curou um subconjunto conhecido como AB-Bind S645 (44), que consiste em 645 mutações de ponto único observadas em 29 complexos anticorpo-antígeno. O conjunto de dados compreende uma mistura de mutações estabilizadoras (20%) e desestabilizadoras (80%).


Além disso, o conjunto de dados inclui 27 não aglutinantes que não apresentam qualquer ligação dentro da faixa de sensibilidade do ensaio. Para estes não aglutinantes, as alterações de energia livre de ligação foram uniformemente definidas para um valor de 8 kcal/mol. É crucial considerar estes não-aglutinantes como valores discrepantes durante o desenvolvimento e avaliação do modelo para garantir a precisão e robustez do modelo.


Nosso GGL-PPI2 alcançou um Rp de 0,58 no conjunto de dados AB-Bind S645, conforme mostrado na Figura 2a. Os resultados da comparação na Tabela 1 indicam que nosso modelo empatou em segundo lugar com Hom-ML-V2 43, enquanto TopNetTree [41] conquistou a primeira posição.


No entanto, quando excluímos os 27 não-ligantes do conjunto de dados, o nosso modelo supera todos os outros modelos existentes. Especificamente, o valor de Rp aumenta de 0,58 para 0,74 após a remoção dos não ligantes (Figura 2b).


Além disso, GGL-PI1, nosso modelo de recursos puramente geométricos baseado em gráficos, demonstrou desempenho competitivo com um Rp de 0,57 no conjunto de dados AB-Bind S645. Curiosamente, ao excluir os não-ligantes, o GGL-PPI1 superou todos os outros modelos com um Rp melhorado de 0,73.


Esses desempenhos revelam que nossos gráficos geométricos coloridos ponderados em múltiplas escalas podem caracterizar efetivamente a ampla gama de interações em complexos biomoleculares.


Validação no conjunto de dados SKEMPI 1.0 S1131 O conjunto de dados SKEMPI 1.0 consiste em uma coleção de 3.047 mutações de 158 complexos obtidos de fontes da literatura, onde os complexos possuem estruturas determinadas experimentalmente [23]. O conjunto de dados inclui mutações de ponto único e mutações multiponto.


Especificamente, existem 2.317 entradas no conjunto de dados que representam mutações de ponto único, que são conhecidas coletivamente como conjunto SKEMPI S2317. Além disso, um subconjunto de 1.131 mutações de ponto único de interface não redundante foi selecionado do conjunto SKEMPI S2317 e rotulado como conjunto SKEMPI S1131 [45]. Este subconjunto concentra-se no estudo do impacto de mutações de ponto único nas interações proteína-proteína.


Tabela 1: Comparação de desempenho de diferentes métodos em termos de coeficientes de correlação de Pearson (Rp) para o conjunto de dados AB-Bind (S645).



A Figura 2c mostra que nosso modelo GGL-PPI2 atinge um Rp de 0,873 e um RMSE de 1,21 kcal/mol em CV 10 vezes no conjunto de dados S1131. A Tabela 2 apresenta a comparação de desempenho de vários métodos no conjunto de dados S1131, incluindo nossos modelos propostos, GGL-PPI1 e GGL-PPI2.


Entre eles, nosso modelo, GGL-PPI2, obteve o melhor desempenho, ressaltando sua superioridade na previsão de alterações na afinidade de ligação devido à mutação.


Notavelmente, mesmo sem recursos auxiliares, nosso GGL-PPI1 superou os métodos TopNetTree e Hom-ML-V2 que aproveitam recursos auxiliares. Isto destaca novamente a eficácia da nossa representação molecular baseada em gráficos geométricos.


Tabela 2: Comparação de desempenho de diferentes métodos em termos de coeficientes de correlação de Pearson (Rp) para as mutações de ponto único no conjunto de dados SKEMPI 1.0 (S1131).



Validação nos conjuntos de dados SKEMPI 2.0 S4169 e S8338 O conjunto de dados SKEMPI 2.0 é uma versão atualizada e expandida do conjunto de dados SKEMPI original, incorporando novas mutações coletadas de várias fontes [24].


Lançado em 2018, aumentou significativamente de tamanho, contendo agora um total de 7.085 entradas, incluindo mutações de ponto único e multiponto. Os dados foram obtidos pela fusão de vários bancos de dados, incluindo SKEMPI 1.0 [23], AB-Bind [25], PROXiMATE27 e dbMPIKT46.


Além disso, novos dados da literatura foram selecionados manualmente e adicionados ao conjunto de dados. As mutações cobrem uma ampla gama de complexos proteicos, como complexos inibidores de protease, antígeno-anticorpo e TRCpMHC. Entre as mutações, aproximadamente 3.000 são mutações de alanina de ponto único, 2.000 são mutações não-alaninas de ponto único e outras 2.000 envolvem mutações múltiplas.


Notavelmente, os autores do método mCSM-PPI2 [8] filtraram as mutações de ponto único, produzindo o conjunto S4169, compreendendo 4.169 variantes em 139 complexos diferentes. O conjunto S8338, derivado de S4169, representa alterações hipotéticas de energia de mutação reversa com valores negativos. Este conjunto de dados abrangente serve como um recurso valioso para estudar as interações proteicas e suas propriedades termodinâmicas.


Em termos de desempenho, nosso modelo GGL-PPI2 apresenta um Rp de 0,81 com um RMSE de 1,03 kcal/mol para o conjunto de dados S4169, conforme mostrado na Figura 2d, superando todos os modelos existentes (Tabela 3). Vale ressaltar que nosso modelo GGL-PPI1, que depende exclusivamente de recursos baseados em gráficos geométricos, demonstrou desempenho comparável ao GGL-PPI2, superando TopNetTree e mCSM-PPI2 com um Rp de 0,80 e um RMSE de 1,06 kcal/mol.


No caso do conjunto de dados S8338, aplicamos uma abordagem estratificada de validação cruzada semelhante ao mCSM-PPI2. Garantimos que mutações reversas hipotéticas fossem colocadas consistentemente nos conjuntos de treinamento ou de teste durante as divisões do conjunto de dados, mantendo intacta sua relação com as mutações originais correspondentes durante todo o processo de validação cruzada.


O GGL-PPI2 alcançou um Rp de 0,85 com um RMSE de 1,07 kcal/mol, conforme representado na Figura 2e, e o GGL-PPI1 seguiu de perto, atingindo um Rp de 0,84 com o mesmo valor de RMSE. Como atesta a Tabela 3, nosso GGL-PPI2 está no mesmo nível do TopNetTree e supera o mCSM-PPI2 no conjunto de dados S8338.


Tabela 3: Comparação de desempenho de diferentes métodos em termos de coeficientes de correlação de Pearson (Rp) para as mutações de ponto único no conjunto de dados SKEMPI 2.0 (S4169 e S8338).


2.2 Avaliação

Para avaliar nosso modelo proposto para prever alterações de energia livre de ligação (BFE) nas interações proteína-proteína, consideramos dois conjuntos de dados provenientes do banco de dados ProTherm [22].


O primeiro conjunto de dados, cuidadosamente selecionado por Pucci et al. [36], denominado conjunto de dados S[sym]. Esses dados reúnem 684 mutações do ProTherm, compreendendo 342 mutações diretas e suas mutações reversas correspondentes, resultando em um conjunto de dados balanceado.


O conjunto de dados concentra-se especificamente em mutações em quinze cadeias de proteínas com estruturas 3D resolvidas, garantindo dados de alta resolução com resolução de pelo menos 2,5˚A.


Ao fornecer valores ∆∆G medidos experimentalmente e uma representação equilibrada de mutações estabilizadoras e desestabilizadoras, o conjunto de dados S [sym] serve como um recurso valioso para avaliar vieses de previsão no contexto da previsão de mudanças de afinidade de ligação induzidas por mutação.


Para resolver o problema de vazamento de dados e aumentar a capacidade de generalização do nosso método, empregamos o conjunto de dados Q1744 [47]. Quan et al. [48] compilaram o conjunto de dados Q3421 do ProTherm, consistindo em 3.421 mutações de ponto único em 150 proteínas com estruturas PDB disponíveis. Porém, a presença de proteínas homólogas tanto no conjunto de treinamento quanto no conjunto de teste pode levar a efeitos interdependentes de mutações, comprometendo o desempenho do modelo.


Para mitigar isso, Li et al. [47] criaram o conjunto de dados Q1744, derivado da exclusão de pontos de dados sobrepostos e do refinamento da homologia em nível de proteína entre os conjuntos de dados Q3421 e S [sym], resultando em 1.744 mutações distintas.


Além disso, o conjunto de dados Q3488 foi criado aumentando as mutações reversas no conjunto Q1744. Utilizamos o conjunto de dados Q3488 como nosso conjunto de treinamento, aumentando assim a capacidade do nosso preditor ∆∆G de prever com precisão as mudanças de BFE nos PPIs.


Conduzimos uma avaliação de nosso modelo no conjunto de testes cegos S[sym], com foco distinto em mutações diretas e reversas. Para avaliar o desempenho, utilizamos o coeficiente de correlação de Pearson e a raiz do erro quadrático médio como nossas métricas primárias. Além disso, para discernir qualquer viés de predição, incorporamos duas medidas estatísticas: Rpdir−rev e δ.


O primeiro calcula a correlação de Pearson entre as previsões para mutações diretas e reversas, enquanto o último representa a soma dos valores ∆∆G previstos para ambos os tipos de mutações. A hipótese é que um preditor imparcial produziria Rpdir−rev = −1 e uma média δ ( ¯δ) de 0 kcal/mol.


Nosso foco principal é destacar a eficácia do nosso modelo, GGL-PPI2, enfatizando particularmente sua caracterização molecular robusta baseada em gráficos geométricos. O GGL-PPI2 demonstrou uma precisão de previsão excepcional, mantendo a consistência para mutações diretas e reversas. Conforme representado nas Figuras 3a e 3b, nosso modelo atinge valores consistentes de Rp de 0,57 e um RMSE de 1,28 kcal/mol, indicando sua eficiência contra o overfitting para direcionar mutações.


Além disso, a análise revela que uma proporção significativa de mutações cai dentro de um erro de previsão de 0,5 kcal/mol e 1,0 kcal/mol, com 34,6% e 65,8% para mutações diretas e 35,1% e 66,0% para mutações reversas, conforme representado na Figura 3d e 3e.


Além disso, a Figura 3c demonstra que o GGL-PPI2 aborda efetivamente o viés de predição, alcançando um valor Rpdir-rev quase perfeito de -0,999 e uma média extremamente baixa de ¯δ de 0,006 kcal/mol. Finalmente, o gráfico de distribuição na Figura 3f ilustra que 99,4% das mutações exibem um viés de predição abaixo de 0,05 kcal/mol.


Na Tabela 4, apresentamos os resultados de predição de nossos modelos e realizamos uma comparação abrangente com outros preditores de ∆∆G. Observamos que nosso modelo GGL-PPI2 supera o ThermoNet [47], que também foi treinado no conjunto com homologia reduzida Q3488, em todas as medidas de avaliação. Ele supera o ThermoNet em 21,3% para mutações diretas e 18,7% para mutações reversas.


Além disso, o modelo GGL-PPI1, que utiliza apenas recursos baseados em gráficos geométricos, também tem um desempenho melhor que o ThermoNet em tarefas de previsão direta e reversa. Isso enfatiza ainda mais a eficácia de nossa abordagem de gráfico geométrico.


Figura 3: Resultados do nosso modelo GGL-PPI2 para conjunto de dados Ssym. Em (a), as mutações diretas são plotadas, enquanto (b) apresenta os resultados para mutações reversas. O espectro de cores, variando de azul a vermelho, representa a precisão de previsão correspondente – onde azul significa maior precisão e vermelho indica menor precisão. A


Para uma comparação mais ampla com outros preditores ∆∆G, introduzimos o modelo GGL-PPI2∗, treinado no conjunto Q6428 construído antes da redução de homologia do conjunto Q3421 [47]. Conforme ilustrado na Tabela 4, o GGL-PPI2∗ se destaca em relação a outros métodos nas previsões de mutação reversa.


Vale ressaltar que, embora alguns métodos superem o GGL-PPI2∗ para mutações diretas, eles frequentemente exibem um viés significativo em relação a mutações reversas.