Anotación funcional

La anotación funcional transfiere términos GO desde proteínas de función conocida hacia tus secuencias de consulta. PROTEA codifica cada proteína en un embedding de alta dimensión, ejecuta una búsqueda KNN sobre un conjunto de anotaciones de referencia y agrega los términos GO de los vecinos en una predicción ordenada por proteína. Necesitas tres ingredientes antes de lanzar un trabajo: embeddings precomputados, un conjunto de anotaciones de referencia y las secuencias de consulta que quieres anotar.

Requisitos previos

Cada paso abre su página correspondiente para construir o elegir el artefacto.

Modelo de embedding?Una configuración de modelo de lenguaje de proteínas (PLM) junto con sus vectores precomputados sobre tus proteínas de referencia. La búsqueda KNN ocurre en este espacio de embedding, así que su elección (esm2, prost_t5, ankh, etc.) determina qué proteínas se consideran similares.
Conjunto de anotaciones de referencia?El pozo de anotaciones GO desde el que transfieres. Normalmente una release de GOA o QuickGO filtrada por código de evidencia. Los vecinos encontrados por KNN deben venir de este conjunto, así que su cobertura y frescura limitan directamente el recall.
Conjunto de consulta?Bundle nombrado de secuencias de proteínas que quieres anotar. Elige un conjunto guardado para que la predicción sea reproducible, o déjalo vacío para anotar todas las proteínas de la base de datos.

Anotación funcional

Requisitos previos

Anotación de términos GO por similitud de embeddings

Anotación funcional

Requisitos previos

Anotación de términos GO por similitud de embeddings