跳到主内容

PROTEA基于蛋白质嵌入向量的功能注释

流水线

嵌入向量
KNN 检索
评分LAB
重排序器LAB
数据集

参考数据

蛋白质
GO 注释
查询集

结果

基准
CAFA 评估

运维

任务
维护
Stack

文档

Sphinx 手册
OpenAPI / Swagger
博士论文 PDF
支持本项目

Get started

Sign in
Create account

流水线

嵌入向量
KNN 检索
评分LAB
重排序器LAB
数据集

参考数据

蛋白质
GO 注释
查询集

结果

基准
CAFA 评估

运维

任务
维护
Stack

文档

Sphinx 手册
OpenAPI / Swagger
博士论文 PDF
支持本项目

Get started

Sign in
Create account

评论和指标是公开的。

功能注释

功能注释将已知功能蛋白质的 GO 术语转移到您的查询序列。PROTEA 将每个蛋白质编码为高维嵌入向量，对参考注释集运行 KNN 检索，并将邻居的 GO 术语聚合成每个蛋白质的排序预测。在启动作业前需要三个要素：预计算的嵌入向量、参考注释集，以及您想要注释的查询序列。

前置条件

每个步骤都会打开其对应页面以构建或选择该构件。

嵌入模型?蛋白质语言模型（PLM）配置加上其在参考蛋白质上的预计算向量。KNN 检索在此嵌入空间中运行，因此其选择（esm2、prost_t5、ankh 等）决定了哪些蛋白质被视为相似。
参考注释集?您从中转移的 GO 注释池。通常是按证据代码筛选的 GOA 或 QuickGO 发布版本。KNN 找到的邻居必须来自此集合，因此其覆盖率和新鲜度直接限制了召回率。
查询集?您想要注释的命名蛋白质序列束。选择一个已保存的查询集以保持预测的可复现性，或留空以注释数据库中的所有蛋白质。

基于嵌入向量相似性的 GO 术语注释