功能注释将已知功能蛋白质的 GO 术语转移到您的查询序列。PROTEA 将每个蛋白质编码为高维嵌入向量,对参考注释集运行 KNN 检索,并将邻居的 GO 术语聚合成每个蛋白质的排序预测。在启动作业前需要三个要素:预计算的嵌入向量、参考注释集,以及您想要注释的查询序列。
每个步骤都会打开其对应页面以构建或选择该构件。
嵌入模型?蛋白质语言模型(PLM)配置加上其在参考蛋白质上的预计算向量。KNN 检索在此嵌入空间中运行,因此其选择(esm2、prost_t5、ankh 等)决定了哪些蛋白质被视为相似。
参考注释集?您从中转移的 GO 注释池。通常是按证据代码筛选的 GOA 或 QuickGO 发布版本。KNN 找到的邻居必须来自此集合,因此其覆盖率和新鲜度直接限制了召回率。
查询集?您想要注释的命名蛋白质序列束。选择一个已保存的查询集以保持预测的可复现性,或留空以注释数据库中的所有蛋白质。