Мною был выбран AC Q67XL4. В NCBI указано, что данный идентификатор соответствует РНК-связывающемуся белку CRS1, принадлежащему организму вида Arabidopsis thaliana.
По данному белку был произведен поиск в базе данных NR BLAST. В качестве порога было установлено E-value = 0.0001Итерация | Количество | Худший ID | E-value | Лучший ID | E-value |
1 | 1933 | XP_008648232.1 | 9·10-5 | EMS68471.1 | 1·10-4 |
2 | 2726 | WP_094598663.1 | 1·10-4 | XP_018719681.1 | 1·10-4 |
3 | 3127 | WP_055107333.1 | 7·10-5 | WP_062104616.1 | 1·10-4 |
4 | 9004 | KMZ11791.1 | 1·10-4 | WP_048414212.1 | 1·10-4 |
5 | 11228 | WP_076146176.1 | 1·10-4 | ACS33696.1 | 1·10-4 |
В белке, который я взял (16S рРНК-метилтрансфераза H) не было найдено больших достоверных участков, в связи с чем было решено взять маленький (6амк) - N-myristoylation site (второй найденный паттерн - Casein kinase II phosphorylation site: [ST]-x(2)-[DE]). При этом в каждой последовательности нашлось до трёх таких паттернов, из которых лишь два (так как встречались чаще всего и обладали схожими структурами) было решено использовать для поиска паттерна для протеобактерий. Он получился таким: G-[LMQI]-[SP]-[AVML]-[ASETR]-[EQ].
TP -164; FP - 4671; FN - 281.