Из предложенных идентификатором мною был выбран AC Q67XL4.
В БД NCBI указано, что данный идентификатор соответствует РНК-связывающемуся белку CRS1.
Данный белок принадлежит организму вида Arabidopsis thaliana.
По данному белку был произведен поиск в базе данных NR BLAST. В качестве порога было установлено E-value = 0.0001
Также существует standalone-версия PSI-BLAST: она входит в пакет BLAST+. Объект для поиска и базы данных задаются обычным образом с помощью аргументов -query и -db или -subject. Возможно производить поиск на серверах NCBI BLAST с помощью аргумента -remote. При локальном поиске возможно задать количество итераций с помощью аргумента -num_iterations. Для удаленного поиска следует использовать сохранение PSS-матрицы в файл с помощью аргумента -out_pssm и ее загрузку в следующей итерации с помощью -in_pssm. Результаты сохраняются с помощью аргумента -out.
Iter | Hits | Last hit ID | E-value | First non-hit | E-value |
1 | 1933 | XP_008648232.1 | 9·10-5 | EMS68471.1 | 1·10-4 |
2 | 2726 | WP_094598663.1 | 1·10-4 | XP_018719681.1 | 1·10-4 |
3 | 3127 | WP_055107333.1 | 7·10-5 | WP_062104616.1 | 1·10-4 |
4 | 9004 | KMZ11791.1 | 1·10-4 | WP_048414212.1 | 1·10-4 |
5 | 11228 | WP_076146176.1 | 1·10-4 | ACS33696.1 | 1·10-4 |
В банке Prosite было найдено два паттерна, описывающих семейство белков RS2 (Ribosomal protein S2). Название совпадает с названием семейства в банке Prosite: Ribosomal protein S2.
Паттерны:
[LIVMFA]-x-{GPRV}-[LIVMFYC](2)-{LPC}-[STAC]-[GSTANQEKR]-[STALV]-[HY]-[LIVMF]-G
P-x(2)-[LIVMF](2)-[LIVMS]-x-[GDN]-x(3)-[DENL]-x(3)-[LIVM]-x-E-x(4)-[GNQKRH]-[LIVM]-[AP]
Для дальнейшей работы был выбран первый из них.
Мною было сделано выравнивание всех 18 белков RS2 данных в практикуме 1 протеобактерий. С их помощью был построен первый паттерн, точность которого оставляла желать лучшего. Для увеличения избирательности паттерна мною было проделано еще 5 итераций по сбору данных из FP и FN и изменений паттерна. Результаты вы можете видеть в таблице:
Pattern | TP | FP | FN |
M-R-[DQ]-[ML]-[LI]-{LPC}-A-G-V-H-F-G-H-Q-[ST] | 224 | 2 | 180 |
[MV]-[RKH]-[DEQNK]-[ML]-[LIF]-{LPC}-[TAC]-G-[VC]-H-[FY]-G-H-[QKR]-[STK] | 327 | 176 | 77 |
[MV]-R-[DEQNK]-[ML]-[LIF]-{LPC}-[TAC]-G-[VC]-H-[FY]-G-H-[QKR]-[STK] | 280 | 8 | 124 |
[MI]-R-[DEQNKA]-[ML]-[LIF]-{LPC}-[TAC]-G-[VAC]-H-[FY]-G-H-[QKR]-[STKA] | 306 | 9 | 98 |
[MI]-R-[DEQNKA]-[ML]-[VLIF]-{LPC}-[TACS]-G-[VACI]-H-[FY]-G-H-[QKR]-[TASK] | 311 | 25 | 93 |
[MI]-[RK]-[DEQNKA]-[ML]-[VLIF]-{LPC}-[TACS]-G-[VACI]-H-[FY]-G-H-[QKR]-[TASK] | 366 | 211 | 38 |
Наибольший интерес представляет тот факт, что протеобактерии от других таксонов очень заметно отличает вторая позиция паттерна: у подавляющего большинства протеобактерий в этой позиции R, а K почти не встречается, в отличие от других групп. Это вполне очевидно следует из послдних двух строк таблицы выше.