Работа с BLAST
Задание 1
Необходимо найти гомологов последовательности гипотетического белка A.pernix с идентификатором в Refseq NP_147299.2. Для этого можно воспользоваться сервисом Blast (Blastp).
На рисунке 1 можно увидеть выходную таблицу с результатами поиска.
Разъясню названия столбцов:
- Description — описание последовательности (организм и т.д.)
- Max score — наибольший из весов участков выравнивания
- Total score — полный вес выравнивания (всех участков)
- Query cover — процент покрытия входной последовательности гомологом
- E-value (Expect value) — вероятность того, что находка случайна
- Ident — сходство аминокислотных остатков
- Accession — код доступа (идентификатор)
Кроме того, можно посмотреть на выравнивание с выбранным белком-гомологом археи Acidilobus sp. (рис. 2). Выровнен один участок сходства (Number of matches: 1).
Задание 2
Используя Blast, выровняем исходный белок NP_147299.2 и выбранный WP_023424488.1. Получили карту локального сходства (рис. 3). На оси абсцисс представлены номера аминокислотных остатков входного белка, на оси ординат — белка WP_023424488.1. Соответственно линия указывает на сходство остатков.
Оба организма, из которых выделены белки, относятся к классу термофильных архей Thermoprotei. Но они принадлежат разным порядкам: Acidilobus sp. — к Acidilobales (населяют кислые среды, богатые серой), а A.pernix — к Desulfurococcales (коккоидные формы). Кроме того оба белка предположительно отвечают за связывание РНК[1].
Длина второго белка меньше более чем в два раза. По карте выравнивания можно увидеть, что совпадение аминокислот равномерное по длинам обеих последовательностей, нет повторяющихся участков. Судя по общему происхождению организмов, все-таки можно говорить гомологичности этих белков.
Задание 3, 4
С помощью Blast найдено 25 белков эукариот со сходной структурой (рис. 4). Если гомологичными считать последовательности, E-value которых < 0.001, то найдено 16 белков-гомологов. Среди них есть белки, например, крысы и гриба-сахаромицета. Все же процент сходства (Ident) и E-value значительно хуже, чем в первом поиске, то есть достоверность общего происхождения невысокая.
Данные по множественному выравниванию первых семи белков:
- консервативных колонок: 2%
- функционально консервативных колонок: 20%
Было взято только семь белков из 16ти, чтобы были консервативные колонки в выравнивании. Данные получены с помощью программы infoalign.
Источники:
[1]"Predicted RNA-binding protein" http://www.ncbi.nlm.nih.gov/protein/118431091?report=genbank&log$=prottop&blast_rank=1&RID=REHWY90U01R; http://www.ncbi.nlm.nih.gov/protein/557422408?report=genbank&log$=prottop&blast_rank=5&RID=REHWY90U01R