Учебный сайт Ксении Худяковой

Главная > Семестры > Семестр 2 > Практикум 11

Задание 1.

В программе BLAST был проведен поиск гомологов белка YP_004071041.1 (цистеиновая десульфираза археи Thermococcus barophilus MP). Сначала был проведён поиск в БД RefSeq, но нашлось больше 20 000 последовательностей с очень низким e-value, что не поддаётся анализу. Поэтому второй поиск был проведён в БД Swissprot.

Ссылка на поисковый запрос в БД RefSeq

Ссылка на поисковый запрос в БД SwissProt

В банке Swissprot было найдено 184 последовательностей (при выставленном максимуме 20000, т.е. это все), из них 5 относятся к таксону Archaea, 203 - Eubacteria, 26 - Eucariotae. В Таблице 1 представлены данные по нескольким находкам в базе данных RefSeq, представленным BLAST-ом.

Таблица 1. Данные о находках в БД RefSeq
НаходкаAccessionДлина выравниванияBit score% Identities% PositivesE-value
Первое (сама послед-ть)WP_013467116.1382770100%100%0.0
Лучшее (второе) выравниваниеWP_056933736.138276899%100%0.0
Выравнивание из середины спискаWP_047390110.138319134%56%7e-53
Худшее выравниваниеWP_059569933.166690.526%44%2e-16

В Таблице 2 представлены данные по нескольким находкам в базе данных SwissProt, представленным BLAST-ом.

Таблица 2. Данные о находках в БД Swissprot
НаходкаAccessionДлина выравниванияBit score% Identities% PositivesE-value
ПервоеP57795.140430045%60%2e-96
Выравнивание из середины спискаB8E9D2.140425742%60%7e-80
Худшее выравниваниеQ9M1R1.133.945434%52%2.1

Далее требовалось выделить среди находок всех гомологов моего белка. Я решила, что предложенный критерий: E-value < 1e-3 и не менее 70% запроса вошло в полученное выравнивание (Query cover) в моём случае подходит, и определила, что есть 163 гомолога. Ссылка на графическое представление выравнивания гомологов

Задание 2.

Ссылка на поисковый запрос по таксону в БД SwissProt

Был проведен поиск по таксону Archaea. Результаты получились иными, нежели в поиске по всем таксонам: среди архей было найдено 11 последовательностей, тогда как среди всех таксонов нашлось лишь 5 последовательностей, принадлежащих археям. Впрочем, среди дополнительных находок 5 последовательностей имеют E-value больше 0.001, а значит, гомологами их назвать нельзя. Данные о выравниваниях с одной и той же последовательностью из двух разных запросов в Таблице 3. Score не изменился (так как использовалась одна и та же матрица и одни и те же 2 последовательности). Изменилось E-value: оно немного уменьшилось вследствие сужения поля поиска (т.е. размеров банка).

Таблица 3. Сравнение выравниваний при разных поисковых запросах
Вариант поискаAccessionДлина выравниванияBit score% Identities% PositivesE-value
По всем таксонамP57795.140430045%60%2e-96
По ArchaeaP57795.140430045%60%7e-98

Задание 3.

Карта локального сходства двух последовательностей: исходной (YP_004071041.1) и выбранной из списка найденных (идентификатор в Swissprot P57795.1) представлена на Рис.2.

Рис. 1. Карта локального сходства цистеиновой десульфуразы и последовательности P57795.1.

По этой карте видно, что выравнивание покрывает практически всю заданную последовательность (93% query cover). Прерывистость линии обозначает гепы в парном выравнивании. Первый геп двойной, и на рис.2 он больше, чем три последующих, потому что они одинарные. Четвёртый геп тройной, поэтому разрыв линии в этом месте самый большой.

Рис. 2. Выравнивание.

Задание 4.

База данных my_db была создана на основе множественного выравнивания align_06.fasta. в результате поиска в ней гомологов моего белка YP_004071041.1 получено две находки: участок в последовательностях LACLK и DESOD(см. Рис.3). Оба участка маленькие (8 и 13 позиций, то есть примерно 2,6% общей длины заданной последовательности).

Рисунок 3. Парные выравнивания моего белка с белком LACLK и DESOD

Их характеристики представлены в Таблице 4.

Таблица 4. Данные о находке в БД align_06.fasta

НаходкаLACLKDESOD
Длина выравнивания1813
Bit score17.314.6
Процент сходных колонок89%57%
Процент идентичных колонок56%36%
Gaps0%0%
E-value1.39.5

Приведенные в Таблице 4 параметры дают понять, что эти последовательности не является гомологом моего белка: слишком высокий E-value, низкий bit score. Bit score самой худшей находки в БД Swissprot примерно в двадцать раз больше. Количество идентичных и сходных колонок велико, но лишь относительно длины выровненного участка.