BLAST

С помощью BLASTP я нашла последовательности, сходные с последовательностью моего белка - сериновой D-аланил-D-аланин карбоксипептидазой из бактерии Nostoc sp., штамм PCC 7524 (идентификатор в базе данных RefSeq WP_015141669.1). В дополнительных параметрах поиска я изменила максимальное число находок на 20000, чтобы точно найти все последовательности. Условия поиска доступны по ссылке.
Всего найдено 6445 последовательностей, из них 20 последовательностей из геномов архей, 22 из геномов эукариот (например, из слизевиков рода Dictyostelium или из жука Tribolium castaneum), остальные из геномов бактерий.
Одна из лучших находок - белок из другого штамма этого же вида бактерии, PCC 7120. Еще одна хорошая находка - последовательность из генома близкородственной цианобактерии Anabaena variabilis (идентификатор в базе данных RefSeq WP_011317540.1). Ее выравнивание с последовательностью моего белка, которое построил BLAST, показано на рисунке 1. Худшая находка - ABC-транспортный ATP-связывающий белок из бактерии Enterococcus faecalis, идентификатор WP_025190381.1 (рисунок 2). Также я выбрала одну находку из середины списка - белок D-аланил-D-аланин карбоксипептидаза из гамма-протеобактерии Aliivibrio logei (идентификатор WP_023604109.1). Выравнивание с последовательностью этого белка можно увидеть на рисунке 3. В таблице 1 предсталвена информация о выбранных находках и о полученных выравниваниях.

Таблица 1. Информация о последовательностях белков, найденных с помощью BLASTP по белку WP_015141669.1 в базе данных RefSeq.
Организм Длина выравнивания Bit score % идентичных % сходных E-value
Anabaena variabilis 487 789 79 89 0
Aliivibrio logei 443 114 25 44 3e-24
Enterococcus faecalis 141 38,5 30 43 10

Выравнивание с белком из Anabaena variabilis

Рисунок 1. Выравнивание белка D-аланил-D-аланин карбоксипептидазы из бактерии Nostoc sp., штамм PCC 7524 с белком из Anabaena variabilis, построенное BLASTP.

Выравнивание с белком из Enterococcus faecalis

Рисунок 2. Выравнивание белка D-аланил-D-аланин карбоксипептидазы из бактерии Nostoc sp., штамм PCC 7524 с ABC-транспортным ATP-связывающим белком из Enterococcus faecalis, построенное BLASTP.

Выравнивание с белком из Aliivibrio logei

Рисунок 3. Выравнивание белка D-аланил-D-аланин карбоксипептидазы из бактерии Nostoc sp., штамм PCC 7524 с белком из Aliivibrio logei, построенное BLASTP.

Гомологами исходной последовательности можно считать 4674 найденных последовательностей, придерживаясь критерия, что гомологичными являются находки с E-value < 1e-03 и query cover не менее 70%, то есть в построенное выравнивание вошло не менее 70% исходной последовательности. На рисунке 4 представлено графическое изображение результатов поиска. Показано всего 100 последовательностей, максимальное значение E-value установлено на 9e-04 (0,0009), однако отображенные находки имеют гораздо меньшее E-value (так как в графическое представление вошло 100 первых находок из списка, которые имеют наименьшее E-value), и все эти последовательности можно считать гомологичными исходной.

Графическое представление результатов поиска

Рисунок 4. Графическое представление результатов поиска белка D-аланил-D-аланин карбоксипептидазы из бактерии Nostoc sp. в базе данных RefSeq с помощью BLASTP. Показано 100 находок, значение E-value не более 0,0009.

Также я провела поиск для отдельного таксона - Cyanobacteria. Все остальные условия поиска я оставила неизменными, просто дополнительно указала таксон (сслыка на условия поиска). Всего найдено 482 последовательности. Для сравнения результатов двух поисков я выбрала одну из находок, которая встречается в обоих случаях - D-Ala-D-Ala карбоксипептидаза из бактерии Cyanobium sp., штамм PCC 7001 (идентификатор в RefSeq WP_006911133.1). В двух находках совпадает все, кроме значения E-value. При поиске по отдельному таксону оно равно 2e-11, а без указания организмов - 1e-09. Это можно объяснить тем, что E-value показывает число находок с таким или большим Score в случайном банке. Во втором случае банк больше, значит, вероятность найти в нем подходящую последовательность будет больше.

Для создания карты локального сходства я выбрала последовательность из генома Dickeya zeae (идентификатор в RefSeq WP_038903300.1) и построила парное выравнивание с последовательностью моего белка с помощью BLAST. Полученная карта представлена на рисунке 5. Можно увидеть довольно длинный совпадающий участок примерно с 80 остатка query (последовательность моего белка, отложена по горизонтали) и с 50 остатка гомологичной последовательности (по вертикали). Места прерывания линии на рисунке соответсвуют гэпам в выравнивании, например, участок примерно с 270 по 280 остатки в query не соответствует никакому участку во второй последовательности. Действительно, в выравнивании в этом месте в последовательности белка WP_038903300.1 стоит гэп длиной в 7 остатков. Также видны две небольшие черточки, которые обозначают короткие совпадающие участки, выделенные как отдельные находки. Однако для них E-value слишком высокое (4,2 и 5), а длина выравнивания слишком низкая (6 и 11 остатков), поэтому эти совпадения можно считать случайными. Для иллюстрации соответствия элементов карты локального сходства и выравнивания на рисунке 6 представлено выравнивание этих последовательностей.
Ссылка на построение выравнивания в BLAST.

Карта локального сходства для Dickeya zeae

Рисунок 5. Карта локального сходства для выравнивания белка D-аланил-D-аланин карбоксипептидазы из бактерии Nostoc sp., штамм PCC 7524 (идентификатор в RefSeq WP_015141669.1, по горизонтали) с белком из бактерии Dickeya zeae (идентификатор WP_038903300.1, по вертикали).

Выравнивание с белком из Dickeya zeae

Рисунок 6. Выравнивание белка D-аланил-D-аланин карбоксипептидазы из бактерии Nostoc sp., штамм PCC 7524 (query) с с белком из бактерии Dickeya zeae (sbjct), построенное BLASTP.

Я создала свою базу данных из множественного выравнивания align_06.fasta из практикума 8. Для этого я использовала команду makeblastdb, а из данного файла с выравниванием удалила все гэпы и получила список последовательностей. Таким образом, в моей базе данных было 9 последовательностей белков. Далее я произвела поиск моего белка в этой базе данных с помощью команды blastp (последовательность моего белка в формате fasta). Параметры лучшей находки представлены в таблице 2. Выравнивание показано на рисунке 7.

Таблица 2. Параметры лучшей находки при поиске последовательности моего белка в новой базе данных.
Выравнивание E-value Bit score Длина выравнивания % идентичных % сходных
BUTPB 3,4 16,5 25 40 52

Выравнивание в новой базе данных

Рисунок 7. Выравнивание белка D-аланил-D-аланин карбоксипептидазы из бактерии Nostoc sp., штамм PCC 7524 с последовательностью BUTPB из новой базы данных. Также на рисунке приведены параметры этого выравнивания, представленные в таблице 2.

Длина получившегося выравнивания небольшая, значение Bit score низкое относительно уже рассмотренных в этом практикуме выравниваний. Значение E-value также достаточно высокое, особенно для такой маленькой базы данных из 9 последовательностей. Стоит также учитывать, что вторая из находок имела практически такие же параметры, только немного хуже (например, bit score = 16,2 и E-value = 4). Все эти данные позволяют считать данную находку случайной, и нет оснований говорить о гомологии последовательностей.

© Наталия Кашко, 2015