Программа BLAST



Поиск гомологов TrmB в Swiss-Prot

Для поиска гомологов архейного репрессора TrmB в Swiss-Prot была запущена программа BLAST (Табл. 1). В результате было получено 5 находок (помимо белка, исследуемого в 8 практикуме). Для всех находок было выполнено множественное выравнивание. По нему видна гомология участков белков с 14 по 180 столбец. Эти участки соответствуют ДНК-связывающим доменам. Оставшаяся часть последовательностей соответствует сахаросвязывающему домену у исходного TrmB. Здесь на крупных участках гомология не прослеживается, во всех последовательностях есть длинные индели. Отсутствие гомологии подтверждается данными из записей UniProt об отсутствии у некоторых из находок сахаросвязывающего домена. Однако гомология ДНК-связывающих доменов свидетельствует о гомологии белков, к тому же у всех находок процент идентичности больше 20, поэтому все они были оставлены в выравнивании.

Кодирующий TrmB участок генома является достаточно подвижным: пример горизонтального переноса приведён в 8 практикуме, вероятно, таким же образом архейный предок TrmB попал в геном Bacillus subtilis (ей принадлежит одна из находок). Поэтому можно предположить, что различные C-концевые участки возникли из-за рекомбинации при горизонтальном переносе.


Поиск гомологов вырезанного из полипротеина зрелого вирусного белка

Для исследования был выбран полипротеин 1ab бычьего коронавируса (ID: R1AB_CVBEN). Также была получена последовательность папаин-подобной протеиназы, которая вырезается из 1ab. С теми же, что и для TrmB параметрами, для неё была запущена BLAST. Было получено 77 находок. Из них были выбраны 7 наиболее идентичных исходному белку, для которых E-value не был равен 0.0. Для них и для исследуемой протеиназы было выполнено множественное выравнивание.

Все находки оказались почти полностью идентичны друг другу. В исследуемой протеиназе наблюдается большое количество крупных инделей на участке с 1 по 1553 столбец, однако и на этом участке, и в оставшейся части выравнивания остатки, идентичные остаткам находок, распределены равномерно, гомология с находками прослеживается (процент идентичности составляет 35-36%).

Таблица 1. Параметры, использованные при запуске BLAST.

Дефисом отмечены параметры, которые не заданы, плюсом – включённые параметры с двумя значениями (вкл./выкл.).

Параметр Значение
Accession number Q7LYW4
Query subrange -
Database UniProtKB/Swiss-Prot(swissprot)
Organism -
Exclude -
Algorithm blastp (protein-protein BLAST)
Algorithm parameters
General Parameters
Max target sequences 100
Short queries +
Expect threshold 0.05
Word size 2
Max matches in a query range 0
Scoring Parameters
Matrix PAM250
Gap Costs Existence: 14 Extension: 1
Compositional adjustments Conditional compositional score matrix adjustment
Filters and Masking
Filter -
Mask -


Исследование зависимости E-value от объёма банка

При повторении предыдущего поиска с теми же параметрами, но с сужением охвата поиска до вирусных белков, количество находок уменьшилось до 61, все ненулевые E-value уменьшились примерно в 20 раз. Путём сравнения E-value полипротеина a1 SARS-CoV-2 была оценена доля вирусных белков в Swiss-Prot по теореме Карлина: E-value = K * m * n * e -λ * S, где S – вес выравнивания; m – длина исходной последовательности; n – размер базы данных; K и λ – две константы. n = E-value / (K * m * e−λ * S). При допущении, что в обоих поисках K и λ одинаковы, доля вирусных белков в Swiss-Prot по суммарной длине равна nвир / nобщ = E-valueвир * K * mобщ * e−λ * S / (E-valueобщ * K * mвир * e−λ * S) = E-valueвир / E-valueобщ = 1e-86 / 2e-85 = 0.05 (индекс общ обозначает параметры первого поиска, вир. – второго). При этом доля вирусных белков в Swiss-Prot по количеству записей равна 17014 / 564638 = 0.03. Это означает, что белки вирусов в среднем длиннее белков других организмов.


Сравнение интерфейсов BLAST

Для сравнения с интерфейсом BLAST на сайте NCBI был выбран интерфейс на EBI. В нём предоставляется более широкий выбор баз данных для поиска: есть возможность поиска по кластерам и по конкретным патентным ведомствам, по отделу UniProt, связанному с COVID-19. Фильтр по организмам более гибкий: можно прописывать организмы, по которым не юудет проводиться поиск. Также на EBI более широкий выбор штрафов за гэпы, свободный выбор длины слова, больше вариантов представления результатов. Для каждой находки предоставляется большое количество ссылок на их описания в различных базах данных, даётся предсказание функции домена, кодируемого исходной последовательностью. Тем не менее, на EBI поиска по некоторым доступным на NCBI базам данных, например, поиска по метагеномам; нет возможности использовать усовершенствоованные алгоритмы, такие как PSI-BLAST и PHI-BLAST. Соответственно каждый из интерфейсов лучше использовать при необходимости поиска с использованием баз данных и алгоритмов, недоступных в другом интерфейсе.


Поиск "гомологов" бессмысленной последовательности

С помощью программы на python3 были сгенерированы бессмысленные последовательности разной длины, для каждой из них был запущен BLAST на сайте EBI с длиной слова 6 и матрицей BLOSUM62 (BLAST с PAM250 даёт меньше находок из-за отсутствия эволюционных связей бессмысленных последовательностей с какими-либо другими; в других заданиях использовалась PAM250 как раз для лучшего выявления гомологов). Результаты резко менялись для разных последовательностей одинаковой длины (в таблице приведены данные только для одной последовательности каждой длины), но в целом можно выявить несколько закономерностей с ростом длины: уменьшаются проценты Identities и Positives, что ожидаемо. Так же ожидалось увеличение E-value количества находок, но при малом количестве тестов это не проявляется. Во всех случаях E-value высокие (от 0.2 до 10), гомология не прослеживается, выравниваются участки бессмысленной последовательности длиной от 30 до 70 остатков. В целом, все результаты ожидаемы, но имеют большой разброс значений для разных исходных данных.

Таблица 2. Результаты запуска BLAST для бессмысленных последовательностей различной длины.

Для каждого запуска BLAST приведены средние параметры по всем находкам.

Длина бессмысленной последовательности Количество находок Score (Bits) Identities, % Positives, % E-value
40 4 26,2 40,9 55,9 8,0
50 5 27,3 35,3 49,4 5,6
60 4 28,0 35,8 52,4 4,3
80 4 29,7 25,5 47,1 2,7
100 1 31,2 27,8 46,8 1,3
500 7 34,7 25,0 39,9 4,2