На главную

Практикум 11

Характеристики списка находок

Всего находок Число находок с E-value < 0,001 max E-value
100 100 7e-82

В данном сеансе поиска (с максимальным числом находок = 100 и длиной слова = 6) длина списка находок лимитирована максимальным числом находок, так как E-value значительно меньше максимального порога в 10, а длина списка находок равна максимально допустимой.

Всего находок Число находок с E-value < 0,001 max E-value
523 521 1,2

После увеличения максимально допустимого числа находок до 20000 (длина слова = 6), число реальных находок оказалось значительно меньше допустимого (523), а значит лимитированным порогом на E-value: наибольший E-value теперь равен 1,2 что уже ближе к максимально допустимому значению в 10 единиц (E-value в 1,2 единицы все же далек от 10, так как при длине слова в 6 единиц программа не находит больше выравниваний с E-value >1 и <10, но при увеличении порога E-value до 20 единиц, программа находит выравнивания со значением в 17 единиц, самих находок при этом естественно становится значительно больше).

Изменение длины слова

Всего находок Число находок с E-value < 0,001 max E-value
566 544 9,9

При уменьшении длины слова до 2 (максимальное число находок = 20000) увеличивается число находок, при этом увеличивается как количество находок с E-value < 0,001 так и с E-value > 0,001 на 23 и 20 штук соответственно. Помимо этого среди этих "новых" находок существуют такие, что их E-value значительно ближе к порогу в 10 единиц, чем значение в 1,2 единицы из предыдущего задания.

Изменение объема поиска

Всего находок Число находок с E-value < 0,001 max E-value
110 81 9,9

Для выполнения этого задания я выбрала белок Clostridium perfringens (strain 13 / Type A) с UniProt ID DAPA_CLOPE, AC: Q8XJ56, E-value которого до ограничения объема поиска таксоном Firmicutes, к которому относится данная бактерия, был равен 4e-80. После ограничения поиска вышеуказанным таксоном E-value стал равен 3e-81. Так как E-value зависит от длины последовательности, веса выравнивания размера банка и констант, которые подбираются для данных матриц аминокислотных замен и для заданных штрафов за гэпы, то относительное изменение E-value вызвано лишь изменением размеров банка, в котором проводился поиск. При ограничении поиска таксоном Firmicutes E-value этого выравнивания стал составлять 0,075 E-value, полученного без ограничения объема. Это значит что объем банка Swiss-Prot, ограниченного таксоном Firmicutes составляет примерно 0,075 от всего объема банка Swiss-Prot. Если учесть что на 29.04.2018 в базе данных Swiss-Prot находится 557275 разных последовательностей, то примерно 41796 из них принадлежат организмам из таксона Firmicutes. На самом деле в Swiss-Prot находится 68654 последовательности для таксона Firmicutes, что связано с тем, что в формуле Карлина размер банка измеряется числом "букв" в банке а не числом последовательностей. Поэтому то, что реальное количество последовательностей Firmicutes больше рассчитанного теоретически, может говорить о том, что последовательности Firmicutes небольшие.

Так как обычный и битовый вес выравнивания рассчитываются независимо от размеров банка и зависят лишь от выбранной матрицы аминокислотных мамен и штрафов за гэпы (ну и конечно от последовательностей выравниваемых белков), то ни обычный ни битовый вес выравнивания не может измениться при изменении объема поиска, что мы и видим на практике.

Плохая матрица

Матрица Число находок Число находок с E-value < 1e-50 min E-value
PAM250 506 370 2e-124
BLOSUM62 523 387 1e-135

При сравнении двух разных результатов выдачи программы BLAST при разных выбранных матрицах аминокислотных замен (длина слова = 6 количество выдаваемых поледовательностей = 20000 порог на E-value = 10) действительно выходит, что при смене матрицы с BLOSUM62 на PAM250 общее количество находок и количество хороших находок с E-value < 1e-50 уменьшается, а минимальный E-value наоборот увеличивается. Помимо этого для первых 100 выравниваний с использованием каждой из матриц (PAM250 и BLOSUM62) были получены hits-table и при помощи скрипта было проверено, увеличивается или уменьшается значение E-value для выравнивания с конкретным белком при смене матрицы, при этом во всех случаях когда одни и те же белковые ID попадают в первые 100 выравниваний при использовании обеих матриц, E-value увеличиваетя при смене матрицы на PAM250. Согласно источнику очки полученные при выравнивании с использованием PAM250 аналогичны очкам получаемым при выравнивании с использованием BLOSUM45. Т.к. BLOSUM45 построен по выравниваниям блоков гомологичных последовательностей с идентичностью <= 45%, то хорошие выравнивания, оцененные с использованием такой матрицы действительно получат меньше очков, чем при использовании матрицы BLOSUM62 или аналогичных матриц.

Другие веб-интерфейсы

EMBL-EBI интерфейс принимает на вход только последовательности белка (для выравнивания blastp) или ДНК (для выравнивания blastx) (в виде самих последовательностей или файлов). Удобно однако, что этот интерфейс предлагает множество банков, в которых можно искать интересующие нас выравнивания. Можно искать просто в UniProtKB и ее подразделах (Swiss-Prot, Swiss-Prot isoforms, TrEMBL), помимо этого можно выбирать среди довольно большого списка таксономических разделов UniProtKB (UniProtKB Archaea, Viruses, Mammals и т.п. помимо этого к так называемым "таксономическим" разделам UniProtKB относятся полные микробные протеомы, референсные протеомы и те последовательности у которых есть 3D структуры в PDB). Также можно проводить поиск по кластерам UniProt, патентованным последовательностям (из разных агенств и неизбыточные последовательности из всех агенств), последовательностям белков, для которых известны третичные структуры (PDB и PSI базы данных) и иным тематическим базам данных (например база данных о протеазах MEROPS, Enzyme Portal, UniParc и другие). Недостатком такого многообразия является то, что если какая то последовательность присутствует в двух базах данных, то она будет выровнена дважды с исходной последовательностью и отчет о ее выравнивании будет также представлен дважды. Помимо этого можно выбрать то что будет выравниваться: последовательность белка или транслированная последовательность ДНК, (blastp и blastx соответственно) и при выборе второго варианта можно выбрать вариации генетического кода которые будут использоваться для транслирования последовательности в белковую. Набор матриц аминокислотных замен стандартный (BLOSUM (45, 50, 62, 80, 90) PAM (30, 70, 250)). Можно выбрать штрафы за открытие гэпа и удлиннение инделя, но не все их сочетания подходят для работы с любыми матрицами аминокислотных замен. Длину слова выбрать нельзя. Можно настроить порог на максимальное число очков за совпадающие аминокислоты. Можно настроить порог на E-value, выбрать координаты последовательности, которые будут выравниваться и алгоритм поведения с участками малой сложности (фильтры + статистическая обработка). Результат представлен в виде таблицы, где есть сами белки, ссылки на них в других базах данных, их длина, % Identities, %Similarities, E-value, и очки в битах. Помимо этого можно просмотреть все попарные выравнивания.

BLAST (blastp) интерфейс принимает на вход файлы с FASTA последовательностью (или просто FASTA последовательность) и ncbi accession. Из баз данных можно выбрать UniProtKB/Swiss-Prot, PDB, Not-Redundant protein sequences, RefSeq белки,банк патентованных последовательностей,банк транскриптомных последовательностей и банк метагеномных последовательностей, а также банк последовательностей белков из модельных организмов. Помимо этого среди всех этих банков можно искать в пределах любого таксона. BLAST интерфейс также позволяет ограничивать число рассматриваемых последовательностей при помощи Entrez - query синтаксиса и за счет этого ускорять поиск. Помимо blastp в настройках можно выбрать другие варианты алгоритмов нацеленные на поиск доменов или паттернов. Матрицы, штрафы за гэпы, количество выводимых последовательностей, порог на E-value, борьба с участками малой сложности и статистика выбираются аналогично интерфейсу EMBL-EBI. Порог на число совпадений считается не по баллам, как в случае с интерфейсом EMBL, а по абсолютному числу совпадений (что одно и то же по сути). Уникальным настраиваемым параметром в BLAST является длина слова, коротое должно быть как в исходной так и с искомой последовательности, для того чтобы программа продолжила попытки к поиску лучшего выравнивания. Программа выдает результирующую таблицу, в которой есть accession, максимально возможное число очков в битах, реальное число очков в битах, % Identities, покрытие, E-value. После таблицы идут попарные выравнивания, где присутствует дополнительная информация о длине, %Gaps, %Positives, и очках не в битах.

UniProt интерфейс позволяет принимать на вход последовательности ДНК, последовательность белка или UniProt ID. Выбор баз данных как в EMBL-EBI (кроме банка патентованных последовательностей, PSI, PDB, не пересекающегося с UniProtKB, и специальных банков, но при этом включая UniParc), помимо этого можно выбрать порог на E-value, и количество выдаваемых выравниваний. Программа выдает UniProt AC, % Identities, E-value и число очков не в битах. Выбор матриц отличается от стандарного отсутствием BLOSUM (50 и 90) и PAM 250.

Помимо этого всем интерфейсам присуще наличия графического представления выравниваний, которое отлично у EMBL-EBI тем, что предсказывает домены и показывает их локализацию.

Таким образом для непритязательных к параметрам и предварительных выравниваний (или при наличии UniProt ID) можно выбрать интерфейс UniProt. Если существует задача найти гомологи в каких либо специфических иммунологических, ферментных и т.п. базах данных, необходимы кросс-референсные ссылки на белки в других базах данных то лучше использовать интерфейс EMBL-EBI. Помимо этого этот интерфейс удобен если имеется последовательность ДНК, которую необходимо транслировать с использованием редкой вариации генетического когда, если необходимо визуализировать информацию о доменах или скачать результат в одном из возможных форматов (У этого интерфейса много разных доступных для скачивания форматов). BLAST интерфейс позволяет довольно тонко настраивать таксон, в котором будет осуществляться поиск, позволяет подавать на вход ncbi accession, позволяет использовать различные алгоритмы для поиска паттернов и менять длину слова , поэтому его следует использовать скорее при анализе коротких последовательностей, поиска внутри небольшого или специфичного таксона, и при желании регулировать число найденных последовательностей за счет изменения длины слова (чем меньше длина слова, тем больше последовательностей мы найдем).


© Кристина Перевощикова, 2017