BLAST: поиск гомологов в банке

Характеристики списка гомологов белка AKO92848.1(acetoin utilization protein [Bacillus endophyticus])

Таблица 1:Характеристики списка гомологов белка AKO92848.1(acetoin utilization protein [Bacillus endophyticus]), наденных с помощью BLAST в банке данных SWISS-PROT при заданной длине слова 6.

Общее количество находок

95

Количество находок с E-value менее одной тысячной

95(все находки имеют E-value менее одной тысячной)

Максимальное значени E-value, выданное программой

1*10-10

Чем лимитировано количество находок (порогом на E-value или максимальным числом находок)

Порогом на E-value(максимальное число находок 100, это больше чем выдала программа)

Таблица 2:Характеристики списка гомологов белка AKO92848.1(acetoin utilization protein [Bacillus endophyticus]), наденных с помощью BLAST в банке данных SWISS-PROT при заданной длине слова 2.

Общее количество находок

97

Количество находок с E-value менее одной тысячной

96

Максимальное значени E-value, выданное программой

7.5

Чем лимитировано количество находок (порогом на E-value или максимальным числом находок)

Порогом на E-value(максимальное число находок 100, это больше чем выдала программа)

При изменении длины слова с 6 на 2 программа выдала на 2 больше гомологов искомого белка. Один из "новых" гомологов (Q9LJW0.1) сильно отличается от найденных ранее, выравнивание белка AKO92848.1 с ним имеет значительно большее E-value равное 7.5 и меньший вес, равный 32.3 bits (наименьший вес среди выравнивай, составленных программой при первом поиске равен 65.9 bits. Можно предположить что данный белок не является гомологом белка AKO92848.1.

Изменение объёма поиска

Для поиска был взят белок Q9Z2V5.3 (Histone deacetylase 6) E-value выравнивания исходного (AKO92848.1) с которым равно 7*10-54. Организм,из которого выделен этот белок-Mus musculus (Mouse). Таксономия организма:Eukaryota › Metazoa › Chordata › Craniata › Vertebrata › Euteleostomi › Mammalia › Eutheria › Euarchontoglires › Glires › Rodentia › Myomorpha › Muroidea › Muridae › Murinae › Mus › Mus/

Таблица 3:Характеристики списка гомологов белка AKO92848.1(acetoin utilization protein [Bacillus endophyticus]), наденных с помощью BLAST в банке данных SWISS-PROT внутри царства Metazoa при заданной длине слова 2.

Общее количество находок

55

Количество находок с E-value менее одной тысячной

52

Максимальное значени E-value, выданное программой

6.6

Чем лимитировано количество находок (порогом на E-value или максимальным числом находок)

Порогом на E-value(максимальное число находок 100, это больше чем выдала программа)

E-value выравнивания с Q9Z2V5.3, полученное при предыдущем поиске

7*10-54

E-value выравнивания с Q9Z2V5.3, полученное в данном поиске

2*10-54

Программой было найдено больше 50 гомологов даже при ограничении поиска одним таксоном. Это говорит нам о том, что данный таксон (Metazoa) является очень крупным, поэтому в банке представлено большое количество белков, найденных у представителей относящихся к Metazoa.
Значение E-value выравнивания с Q9Z2V5.3, полученное в данном поиске уменьшилось более чем в три раза по сравнению с аналогичным значением, полученным в поиске без ограничений объема. Мне кажется, это можно объяснить тем, что при уменьшении объема и количества вариантов уменьшается и вероятность появления выравнивания с большим весом. Условно говоря, при уменьшении объема увеличивается значимость каждой конкретной находки.
Как мне кажется, в отличие от E-value, вес выравнивания (в томм чесле в битах) должен быть величиной постоянной, так как он полностью определяется двумя последовательностями, " составляющими выравнивание и не должен зависеть от "внешних" факторов.

Другие веб-интерфейсы BLASTP

Таблица 4:Сравнение различных веб-интерфейсов для поиска гомологов.

Параметры сравнения Standard Protein BLAST BLAST(UniProt) NCBI BLAST+(на сайте Европейского биоинформатического института)

Доступные для выбора банки данных

Семь основных банков данных (включая Swiss-Prot), возможность выбрать поиск среди не избыточных(имеющих повторения) белков(Non-redundant proteins)

Работает внутри банка UniProt, есть возможность выбора между его "подотдлами"

Большой спектр баз данных, есть возможность выбрать одновременно несколько, для некоторых баз данных можно выбирать из их "подотделов"

Особенности ввода исходной последовательности

Принимает последовательность в fasta-формате или ее ID

Принимает последовательность или любой ее индификатор в UniProt

Принимает последовательность в различных форматах, но не по ID

Особенности вывода информации

Предоставляет общий график со схемами всех выравниваний, отдельные выравнивания изображает сразу побуквенно

Сильно округляет E-value(почти везде 0), только общие схемы отдельных выравниваний

Предоставляет все возможные данные, включая анализ выравниваний с учетом функциональных участков

Другие особенности

>Несколько алгоритмов поиска на выбор

Мало опций для регуляции поиска гомологов и рассчета веса выравниваний

Очень долго работает

Итог

Дает достаточно полную ,но не очень подробную, информацию, удобен для общего рассмотрения гомологов и небольшой конкретизации их структур

Дает только самые общие свединия, работает просто и быстро, может помочь при составлении статистики, когда не нужна большая точность

Очень большой выбор опций и очень много данных на выходе, может быть использован для детального изучения и анализа сходств в структцрах белков

Что будет если если вместо BLOSUM62 использовать устаревшую матрицу аминокислотных замен PAM250?

Рассмотрим несколько примеров

Таблица 5:Сравнение данных при замене матрицы BLOSUM62 на PAM250 при поиске гомологов белка AKO92848.1(acetoin utilization protein [Bacillus endophyticus]), наденных с помощью BLAST в банке данных SWISS-PROT внутри царства Metazoa при заданной длине слова 2.

# BLOSUM62 PAM250

Общее количество находок

97

103

ID находки

E-value

Q9HXM1.1

1*-110

1*-98

Q70I53.3

9*-97

8*-82

O30107.1

7*-64

2*-52

Q941D6.1

8*-62

4*-51

Q94EJ2.1

5*-60

5*-51

Как видно из приведенных данных при замене матрицы E-value "хороших" находок уменьшилось почти на 10 порядков, а вот количество находок незначительно вырасло.

Весенний семестр 2018


© Болихова Анастасия 2018