BLAST

Поиск гомолога белка в Swissprot

При запуске веб-интерфейса blast, программа предлагает выбрать 16 параметров, которые приведены в таблице 1.

Выдача программы Blast доступна по ссылке.

Всего было найдено 362 последовательности, которые удовлетворили запросы алгоритма.

Для выравнивания были выбраны 6 следующих киназ: O69077.2, Q88EI9.1, A4VJB4.1, C3JXY0.1, P61489.1, а также исходная киназа. E-value для данных последовательностей меньше или равен 4*10-112.

Процент покрытия равен 96%, а процент идентичности варьируется в небольших пределах от 46.81% (у P61489.1) до 48.42% (у C3JXY0.1). Значит можно заключить, что все белки гомологичны друг другу.
Ссылка на проект в jalview

Таблица 1.

AC P26512
Job Title P26512:RecName: Full=Aspartokinase; AltName:...
Database UniprotKB/Swiss-Prot(swissprot)
Organism bacteria (taxon_id:2)
Exclude Пусто
Algorithm blastp (protein-protein BLAST)
Max target sequences 500
Short queries Automatically adjust parameters for short input sequences
Expect threshold 0.05
Word size 6
Max matches in a query range 0
Matrix BLOSUM62
Gap Costs Existence: 11 Extension: 1
Compositional adjustments Conditional compositional score matrix adjustment
Filter Пусто
Mask Пусто

Поиск гомологов для Gag-Pol полипротеина из HIV

Gag-Pol - это полипротеин из human immunodeficiency virus type 1 group M subtype B (isolate HXB2) (HIV-1), AC: P04585, ID: POL_HV1H2.

Для анализа была выбрана последовательность зрелого белка "Matrix protein p17", начальная координата которого 2, а конечная 132.

Последовательность была вычленена из общей последовательности командой:

seqret sw:"pol"_"hv1h2"[2:132] p17.fasta
Последовательность доступна по ссылке.

Blast данной последовательности производился с такими же параметрами, которые приведены в таблице 1, кроме AC (P04585), Job Title (POL_HV1H2 P04585 Gag-Pol polyprotein (Pr160Gag-Pol)...) и Max target sequences (100).

Выходом алгоритма стали 128 вирусных последовательностей белков. Полная выдача программы доступна по ссылке.

Для выравнивания были выбраны 6 белковых последовательностей, а именно: P03348.3, Q70622.3, P05889.3, P05887.3, Q73367.3, а также исходный белок. Проект в jalview.

В данном проекте были удалены некоторые участки из последовательности POL_HV1H2, которые в процессе созревания белка вырезаются из него. Можно заявить о гомологии всех белков между собой, так как процент идентичности варьирует от 93.89% до 99.24%, а процент покрытия каждой последовательности равен 100.

Исследование зависимости E-value от объёма банка

Значение E-value зависит от размера базы данных по формуле: E-value = m*n*2-B , где m - длина исходной последовательности, n - размер базы данных, а B - вес в битах.

Количество последовательностей и в случае ограничения поиска по вирусам, и без него равно 128. Однако, у последовательностей, к примеру P04591.3, изменяться значение E-value. В случае без ограничений E-value = 5*10-89, а в случае с ограничением 2*10-90.

Ссылка на выдачу blast с ограничением по поиску.

Судя по формуле, можно сказать, что E-value и размер базы данных связаны линейно, так как остальные параметры не были изменены. Следовательно в Swissprot, примерно, 4% вирусных последовательностей.