BLAST
Поиск гомолога белка в Swissprot
При запуске веб-интерфейса blast, программа предлагает выбрать 16 параметров, которые приведены в таблице 1.
Выдача программы Blast доступна по ссылке.
Всего было найдено 362 последовательности, которые удовлетворили запросы алгоритма.
Для выравнивания были выбраны 6 следующих киназ: O69077.2, Q88EI9.1, A4VJB4.1, C3JXY0.1, P61489.1, а также исходная киназа. E-value для данных последовательностей меньше или равен 4*10-112.
Процент покрытия равен 96%, а процент идентичности варьируется в небольших пределах от 46.81% (у P61489.1) до 48.42% (у C3JXY0.1). Значит можно заключить, что все белки гомологичны друг другу.
Ссылка на проект в jalview
Таблица 1.
AC | P26512 |
Job Title | P26512:RecName: Full=Aspartokinase; AltName:... |
Database | UniprotKB/Swiss-Prot(swissprot) |
Organism | bacteria (taxon_id:2) |
Exclude | Пусто |
Algorithm | blastp (protein-protein BLAST) |
Max target sequences | 500 |
Short queries | Automatically adjust parameters for short input sequences |
Expect threshold | 0.05 |
Word size | 6 |
Max matches in a query range | 0 |
Matrix | BLOSUM62 |
Gap Costs | Existence: 11 Extension: 1 |
Compositional adjustments | Conditional compositional score matrix adjustment |
Filter | Пусто |
Mask | Пусто |
Поиск гомологов для Gag-Pol полипротеина из HIV
Gag-Pol - это полипротеин из human immunodeficiency virus type 1 group M subtype B (isolate HXB2) (HIV-1), AC: P04585, ID: POL_HV1H2.
Для анализа была выбрана последовательность зрелого белка "Matrix protein p17", начальная координата которого 2, а конечная 132.
Последовательность была вычленена из общей последовательности командой:
seqret sw:"pol"_"hv1h2"[2:132] p17.fastaПоследовательность доступна по ссылке.
Blast данной последовательности производился с такими же параметрами, которые приведены в таблице 1, кроме AC (P04585), Job Title (POL_HV1H2 P04585 Gag-Pol polyprotein (Pr160Gag-Pol)...) и Max target sequences (100).
Выходом алгоритма стали 128 вирусных последовательностей белков. Полная выдача программы доступна по ссылке.
Для выравнивания были выбраны 6 белковых последовательностей, а именно: P03348.3, Q70622.3, P05889.3, P05887.3, Q73367.3, а также исходный белок. Проект в jalview.
В данном проекте были удалены некоторые участки из последовательности POL_HV1H2, которые в процессе созревания белка вырезаются из него. Можно заявить о гомологии всех белков между собой, так как процент идентичности варьирует от 93.89% до 99.24%, а процент покрытия каждой последовательности равен 100.
Значение E-value зависит от размера базы данных по формуле: E-value = m*n*2-B , где m - длина исходной последовательности, n - размер базы данных, а B - вес в битах.
Количество последовательностей и в случае ограничения поиска по вирусам, и без него равно 128. Однако, у последовательностей, к примеру P04591.3, изменяться значение E-value. В случае без ограничений E-value = 5*10-89, а в случае с ограничением 2*10-90.
Ссылка на выдачу blast с ограничением по поиску.
Судя по формуле, можно сказать, что E-value и размер базы данных связаны линейно, так как остальные параметры не были изменены. Следовательно в Swissprot, примерно, 4% вирусных последовательностей.