\
Ввели название белка из Genbank, название файла выдачи Hjc. В качестве базы данных выбрали Swissprot для выбора из меньшего количества лучше описанных белков. Не производилось ограничение по организмам, в качестве алгоритма взяли blastp. Находки в большем количестве бы выдавались по 100 на экран. Максимальный возможный E-value в выдаче 0.05. Размер слова выбрали 3 вместо 6 по умолчанию. Использовалась матрица Blosum62. Штрафы за удлинение и открытие гэпа 1 и 11 по умолчанию.
Выровняли 6 находок сисходным белкоми не нашли негомологичных, поскольку все они принадлежат археям, все резольвазы структур Холлидея, выполняющие соответствующую функцию, и все белки имеют по исходной резольвазе покрытие не менее 77%, низкий E-value, ярко выражены консервативные участки.
Название вируса | New York hantavirus |
---|---|
ID | GP_NYV |
AC | Q83887; Q83886; Q83888 |
Файл с Glycoprotein N, расположенный в полипептиде по координатам 18-652.
Белок N был выравнен с полипротеинами P41266.1, P27315.1, P16853.1, P16493.1 и P33455.1.Из вируса Пуумала и Хантаан взяли только по одному пептиду, чтобы охватить большее разнообразие вирусов из 13 находок с E-value 0.0.
Само выравнивание отдельных белков
К сожалению, по выбранному белку нельзя оценить долю вирусных белков в Swissprot, поскольку что без ограничения, что с ограничением по таксону, у всех находок E-value 0.0. Поэтому для данного задания взяла Capsid protein p30 из вируса кошачьей лейкемии. В выравнивании c gPr80 Gag E-value без ограничения таксономии 4e-162, с ограничением в таксоне вирусов 2e-163, список из 54 находок не изменился. Так как E-value прямо пропорционально числу всех находок из совокупности поиска, то доля вирусных белков в Swissprot около 2e-163/4e-162=5%.
Blast на EBI: очень широкий выбор баз данных, в том числе по таксономии и кластерам. Но может использовать только blastp и blastx, причем для первого нет возможности выбрать различные алгоритмы. Также в плюс то, что опционально можно получать уведомление на почту о том, что выравнивание завершилось.
Expasy: Можно ввести ID белка; есть подробный мануал как работать с бластом Expasy без графического интерфейса, среднее количество возможных баз данных между бластами на NCBI c EBI. К сожалению, нельзя менять некоторые параметры непосредственно алгоритма выравнивания.
Uniprot: Способен искать только в UniprotKB, очень ограничены возможности изменения параметров алгоритма.