\ Суздаленко, практикум по Uniprot

Blast

Практикум 13

Факультет Биоинженерии и Биоинформатики

Задание 1

Ввели название белка из Genbank, название файла выдачи Hjc. В качестве базы данных выбрали Swissprot для выбора из меньшего количества лучше описанных белков. Не производилось ограничение по организмам, в качестве алгоритма взяли blastp. Находки в большем количестве бы выдавались по 100 на экран. Максимальный возможный E-value в выдаче 0.05. Размер слова выбрали 3 вместо 6 по умолчанию. Использовалась матрица Blosum62. Штрафы за удлинение и открытие гэпа 1 и 11 по умолчанию.

Выровняли 6 находок сисходным белкоми не нашли негомологичных, поскольку все они принадлежат археям, все резольвазы структур Холлидея, выполняющие соответствующую функцию, и все белки имеют по исходной резольвазе покрытие не менее 77%, низкий E-value, ярко выражены консервативные участки.

Задание 2

Таблица 1.
Название вирусаNew York hantavirus
IDGP_NYV
ACQ83887; Q83886; Q83888

Файл с Glycoprotein N, расположенный в полипептиде по координатам 18-652.

Белок N был выравнен с полипротеинами P41266.1, P27315.1, P16853.1, P16493.1 и P33455.1.Из вируса Пуумала и Хантаан взяли только по одному пептиду, чтобы охватить большее разнообразие вирусов из 13 находок с E-value 0.0.

Само выравнивание отдельных белков

Задание 3

К сожалению, по выбранному белку нельзя оценить долю вирусных белков в Swissprot, поскольку что без ограничения, что с ограничением по таксону, у всех находок E-value 0.0. Поэтому для данного задания взяла Capsid protein p30 из вируса кошачьей лейкемии. В выравнивании c gPr80 Gag E-value без ограничения таксономии 4e-162, с ограничением в таксоне вирусов 2e-163, список из 54 находок не изменился. Так как E-value прямо пропорционально числу всех находок из совокупности поиска, то доля вирусных белков в Swissprot около 2e-163/4e-162=5%.

Задание 4

Blast на EBI: очень широкий выбор баз данных, в том числе по таксономии и кластерам. Но может использовать только blastp и blastx, причем для первого нет возможности выбрать различные алгоритмы. Также в плюс то, что опционально можно получать уведомление на почту о том, что выравнивание завершилось.

Expasy: Можно ввести ID белка; есть подробный мануал как работать с бластом Expasy без графического интерфейса, среднее количество возможных баз данных между бластами на NCBI c EBI. К сожалению, нельзя менять некоторые параметры непосредственно алгоритма выравнивания.

Uniprot: Способен искать только в UniprotKB, очень ограничены возможности изменения параметров алгоритма.