Учебная страница курса биоинформатики,
год поступления 2023
Задания практикума 10
Результаты — в виде отдельной страницы на своём сайте, со ссылкой со страницы семестра. Срок без штрафа — 23 апреля, с минимальным штрафом — 30 апреля.
При затруднениях см. указания.
Задания 1–3 делаются на сайте NCBI: https://blast.ncbi.nlm.nih.gov/, там пройдите по ссылке Protein BLAST.
1. Найдите в Swiss-Prot гомологи вашего белка
Ваш белок — тот же, что вы выбрали в упр. 1 практикума 7.
- Опишите параметры, которые были использованы при запуске BLAST (в том числе открывающиеся при нажатии Algorithm parameters).
Сохраните текстовую выдачу программы (см. указания) и включите в отчёт гиперссылку на неё
Отберите 5–7 находок и скачайте их в fasta-формате. Если ВСЕХ находок от двух до пяти, то работайте с тем, что есть, но обязательно отметьте в отчёте это обстоятельство (перед этим повторите поиск, изменив параметр "Word size", возможно, находок станет больше). Если находок вообще нет или только одна, выберите другой белок.
- Создайте множественное выравнивание последовательности своего белка и отобранных находок и загрузите его в Jalview.
- Отредактируйте выравнивание, удалив белки, вероятно не гомологичные вашему (если такие есть). Обоснуйте гомологичность оставленных белков и негомологичность удалённых. Сохраните выравнивание как проект Jalview (jvp) и поставьте на него гиперссылку из отчёта. Как всегда, в проекте должно остаться ровно одно окно: с итоговым выравниванием.
2. Найдите в Swiss-Prot гомологи зрелого вирусного белка, вырезанного из полипротеина
Найдите в Swiss-Prot полипротеин какого-нибудь вируса. Запрос на сайте Uniprot: "Viruses" по полю "Taxonomy [OC]" и "polyprotein" по полю "Protein Name [DE]" (можно вместо всех вирусов искать по какому-нибудь их таксону, например, Coronaviridae, Flaviviridae, ...). Выберите любой аннотированный (Reviewed) полипротеин. Укажите в отчёте его ID, AC, название вируса (из поля OS).
- В записи Swiss-Prot в поле FT найдите ключи CHAIN, это зрелые белки, на которые разрезается полипротеин. Выберите один из них, укажите его название (в кавычках после "\note=") и координаты (начало-конец) в полипротеине.
- Вырежьте средствами EMBOSS последовательность зрелого белка в отдельный файл в fasta-формате. Поставьте на этот файл ссылку из отчёта. Желательно дать последовательности в fasta-файле подходящие название и описание (программа descseq из EMBOSS или просто в текстовом редакторе).
- Теперь проделайте всё то же, что в упражнении 1, но в качестве запроса подайте на вход BLAST вырезанный вами из полипротеина зрелый белок. В этом упражнении НЕ используйте фильтр по организмам (в предыдущем — как хотите).
- При редактировании выравнивания в Jalview удалите все буквы находок, которые в выравнивании оказались левее первой или правее последней буквы, выровненной с какой-либо буквой исходного зрелого белка.
3. Исследование зависимости E-value от объёма банка
Повторите предыдущий поиск, оставив те же параметры BLAST, но теперь примените фильтр по организмам, ограничив поиск вирусами (Viruses). Изменился ли список находок?
В выдаче найдите какую-нибудь находку, чьё E-value поменялось по сравнению с предыдущим поиском. Путём сравнения значений E-value этой находки в двух поисках оцените долю вирусных белков в Swiss-Prot.
4. (* – дополнительно) Сравнение интерфейсов BLAST
Сравните интерфейс к BLAST на сайте NCBI и каком-нибудь другом сайте, например, EBI https://www.ebi.ac.uk/Tools/sss/ncbiblast/ или Uniprot https://www.uniprot.org/blast/
Укажите достоинства и недостатки сравниваемых интерфейсов. Обращайте внимание на доступные банки, возможность выбора параметров, форму представления результата. В каких практических ситуациях, как вам кажется, удобнее использовать один сервис и в каких — другой?
5. (* – дополнительно) Поиск "гомологов" бессмысленной последовательности
(проверка точности подсчёта E-value формулой, используемой программой BLAST)
Составьте последовательность длиной несколько десятков букв, которая почти наверняка не относится ни к какому белку. Например, можно взять какую-нибудь английскую фразу (хоть из Шекспира) и удалить из неё пробелы, знаки препинания, а также буквы B, J, O, U, X, Z, не обозначающие никаких "нормальных" аминокислот. Ещё можно найти в EMBOSS программу, генерирующую случайную аминокислотную последовательность, или написать такую самостоятельно на Python.
Подайте эту последовательность на вход BLAST, установите порог на E-value, равный 10, и опишите результат как можно более подробно. В первую очередь нужно уделить внимание числу находок с E-value лучше 10 (и других чисел), но на выравнивания тоже стоит посмотреть. Что в этой выдаче BLAST оказалось ожидаемо, а что нет?
Можно повторить несколько раз, с разными бессмысленными последовательностями и/или разными банками.