Учебная страница курса биоинформатики,
год поступления 2023
Подсказки и рекомендации к Практикуму №8
Ссылка на задания практикума: https://kodomo.fbb.msu.ru/wiki/2023/3/pr8
1. К заданию 1
Искать δ-субъединицу АТФ-синтазы имеет смысл по ключевой фразе, например, ATP synthase subunit delta, или сделать запрос короче (ATP synthase), но пройтись по всем вариантам на случай, если белок называется как-то немного иначе (например, если это аннотация GenBank, т.е. того кто белок клал в базу данных, то он мог вполне иначе назвать тот же белок: Delta subunit of the ATP synthase, или даже Subunit delta of the ATP-synthase.
Для поиска идентификатора нуклеотидной записи, в которой аннотирован белок, нужно открыть файл с последовательностями генома с аннотацией (GBFF) и найти в нем данный белок по идентификатору, а потом воспользоваться поиском строчки LOCUS (в режиме чувствительности к регистру / "case sensitive") в обратном направлении от места, где найден идентификатор белка (т.е. это будет поиск не "вниз" по файлу, а "вверх").
Получить последовательность ДНК нужного гена можно так: откройте соответствующую нуклеотидную запись в NCBI Nucleotide, перейдите в режим геномного браузера – нажмите на ссылку Graphics в верхней части записи, в поле Find введите идентификатор белка. Вы должны увидеть последовательность гена белка с небольшой окрестностью до и после. Сохраните последовательность гена с окрестностью: это можно сделать через кнопку Download – Download FASTA – FASTA (Visible Range). Можно пользоваться и любыми другими (правильными) способами
Последовательности можно приводить в виде ссылки на файл, а можно вставить в виде текста, только обратите внимание на шрифт – последовательности принято записывать моноширинным шрифтом, таким как Courier New.
1. К заданию 2
База данных, по которой вы ищете, очевидно, оказывает на результаты принципиальный эффект. Обратите внимание что новая база данных по умолчанию – core_nt – вообще не содержит геномов как таковых.
При поиске по refseq_genomes среди эукариот можно найти число геномов, по которым проводился поиск, очень простым способом. На страницах с результатами BLAST в шапке обратите внимание на поле Database, там будет написано что-то вроде: refseq_genomes (X databases), где X - число сборок, которые реально использовались для поиска (иными словами - сколько геномов из выбранной таксономической единицы есть в БД RefSeq Genomes).
Имеет смысл также поискать целевую таксономическую единицу через NCBI Datasets и посмотреть, сколько из сборок геномов там включены в RefSeq (а еще лучше - сравнить это с числом, получаемым по способу выше).
- Чтобы сохранить результаты поиска в текстовом виде, в аквамариновой строчке "Sequences producing significant alignments" выберите вариант "Hit Table (text)" или "Text" (в зависимости от желания).
2. К заданию 3
При указании числа гомологов не путайте "число гомологов" с числом "находок BLAST", посмотрите внимательно на координаты найденных участков в последовательности-запросе и в целевой последовательности.
Желательно посмотреть оба основных выходных файла, формат которых задается с помощью опции BLAST outfmt - и текстовый, и табличный.
При ответе на вопрос о функции найденных гомологов вспомните, что у эукариот может быть несколько типов рибосом, подумайте какие рибосомы должны быть у вашего эукариота исходя из его высшей классификации по таксономии.