Подсказки и рекомендации к практикуму № 8
Задания практикума здесь
1. К заданию 1
Искать δ-субъединицу АТФ-синтазы имеет смысл по ключевой фразе, например, ATP synthase subunit delta, или сделать запрос короче (ATP synthase), но пройтись по всем вариантам на случай, если белок называется как-то немного иначе (например, если это аннотация GenBank, т.е. того кто белок клал в базу данных, то он мог вполне иначе назвать тот же белок: Delta subunit of the ATP synthase, или даже Subunit delta of the ATP-synthase.
Для поиска идентификатора нуклеотидной записи, в которой аннотирован белок, нужно открыть файл с последовательностями генома с аннотацией (GBFF) и найти в нем данный белок по идентификатору, а потом воспользоваться поиском строчки LOCUS (в режиме чувствительности к регистру / "case sensitive") в обратном направлении от места, где найден идентификатор белка (т.е. это будет поиск не "вниз" по файлу, а "вверх").
Получить последовательность ДНК нужного гена можно так: откройте соответствующую нуклеотидную запись в NCBI Nucleotide, перейдите в режим геномного браузера – нажмите на ссылку Graphics в верхней части записи, в поле Find введите идентификатор белка. Вы должны увидеть последовательность гена белка с небольшой окрестностью до и после. Сохраните последовательность гена с окрестностью: это можно сделать через кнопку Download – Download FASTA – FASTA (Visible Range). Можно пользоваться и любыми другими (правильными) способами
Последовательности можно приводить в виде ссылки на файл, а можно вставить в виде текста, только обратите внимание на шрифт – последовательности принято записывать моноширинным шрифтом, таким как Courier New.
2. К заданию 2
База данных, по которой вы ищете, очевидно, оказывает на результаты принципиальный эффект. Обратите внимание что новая база данных по умолчанию – core_nt – вообще не содержит геномов как таковых.
При поиске по refseq_genomes среди эукариот можно найти число геномов, по которым проводился поиск, очень простым способом. На страницах с результатами BLAST в шапке обратите внимание на поле Database, там будет написано что-то вроде: refseq_genomes (X databases), где X - число сборок, которые реально использовались для поиска (иными словами — сколько геномов из выбранной таксономической единицы есть в БД RefSeq Genomes).
Имеет смысл также поискать целевую таксономическую единицу через NCBI Datasets и посмотреть, сколько из сборок геномов там включены в RefSeq (а еще лучше — сравнить это с числом, получаемым по способу выше).
- Чтобы сохранить результаты поиска в текстовом виде, в аквамариновой строчке "Sequences producing significant alignments" выберите вариант "Hit Table (text)" или "Text" (в зависимости от желания).
3. К заданию 3
При указании числа гомологов не путайте "число гомологов" с числом "находок BLAST", посмотрите внимательно на координаты найденных участков в последовательности-запросе и в целевой последовательности.
Желательно посмотреть оба основных выходных файла, формат которых задается с помощью опции BLAST outfmt - и текстовый, и табличный.
При ответе на вопрос о функции найденных гомологов вспомните, что у эукариот может быть несколько типов рибосом. Подумайте, какие рибосомы должны быть у вашего эукариота, исходя из его высшей классификации по таксономии.
4. К заданию 4
Геномы можно искать несколькими способами:
со страницы "геномы NCBI". Берите только геномы, собранные до хромосом.
поиском в "сборном" банке "Nucleotides" на NCBI: https://www.ncbi.nlm.nih.gov/nuccore/advanced . Укажите организм и (в поле Title) одно из слов "chromosome", "complete", "genome" (пробуйте разные варианты). Получив выдачу, лучше сразу щёлкнуть по слову RefSeq в левой части окна.
поиском в ENA. Там Search → Advanced Search → в поле "Data type" отмечаете "Nucleotide sequences" и нажимаете Next. Организм вводите в категории "Taxonomy and related", там в поле "NCBI taxonomy" начните набирать латинское название и дождитесь появления подсказок, потом щёлкните по нужному названию. Стоит отметить галочку "Include subordinate taxa". Затем в категории "Titles, aliases and descriptions" выберите "Description" и введите либо "complete", либо "chromosome", либо "genome" (пробуйте разные варианты, для разных организмов могут сработать разные). Полистайте выдачу и подберите две подходящих записи.
- поиском на сайте DDBJ (есть мнение, что он устроен понятнее, чем в ENA, разберитесь сами)
Возможно, придётся перебрать несколько пар. Варианты для геномов (хромосом) такие: разные штаммы одного вида, разные виды одного рода. Из разных родов вряд ли найдётся хорошая пара, хотя бывают исключения.
Карту локального сходства нужно построить посредством BLAST 2 sequences на сайте NCBI. Для этого на странице нуклеотидного BLAST нужно отметить галочку "Align two or more sequences", после чего появится второе окошко. В оба окошка можно вводить Accession записей GenBank, ENA (они точно такие же, как в GenBank) или RefSeq. Сама карта — по ссылке DotPlot на странице с результатом. Чтобы скачать графический файл с картой, щёлкните по изображению правой кнопкой мыши; другой вариант — воспользоваться приложением "Ножницы".
Не возбраняется менять "Advanced" параметры: порог на e-value, у BLASTN также длину слова (c 11 на 7) и Match/mismatch (в некоторых случаях имеет смысл поставить 1/–1). Если меняете, обязательно указывайте это в комментариях.
Чтобы воспользоваться программой TBLASTX, нужно сначала открыть страницу запроса другого варианта BLAST (например, BLASTN), а затем найти вверху малозаметную серую кнопочку переключения на TBLASTX.

2025
2023
2022
2021
2020
2019
2018
2017