Учебная страница курса биоинформатики,
год поступления 2019
Практикум 7. Банки нуклеотидных последовательностей
Отчёт – страница со ссылкой со страницы семестра.
1. [Выполнение начинается в классе] Опишите одну нуклеотидную последовательность, секвенированую на ББС
Беломорская биологическая станция имени Н.А.Перцова
Выполнение в классе части задания 1 оценивается. Для этого надо записаться в очередь, выбрать практикум 7a и привести ссылку на страницу или файл, по которым можно убедиться в наличии каких-либо результатов классной работы. Минимальный приемлемый результат - AC записи и краткое объяснение почему она с ББС (в очереди ссылка на запись в Genbank и объяснение) Deadline 13го, допустим, в 22 часа. Годится?
Оценивается наличие результата. Содержание будет проверено после выполнения всего практикума 7.
ИДЕЯ задания. (1) Мотивировка: интересно же узнать чем будете заниматься на практике на ББС (надеемся, с ковид справятся). (2) Для этого придется самому/самой разобраться с поиском в БД и тем, что написано в аннотации записи с нуклеотидной последовательностью. (3) Аннотации, особенно в записях, депонированных предшествующими поколениями студентов-практикантов, [такие были] короткие - легче разобраться (4) Начав на занятии, можете советоваться с преподавателем где что в записи. (5*) Может, дополнительно про ген захочется разобраться
Описание должно основываться на аннотации из записи с последовательностью, полученной из базы последовательностей
Дополнительная информация - при наличии ссылок на источник - не запрещается, а приветствуется
Ограничения на выбор последовательности
- Вы должны найти в записи информацию, подтверждающую, что образец - источник нуклеиновой кислоты - получен на ББС.
- Выбирайте только последовательности отдельных генов белков или РНК или их фрагментов. Не берите полные геномы или отдельные контиги из полных геномов!
Описание должно быть написано СВОИМИ СЛОВАМИ на понятном русском или английском языке
Должен получиться связный текст. Надеюсь, что студенты поняли по тесту писателя, что это значит.
На своей веб-странице приведите
- Запрос к базе данных по которому получили список записей, включающий записи из ББС. Число записей по запросу.
- Описание одной записи
Что входит в описание записи
- Идентификатор записи
- ДНК или РНК, длина последовательности, дата депонирования в банк последовательностей
- Авторы записи (обычно указано среди References как direct submission; если нет - авторы публикации)
- Объяснение того, почему вы решили, что образец получен на ББС. Можно - догадки с обоснованием, в связи с возможной сложностью вопроса.
- Название организма (латинское - как написано в записи) и понятное объяснение, что за зверь такой, на русском. Можно фото включить.
- Интересное про образец (source), из которого получена ДНК (или РНК)
- Название гена. (*) И что найдете про ген со ссылками на источник
- Последовательность в формате fasta (по ссылке)
- (*) Дополнительно. Цель секвенирования.
- (*) Дополнительно. Все, что хотите
2. Охарактеризуйте качество сборки генома эукариотического организма
Организм (точнее, вид) – на ваш выбор, но есть ограничения:
(если выберете геном одноклеточного эукариота или геном тигра - тоже кошечка, я не буду против. Так как мне интересно! ААл)
- многоклеточный эукариот,
- не млекопитающее (все эти кошечки, собачки, лошадки и т.д. уже приелись)
В отчёте укажите:
- название вида (латинское и русское);
- краткое описание (можно из википедии, но копипаста запрещена, перескажите своими словами);
- желательна картинка (с указанием источника);
- число сборок генома.
Потом выберите одну лучшую сборку и для нее привидите следующую информацию:
- название (assembly name);
AC сборки из RefSeq (если нет, то из GenBank);
- "уровень" сборки (assembly level);
- общую длину последовательности;
- число контигов и скэффолдов;
- N50 и L50 для контигов и скэффолдов;
- число аннотированных белков;
- ссылку на публикацию с описанием проекта (если есть);
ссылку на последовательность одного из контигов в формате .fasta (файл на kodomo).
Для поиска используйте ссылку "Browse by Organism" на странице NCBI Genome, или просто поиск по NCBI Genome (примерно то же самое). Лучшая сборка – это, в первом приближении, самая свежая сборка с самым высоким "уровнем" (Genome > Chromosome > Scaffold > Contig). Однако надо критически относиться к приведенной информации (особенно в ДБ Genome). Если вы нашли классную сборку генома белой акулы на уровне хромосом и с покрытием 45x, но, согласно этой сборке, у акулы в геноме всего одна хромосома, да и та короче, чем у любого известного вируса, то, наверно, что-то с этой сборкой не так. Это не абстрактный пример, можете поискать (если я удержался, и на занятии не показал).
Чтобы добыть последовательность контига нужно сначала найти соответствующую запись WGS (есть несколько вариантов, как это сделать, опишите в отчете свой), а потом из неё перейти по ссылке на список записей для контигов. Как получить файл .fasta разберитесь сами. Ключевая фраза: "send to file".
3. Получите список полных геномов таксона коронавирусов, содержащего штамм, геном которого изучали в прошлом семестре
В линейке таксономии вируса поднимитесь до того таксона, в котором есть более одного полного генома. (В систематике вирусов штатные единицы - вид, род - условны, поэтому их не использую.)
В отчете надо привести:
- где и как искали, текст запроса;
- список находок с полным геномом (complete) или ссылку на таблицу полных геномов
сколько из них из RefSeq (NCBI)
Поиск на NCBI среди Nucleotide выведет вас на базу данных NCBI Virus. В ней есть хорошая скачиваемая таблица. Обязательно добавьте в неё колонку Nuc Completeness и отсортируйте по ней. Скачайте таблицу в формате csv. Колонки AC, Species, Release date, length, Nuc Completeness обязательны. Остальные как хотите - по ним можно будет судить о вашем любопытстве:)
4. Скачайте последовательности CDS одного генома коронавируса из выбранного в 3. таксона (лучше выбрать того, геном которого изучали)
Потом выберите один геном и для него приведите:
- AC нуклеотидной записи;
- латинское название и TaxID вида;
- тип генома: DNA/RNA, ds/ss, линейный/кольцевой;
- хозяина вируса;
ссылку на файл .fasta с участками генома, предположительно кодирующими белки (CDS).
Как получить файл разберитесь сами. Ключевые фразы: "send to file", "coding sequences". Кратко опишите в отчете, как получили файл.
5* Поиск массовых геномных проектов
Массовый проект - проект по геномному секвенированию сотен, лучше тысяч, десятков тысяч, сотен тысяч и более организмов.
Бывают массовые проекты по секвенированию геномов организмов одного вида, или геномов организмов одного таксона, или геномов организмов одной биологической ниши или местности.
- Найдите и опишите в свободной форме один массовый геномный проект. Описание должно быть интересно вашим однокурсникам, другим студентам и преподавателям.
Придумайте и опишите метод поиска информации о массовых проектах по геномному секвенированию. Это может быть что угодно: веб-ресурс, содержащий информацию о таких проектах, продуманный запрос в гугл или PubMed, какая-то отдельная статья со списком (что хуже, потому что точно не обновляется), и т.д.
Вот что может быть интересно: название проекта, ссылка на страницу, цель, год начала и завершения, организацию, страну, планируемое число геномов, сколько геномов секвенировано на настоящее время, последнюю публикацию по проекту (ссылка на PubMed). Но вы можете считать иначе
Задание дополнительное, оцениваться будет строго и субъективно.
Under construdtion