Практикум 7

Отчет по практикуму 7

Задание 1: Выбор геномной сборки

Для практикума я выбрал вид Drosophila melanogaster (fruit fly). Этот организм является популярным модельным объектом эмбриологии и генетики. За работы, выполненные на этом объекте было присуждено несколько Нобелевских премий по физиологии и медицине. Кроме того, это один из немногих организмов, для которого получена детальная карта нервной системы (коннектом). В кариотипе дрозофилы 4 пары хромосом: 1 пара половых и 3 пары соматических [1].

Рисунок 1. Фотогорафия Drosophila melanogaster [1].

По поисковому запросу "Drosophila melanogaster (fruit fly)" в NCBI было найдено 67 сборок. Я выбрал сборку с идентификатором RefSeq GCF_000001215.4, это рефренсная сборка уровня Chromosome. По классификации RefSeq референсной считается сборка, отобраннная вручную и сочтенная кураторами базы данных качественной. Она может использоваться как стандарт для сравнения с другими сборками. Уровень сборки Chromosome по спецификации базы данных имеют сборки, в которых есть последовательности одной или более хромосом, в которых могут быть гэпы между контигами и скэффолдами, для некоторых скэффолдов место в геноме может быть не определено.

Задание 2: Описание геномной сборки

GenBank id RefSeq id Размер Scaffold N50 Scaffold L50 Contig N50 Contig L50
GCA_000001215.4 GCF_000001215.4 143.7 Mb 25.3 Mb 3 21.5 Mb 3

Таблица 1. Некоторые характеристики выбранной геномной сборки.

N50 - длина самого длинного элемента (контига или скэффолда) для которого половина всех нуклеотидов сборки содержится в элементах (контигах или скэффолдах соответственно) такой же или большей длины. L50 - наименьшее число элементов (контигов или скэффолдов), в которых содержится половина всех нуклеотидов сборки.

Задание 3: Скачивание файлов

1. Нуклеотидные последовательности генома (в формате FASTA)
2. Последовательности белков (в формате FASTA)
3. Последовательности генома с аннотацией (GBFF)

Ссылки на источники:

1. Drosophila melanogaster - Wikipedia