Практикум 7. Нуклеотидные банки данных


Задание 1


В качестве объекта для этого и следующего практикума я выбрала Papaver somniferum или Мак снотворный. Этот представитель двудольных известен человечеству многие тысячи лет и по сей день культивируется в кульнарных, медицинских и досуговых целях.

Красиво
Вкусно
И не больно

В геноме снотворного мака определено 11 хромосом, но еще довольно много нуклеотидов остается в неразмещенных скэффолдах.

Для поиска сборки на сайте NCBI я использовала запрос с латинским названием: Papaver somniferum. Всего доступно три (3) сборки на хромосомном уровне, т.е. есть последовательность одной или нескольких хромосом (это может быть полностью секвенированная хромосома без гэпов или хромосома, содержащая скэффолды или контиги с гэпами между ними; также могут быть неразмещённые скэффолды). Одна из сборок референсная (т.е. сборка генома высокого качества и выбрана стандартной по отношению к другим), её я и выбрала: ASM357369v1.


Задание 2


N50: Длина контига, для которого половина (50%) всех нуклеотидов сборки содержится в контигах такой и большей длины

L50: Число контигов (наименьшее), в которых содержится половина (50%) всех нуклеотидов сборки

Таблица 1. Некоторые характеристики сборки ASM357369v1
GenBank ID RefSeq ID Размер Генома Число контигов N50 Contig L50 Contig Число скэффолдов N50 Scaffold L50 Scaffold
GCA_003573695.1 GCF_003573695.1 2.7 Gb 65,343 1.8 Mb 436 34,380 204.5 Mb 6

Задание 3


В соответсвии с заданием я скачала три файла. А именно: последовательность генома (FASTA), последовательность белков (FASTA) и последовательность генома с аннотацией (GBFF).