Задание 1

Выбрал геном человека, самого важного и интересного организма из эукариот, у него должно быть 23 пары хромосом в сборке их 24 штуки (X и Y). Искал по запросу Homo sapiens (Human), выдача состояла из 1083 сборок. Из них выбрал GRCh38.p14, Сборка имеет хромосомный уровень, это значит, что она содержит последовательность ДНК одной или более хромосом, а также является референсной (была выбрана научным сообществом, в качестве стандарта высокого качества, с которым следует сравнивать остальные сборки). Seq и GenBank.

Задание 2

GenBank ID RefSeq ID Размер генома (Mb)
GCA_000001405.29 GCF_000001405.40 3,099
Number of scaffolds Scaffold N50 Scaffold L50
470 67.8 Mb 16
Number of contigs Contig N50 Contig L50
996 57.9 Mb 18

N50 — длина элемента, для которого 50% нуклеотидов сборки содержатся в элементах большей или равной длины.

L50 - наименьшее число элементов, в которых содержится 50% нуклеотидов сборки.

Задание 3

Скачал с сайта NСBI следующие три файла:
  • Нуклеотидные последовательности генома в формате FASTA
  • Последовательности белков в формате FASTA
  • Последовательности генома с аннотацией GBFF