В этом практикуме я выбрала Populus trichocarpa (Тополь волосистоплодный). На это у меня было ряд причин. Во-первых, это растения, а они привлекают меня больше, чем другие эукариоты. Во-вторых, это модельный объект ботаники, а значит про него известно много. Забавный факт: это первое отсеквенированное дерево. Ещё интересно, что у тополя довольно маленький геном для растения (размер см в таблице 1 ниже). У него 19 хромосом.
Искала я этот организм по запросу Populus trichocarpa, применяя следующие фильтры:
1. есть аннотированные гены (RefSeq или GenBank)
2. качество сборки - chromosome-complete
3. с референсной сборкой (то есть в ручную выбранной как "стандартная", с которым сравниваются остальные)
Таким образом было найдено 2 результата, я выбрала запись с анотацией и в RefSeq, и в GenBank. Уровень выбранной сборки - chromosome (это означает, что есть последовательность для одной или более хромосом).
Таблица 1. Характеристика выбранной сборки:
Идентификатор GenBank | GCA_000002775.4 |
---|---|
Идентификатор RefSeq | GCF_000002775.5 |
Общий размер генома | 392.2 Mb |
число контигов | 105 |
N50 contig | 13.2 kb |
L50 contig | 13 |
число скэффолдов | 105 |
N50 scaffold | 2.2 Mb |
L50 scaffold | 53 |
Немного про N50 и L50.
N50: число, отражающее длину контига/скэффолда, для которого 50% всех нуклеотидов сборки содержится в контигах/скэффолдах такой же или большей длины.
L50: наименьшее число контигов/скэффолдов, в которых содержится 50% всех нуклеотидов сборки генома.
Почти вся информация бралась от сюда, а всё что не от туда, то из головы)