Практикум 7. Банки нуклеотидных последовательностей
1. Сборка эукариотического организма
Для выполнения данного задания был выбран Обыкновенный шимпанзе Pan troglodytes, поскольку данный вид приматов близок к человеку. В NCBI Genome нашлось 6 сборок, имеющих отношение к данному виду. Однако лишь первая из них представляет большой интерес, так как в ней описано на 2 порядка больше генов и белков, чем во второй по объёму сборке.
Характеристики сборки
- Название вида: Pan troglodytes
- Сборка (Assembly): GCA_002880755.3
- Число хромосом: 26 + митохондрион. Комментарий: условно, у шимпанзе 24 пары хромосом. Однако вторая хромосома состоит из двух частей 2A и 2B. Под 26 номером в сборке оказалась не хромосома, а запись с контигами, которые не смогли разместить на какую-либо хромосому (unplaced).
- Общая длина: 3 050 398 082
- Длина гэпов в сборке: 31 805 092
- Число контигов: 5 061
- N50: 12 268 567
- L50: 67
- Число скаффолдов: 4 432
- N50: 53 103 722
- L50: 19
- Число генов (аннотированных): 40 592
- Число белков(аннотированных): 80 811
- Публикация в PubMed: Initial sequence of the chimpanzee genome and comparison with the human genome.
- Ссылка на один из контигов: NBAG03000178.1
2. Ключи таблицы особенностей [1]
Ключ | Описание | Пример |
CDS | Кодирующая последовательность. |
CDS 405..1934 /operon="gal" /gene="galA" /product="galactose permease" /function="galactose transporter" |
mRNA | мРНК. Включает 5' и 3'-нетранслирующиеся участки и кодирующие последовательности. |
mRNA join(10..567,789..1320) /gene="ubc42" |
regulatory | Регуляторный участок генома. |
regulatory <1..9 /gene="ubc42" /regulatory_class="promoter" |
exon | Участок генома, который кодирует часть зрелой мРНК. |
exon 789..1320 /gene="ubc42" /number=2 |
operon | Участок генома, состоящий из нескольких генов, который образуе единый транскрипт. |
operon 160..6865 /operon="gal" |
intron | Участок генома, который транскрибируется на мРНК, но затем удаляется во время сплайсинга. |
intron 568..788 /gene="ubc42" /number=1 |
repeat_region | Повторяющийся участок генома. |
repeat_region 80..401 /rpt_type=DISPERSED /rpt_family="Alu-J" |
3. Состояние дел в геномном проекте
- Название проекта: 1000 геномов грибов
- Цель: отсеквенировать более 1000 геномов грибов таким образом, чтобы из каждого семейства грибов было отсеквенировано минимум 2 вида.
- Год начала: 2011
- Планируема дата окончания: 2017. В апреле 2018 года было отсеквенировано более 1000 геномов.
- Ссылка на страницу: http://1000.fungalgenomes.org/home/
- Организация: Joint Genome Institute
- Страна: США
- Планируемые число геномов: 1000
- Отсеквенировано геномов: 1206
- Последняя публикация по проекту: Fungal Genomes and Genotyping
4. Таблица митохондриальных генов одного из организмов типа Cnidaria
Был выбран вид Hydra vulgaris (Гидра обыкновенная). Поиск производился в NCBI Nucleotide по запросу:
"Hydra vulgaris"[Organism] AND biomol_genomic[PROP] AND mitochondrion[filter]
Всего было выдано 174 результата. Из них 170 - в GenBank, 2 - в RefSeq. Из RefSeq результатов была выбрана запись "Hydra magnipapillata mitochondrion chromosome 1, complete sequence" с AC: NC_011220.1. Запись была загружена в формате GenBank, затем из нее была получена аннотация в табличном формате .gff командой:
featcopy hydra_mitochondrion.gb -outfeat prots.gff
Полученная таблица была обработана в Excel и приведена к виду, который требовался в задании. Результат: cds.xlsx.