Банки нуклеотидных последовательностей

Характеристика сборки генома эукариотического организма

Мной был выбран геном Caenorhabditis elegans, свободноживущей нематоды (1 мм). Первые исследования данного вида датированы 1974 годом (работы Сиднея Бреннера). Червя используют как модельный организм в исследованиях по генетике, нейрофизиологии, биологии развития. В 1986 году был полностью описан его коннектом. Геном полност ью секвенирован и опубликован в 1998 году (дополнен в 2002). Картинку можно посмотрет ь по ссылке.

Flowers in Chania

С помощью NCBI была составлена таблица 1 с характеристикой лучшей из 6 сборок генома.

Таблица 1. Характеристика сборки генома
Название сборки AC из GenBank «Уровень» сборки Длина последовательности Число контигов N50 (для контигов) L50 (для контигов) Число скэффолдов N50 (для скэффолдов) L50 (для скэффолдов) Число аннотированных белков
Cael_CB4856_1.0 GCA_000975215.1 Chromosome 98,302,807 17 14,890,789 3 16 17,183,857 3

Была получена ссылка на одну из публикаций из BioProject NCBI. Контиг в формате FASTA был скачен с помощью раздела WGS Master со страницы выбранной сборки.

Получение последовательности CDS одного из прокариотических вирусов

Поиск произведен в NCBI по Nucleotide. Текст запроса: (("Tectiviridae"[Organism]) AND 10000:20000[SLEN]). Было найдено 25 подходящих геномов, из них 18 в INSDC (GenBank) , 7 в RefSeq. Информация получена из колонки Source databases. Затем был выбран геном вируса и по нему сделана таблица 2.

Таблица 2. Характеристика генома вируса
AC нуклеотидной записи Латинское название/TaxID вида Тип генома Хозяин вируса
NC_042083.1 Gluconobacter virus GC1/ 2047788 linear ds-DNA Gluconobacter cerinus

Также получен файл с предположительно кодирующими последовательностями CDS(Send to – coding sequences – format: FASTA Nucleitide).

Описание ключей из таблицы особенностей

На INSDC.org , был рассмотрен feature table document c информацией по ключам. Некоторые из них представлены в таблице 3.

Таблица 3. Описание ключей
misc_difference данная последовательность отличается от представленной в записи и не может быть описана никакими другими ключами различия (old_sequence, variation, modified_base) KR709472
misc_difference 337
                     /gene="PTS"
                     /note="compared to parent clone; results in K to R
                     substitution"
                     /replace="a"
repeat_region Область генома, содержащая повторяющиеся участки LC217340
repeat_region   81..98
                     /rpt_type=tandem
                     /rpt_unit_seq="ta"
                     /satellite="microsatellite:Pre_2"
misc_structure любая вторичная или третичная нуклеотидная структура или конформация, которая не может быть описана другими структурными ключами (stem_loop и D-loop) LC075726
misc_structure  88..>338
                     /note="cox2-cox3 intergenic spacer"
C_region сайт легких и тяжелых цепей иммуноглобулина или альфа-, бета- и гамма-цепей Т-клеточного рецептора D16595
C_region        112..>138
                     /note="T cell receptor alpha chain constant region"
mobile_element область генома, содержащая мобильные элементы GQ338995
mobile_element  1..168
                     /mobile_element_type="SINE:PRE-1 P17"
oriT Участок последовательности, с которого начинается трансфер ДНК в процессе конъюгации или мобилизации. MN241905
oriT            complement(56831..56913)
                     /note="minimum oriT sequence"
rep_origin сайт, с которого начинается репликация EU499643
rep_origin      1..442
                     /note="oriV; conserved part of vegetative replication
                     origin including interons