Банки последовательностей

Банки нуклеотидных последовательностей

Характеристика качества сборки генома Ananas comosus

Согласно последним данным с сайта NCBI выбранный мною организм классифицируется следующим образом:

> Царство: Viridiplantae
> Отдел: Streptophyta
> Подкласс: Commelinids
> Порядок: Poales
> Семейство: Bromeliaceae
> Род: Ananas
> Вид: Ananas comosus

Всего по данному виду в базе данных есть две сборки, одна сделана не очень хорошо, другая - получше. Об этом можно судить благодаря колонке Level в Browse genome. На каждую сборку приходится по одному проекту. Выберем лучшую сборку. Для этой сборки имеется всего один проект и 1 образец.

Некоторые данные об образце:
Accession number: SAMN04316497; ID образца: 4316497; имя образца: pineapple-F153; краткое описание: образец был взят из свежих листьев ананаса F153.
Эти данные можно увидеть на страничке образца.

Некоторые данные о проекте:
Accession number: PRJNA305080; ID проекта: 305080; актуальность: агрикультура.
Эти и некоторые другие параметры можно увидеть здесь.

Далее рассмотрим саму сборку генома. Как было написано выше, будем рассматривать только лучшую сборку. Важными параметрами для оценки качетсва сборки генома являются число контигов/скэффолдов, их количество, а также такие грубые оценки, как N50 и L50 (на самом деле есть и другие оценки). Суть оценки N50 заключается в следующем: упорядочиваем контиги по возрастанию их длин, выбираем такой контиг, что он и все более длинные покрывают более половины генома; сущность L50: выбираем минимальное количестов контигов, с помощью которых можно покрыть более половины генома.

Следующие результаты были получены с помощью NCBI: [1] и [2]
Размер генома: 381.896.302 пар нуклеотидов;
Число контигов: 3.128;
N50 для контигов: 114.399;
L50 для контигов: 833;
Число скэффолдов: 25;
N50 для скэффолдов: 11.759.267;
L50 для скэффолдов: 13;
Самый длинный контиг: 24.880.688;
Самый короткий контиг: 201.
Также отсюда можно скачать файл с ID контигов и их длинами.
Ссылка на страничку с последовательностью самого короткого контига.

Описание десяти ключей, используемых в таблице особенностей

Ниже приведены описания 10 произвольно выбранных ключей таблиц особенностей с примерами.

Feature key ncRNA:

Определение: не-протеин-кодирующий ген, функциональная молекула которого является РНК транскриптом, не включены рРНК и тРНК.

Feature key centromere:

Определение: регион, который был описан как центромера и который может быть экспериментально охарактеризован.

Feature key mRNA:

Определение: мРНК; включает 5', 3'-нетранслируемые участки, кодирующую часть (экзон).

Feature key primer_bind:

Определение: сайт связывания праймера и ДНК-зависимой РНК-полимеразы (инициация репликации или обратной транскрипции).

Feature key repeat_region:

Определение: регион генома, содержащий повторяющиеся последовательности.

Feature key rRNA:

Определение: зрелая рРНК, где РНК является компонентом рибосомы.

Feature key sig-peptide:

Определение: последовательность, кодирующая сигнальный пептид.

Feature key source:

Определение: идентифицирует биологический источник указанного промежутка последовательности; этот ключ является обязательным (!); допускается использование более одного источника на последовательность.

Feature key tmRNA:

Определение: транспортная матричная РНК; тмРНК дейтсвует сперва в качестве тРНК, позже как мРНК, которая кодирует белковую метку; рибосома транслирует этот мРНК регион тмРНК и прицепляет белковую метку к С-концу незаконченного протеина; этот протеин, содержащий метку будет позже подвергнут протеолизу.

Feature key tRNA:

Определение: тРНК, небольшая РНК молекула (75-85 пар нуклеотидов).

Описание состояния дел в геномном проекте

Рис. 1. Карта соматических мутаций рака.

Я выбрал геномный проект, посвященный раку. По этой ссылке можно почитать про этот проект. Сам геномный проект осуществляется институом Сэнгера в Англии с 1997 года. Главной целью этого проекта является нахождение и исследование генов, которые часто мутируют в опухолевых тканях, наблюдение за развитием клеток в процессе их жизнедеятельности. В проекте учатсвуют ученые, изучающие разные аспекты биологии: от биохимии до биоинформатики. По окончании проекта генома человека исследователи из института Сэнгера начали использовать образцы опухолевых тканей человека и используют их до сих пор. Несмотря на то, что этот проект длится уже 20 лет, до сих пор ежегодно выходят статьи в лучших журналах, таких как Science, Cell, Nature... (переходить по ссылке в раздел publications)
За эти 20 лет был создан каталог соматических мутаций рака. Этот каталог помогает сравнивать найденные последовательности, потенциально связанные с раком, с уже имеющимися последовательностями в каталоге. Карта таких мутаций представлена на рисунке.

Таблица митохондриальных генов Acanthamoeba castellanii

Рис. 2. Микрофотография Acanthamoeba castellanii (Ист.).

В поле БД Nucleotide была введена следующая команда: (("Amoebozoa"[Organism] AND complete[Title]) AND mitochondrion[Title]) AND genome[All Fields].
В результате на выходе имеем 32 полных генома, из них 21 - GenBank, 11 - RefSeq.
Для пострения таблицы был выбран геном Acanthamoeba castellanii. Зачастую этот вид Amoebozoa может быть найден в почвенных экосистемах. Эти хищные организмы охотятся на некоторых бактерий, "простейших", грибы. Данный вид способен лизировать бактерии, продуцировать широкий спектр ферментов, таких как целлюлаза, хитиназа, также иногда этому простейшему приписывают разложение органики в почве.
Кроме того благодаря простоте культивации Acanthamoeba castellanii используется в качестве биологической модели. Сейчас эту модель применяют для изучения протеинов, ответственных за клеточную миграцию, образование и развитие нервной ткани, эмбриона, раковых клеток в человеческих тканях.

Для того, чтобы составить таблицу митохондриальных генов, кодирующих белки, необходимо перейти по ссылке Gene справа, после чего появляется страничка со списком генов данного митохондриального генома. С помощью сортировки (Sort by Chromosome) гены были распределены таким образом, каким они располагаются в геноме. Всего было найдено 40 генов, 40 из которых кодируют белки.
Итоговая таблица доступна по ссылке.

Таблица размеров геномов из презентации

Таблица 1. Размеры геномов различных таксонов и организмов
Таксон	Ожидаемый размер (типичный), пн	Минимальный геном, пн	Максимальный геном, пн
Вирусы	10e4	220 (Rice yellow mottle virus satellite)	2470K (Pandoravirus salinus - dsDNA)
Вироиды	350	256 (Coconut cadang-cadang viroid)	334 (Apple hammerhead viroid-like circular RNA)
Археи	10e6	100K (Candidatus parvarchaeum acidophilus)	6450K (uncultured marine crenarchaeote)
Бактерии	Сложно установить	100K (Cloacimonetes bacterium JGI 0000039-I11)	16M (Mumia flava)
Эукариоты	Сложно установить	11K (Yarrowia lipolytica)	27600M (Pinus lambertiana)

⌘