Семестры

Нуклеотидные банки данных.

Выбор организма для анализа.

В качестве организма для анализа я выбрал одноклеточную красную водоросль Cyanidioschyzon merolae strain 10D. Это связано с тем, что на экзамене по микалогии и альгологии мне попался билет с красными водорослями. :)

Характеристика геномной сборки.

В таблице 1 указаны значения некоторая информация об организме и его геномной сборке.

Таблица 1. Описание.
Идентификатор GenBank GCA_000091205.1
Идентификатор RefSeq GCF_000091205.1
Уровень сборки генома Complete Genome
Общий размер генома (п.н.) 16.5 млн.
Число фрагментов генома в сборке 20
N50 859.1 kb
L50 8

N50 - это наименьшая длина контига (или скэффолда) для которого сумма длин всех контигов длинее его или равных ему не меньше половины от длины генома.
L50 - это наименьшее число контигов (или скэффолдов) сумма длин которых составляет не менее половины длины генома.

Поисковые системы NCBI и ENA.

В качестве белка, с которым я буду работать в этом задании, был выбран родопсин (Rhodopsin). При помощи следующего запроса по датабазе nucleotide мы получили, что у нас для родопсина 6147 мРНК и 44,550 генов:

rhodopsin[Title]

Для генов у нас нашлось 3 записи RefSeq. Для мРНК 3951 RefSeq. При помощи следующего запроса я получил 27 записей генов и 44 мРНК. Причем из генов 2 записи RefSeq, а из мРНК 2 записи RefSeq:

(rhodopsin[Title]) AND (Homo sapiens[Organism])

Можно заметить, не все полученные белки являются родопсином - также встречается белки с названием "retinal pigment epithelium-derived rhodopsin homolog" - это перопсин, который является гомологом родопсина.

При помощи следующих двух запросов были получены записи для мРНК и генов уже при помощи ENA:

tax_eq(9606) AND description="rhodopsin" AND mol_type="mRNA"
tax_eq(9606) AND description="rhodopsin" AND mol_type="genomic dna"

Поиск дал 147 находок для мРНК и 21 находка для генов.