Нуклеотидные банки данных.
Выбор организма для анализа.
В качестве организма для анализа я выбрал одноклеточную красную водоросль Cyanidioschyzon merolae strain 10D. Это связано с тем, что на экзамене по микалогии и альгологии мне попался билет с красными водорослями. :)
Характеристика геномной сборки.
В таблице 1 указаны значения некоторая информация об организме и его геномной сборке.
| Идентификатор GenBank | GCA_000091205.1 |
| Идентификатор RefSeq | GCF_000091205.1 |
| Уровень сборки генома | Complete Genome |
| Общий размер генома (п.н.) | 16.5 млн. |
| Число фрагментов генома в сборке | 20 |
| N50 | 859.1 kb |
| L50 | 8 |
N50 - это наименьшая длина контига (или скэффолда) для которого сумма длин всех контигов
длинее его или равных ему не меньше половины от длины генома.
L50 - это наименьшее число контигов (или скэффолдов) сумма длин которых составляет
не менее половины длины генома.
Поисковые системы NCBI и ENA.
В качестве белка, с которым я буду работать в этом задании, был выбран родопсин (Rhodopsin). При помощи следующего запроса по датабазе nucleotide мы получили, что у нас для родопсина 6147 мРНК и 44,550 генов:
rhodopsin[Title]
Для генов у нас нашлось 3 записи RefSeq. Для мРНК 3951 RefSeq. При помощи следующего запроса я получил 27 записей генов и 44 мРНК. Причем из генов 2 записи RefSeq, а из мРНК 2 записи RefSeq:
(rhodopsin[Title]) AND (Homo sapiens[Organism])
Можно заметить, не все полученные белки являются родопсином - также встречается белки с названием "retinal pigment epithelium-derived rhodopsin homolog" - это перопсин, который является гомологом родопсина.
При помощи следующих двух запросов были получены записи для мРНК и генов уже при помощи ENA:
tax_eq(9606) AND description="rhodopsin" AND mol_type="mRNA"
tax_eq(9606) AND description="rhodopsin" AND mol_type="genomic dna"
Поиск дал 147 находок для мРНК и 21 находка для генов.