1.Качественная сборка генома эукариотического организма Eublepharis macularius

Для задания был выбран Eublepharis macularius (пятнистый эублеофар).

Краткое описание Eublepharis macularius

Тип Хордовые

Класс Пресмыкающиеся

Отряд Чешуйчатые

Семейство Эублеофаровые

Род эублеофары

В отличие от других гекконов имеют подвижные веки, утолщенный хвост, служащий резервуаром для хранения жира и др пит в-в. Так же у них нет присосок на пальцах, как, например, у бананоедов. В связи с этим по деревьям они лазать не могут, но благодаря коготкам имеют возможность хорошо передвигаться по камням и песку.

Благодаря селекции, выведено множество цветовых морф. Самый распрастраненный окрас варьируется от соломенного до пудрого-розового. Бока светлые, почти белые, на верхней части головы, на губах, спине и хвосте разбросаны мелкие тёмно-коричневые пятна.

Ведут ночной и сумеречный образ жизни. В дневное время прячутся в укромных местах или норах, где влажность выше, чем в окружающей среде. Часто живут группами, состоящими из 1го самца и нескольких самок, но могут проживать и в одиночку. Самцы активно защищают свою территорию от других самцов.

Вид распрастранен на северо-западе Индии, в Пакистане, на юго-востоке Афганистана и на востоке Ирана.

2. Таблицы некоторых характеристик выбранной сборки

При поиске референсного генома были отмечены следующие параметры: сборка должна иметь аннотированные гены (хотя бы в одной версии - RefSeq или GenBank), качество сборки на уровне Chromosome и выше, а так же сборка должна быть помечена как референсная.

Идентификатор GenBank GCA_028583425.1
Идентификатор RefSeq GCF_028583425.1
Уровень сборки генома Chromosome
Общий размер генома 2.2 Gb
Число хромосом в сборке 19
N50 для скэффолдов 145.6 Mb
L50 для скэффолдов 6
N50 для контигов 80.1 Mb
L50 для контигов 9

Пояснения к таблице:

3.Сборка генома, аннотация и предсказанные белковые последовательности выбранного организма

Аннотация генов есть в обеих базах данных, поэтому можно скачивать информацию из любой из них. Для выполнения задания я выбрала RefSeq.

4. Знакомство с поисковыми системами ENA и NCBI

NCBI

Для задания был выбран белок инсулин. С помощью Advanced Search и запроса insulin[Protein Name] получили записи.

Всего было найдено 253173 записей нуклеотидных баз данных посвящено генам и мРНК белков с словом "insulin" в названии.

Из них 176099 записей пренадлежат GenBank и 76821 пренадлежат RefSeq

Всего записей, описывающих последовательности человека 11770. Из них GenBank мРНК:4102 ,GenBank участки генома:4578 , RefSeq мРНК: 2476, RefSeq участки генома: 192

ENA

Записей, описывающих мРНК 7185 (tax_tree(9606) AND description="insulin" AND mol_type="mrna"), а генов белков человека 157 (tax_tree(9606) AND description="insulin" AND (mol_type="genomic dna" OR mol_type="genomic rna"))

NCBI показался мне более интуитивно понятным и удобным.