Для данного задания был выбран эукариотический организм Cryptosporidium parvum. Он достаточно хорошо изучен, поскольку является паразитом некоторых млекопитающих. Его систематическое положение:
Eukaryota
Alveolata
Apicomplexa
класс Coccidia
род Cryptosporidium
Ниже представлена характеристика сборки генома данного организма.
Число сборок генома: 9; далее была выбрана наиболее полная сборка GCA_000165345.1 Она достаточно полная, так как представлена уже в виде хромосом
Количество Bioprojects: всего 13, из них 10 проектов по секвенированию генома организма, 2 - по исследованию транскриптома и генной экспрессии и 1 - по картированию генома (HAPPy map)
Количество образцов: 9 (для 8 разных штаммов, представленных в БД. Для штамма C. parvum Iowa II представлено 2 отдельные сборки)
Далее - описание наиболее полной сборки для штамма Iowa II. Его код доступа в GenBank: GCA_000165345.1. (В RefSeq GCF_000165345.1)
Организм: Cryptosporidium parvum Iowa II (систематическое положение уже приведено выше в виде основных клад)
Признаки: выделен из штамма Iowa II
Проект, в котором был использован образец: PRJNA144 Cryptosporidium parvum Iowa II
Предоставлен 5 августа 2014 года ApiDB (Apicomplexa database) Bioinformatics Resource Center
Описание проекта:
Код доступа - PRJNA144, идентификатор - 144. Тип проекта: секвенирование и сборка генома. Был подан 27 марта 2004 от университета Миннесоты
Проект по секвенированию генома организма Cryptosporidium parvum Iowa II
Секвенирование генома паразитического протиста Cryptosporidium parvum было проведено совместно Центром глубокого генетического анализа (the AGAC) университета Миннесоты и Лабораторией молекулярной биологии (Великобритания).
В Университете Миннесоты создали случайный кусок ДНК, пытаясь приблизиться к получению полной ДНК-последовательности данного штамма. Исходный материал был выделен из фекалий зараженных телят с помощью непрерывного градиента сахарозы.
Очищенная ДНК была рандомно разрезана для создания "библиотеки" кусочков по 2-5 тысяч пн, которая после секвенирования дала 13-кратное покрытие полной последовательности. Лаборатория молекулярной биологии закончила план строения, секвенирование и анализ строения шестой хромосомы Cryptosporidium parvum Iowa II.
Анализ ее посл-ти обнаружил синтению и белковую схожесть с плазмодием, другим паразитом из группы Apicomplexa.
Анализ генома C. parvum Iowa II предоставит информацию касательно его структуры, взаимодействия между хозяином и паразитом, а также позволит разрабатывать лекарства, нацеленные на борьбу с патогенезом этого организма.
Данные о геноме, полученные в ходе проекта: размер - примерно 10.4 Мб, упакован в 8 хромосом размерами 1.04 - 1.5 Мб. У C. parvum Iowa II отсутствует пластидный геном, что странно для представителя Apicomplexa.
Все данные были загружены в GenBank (идентификаторы хромосом CM000429 - CM000436).
Проект распространил свои данные по многим разделам NCBI (Pubmed, Nucleotide, Protein Sequences и др.). Связанный с ним проект в БД RefSeq - PRJNA15586.
Число контигов: 18 (общая длина 9,087,724 пн). Таблица с характеристикой контигов и скэффолдов*. В соответствии с ней, самый длинный контиг - 1,278,458 пн (AAEE01000001), а самый короткий контиг - 17,388 пн (AAEE01000018).
Пример последовательности контига:chr5.s2, контиг с идентификатором AAEE01000010, являющийся частью 5-ой хромосомы.
Число скэффолдов: 8 (совпадают с хромосомами)
Contig N50: 1,014,526 пн
Contig L50: 4
Scaffold N50: информация в Таблице (ссылка выше).
*В excel-файле, содержащем характеристики контигов и скэффолдов, на первом листе ("contigs") представлена информация по контигам, а на втором - по скэффолдам, соответственно.
Задание 2
Для выполнения этого задания был взят мох Аномодон утонченный (Anomodon attenuatus). Его систематическое положение (согласно записи в GenBank'е):
домен Eukaryota
царство Viridiplantae (Зеленые растения)
Streptophyta
подцарство Embryophyta (Высшие растения)
Bryophyta (Настоящие мхи)
Bryophytina
класс Bryopsida (Листостебельные мхи)
подкласс Bryidae (Бриевые)
Hypnanae (Гипновые)
порядок Hypnales
семейство Anomodontaceae
род Anomodon
Чтобы результатом поиска по БД Nucleotides был только полный митохондриальный геном данного мха, был сгенерирован следующий запрос: "Anomodon attenuatus"[Organism] AND ("genome"[Title]) AND ("mitochondrion"[Filter]) . При введении такого запроса получаем всего 2 результата - 2 полных митохондриальных генома, они содержат одинаковые последовательности
и отличаются только тем, что лежат в разных базах данных: один - в GenBank (идентификатор JX402749.1), другой - в NCBI Reference Sequence (NC_021931.1).
Здесь приведена Таблица всех генов митохондриального генома данного организма. Гены отсортированы по начальной позиции в геноме. Всего в геноме закодировано 67 генов, из них 40 генов несут информацию о белках и 27 - о РНК (3 рибосомальных и 24 транспортных).(В таблице голубым выделены гены, кодирующие РНК, а оранжевым - кодирующие белки.)
Рис. 1.Графическое изображение митохондриального генома Anomodon attenuatus.
Проанализировав таблицу, можно сделать выводы о том, что кодирует митохондриальная ДНК. Во-первых, это белки, формирующие митохондриальные рибосомы, во-вторых, различные факторы биосинтеза цитохрома с (необходимого компонента дыхательной цепи), в-третьих, белки - составляющие АТФ-синтазы, а также некоторые дегидрогеназы. То есть можно сказать, что в митохондриях закондированы некоторые из тех белков, которые необходимы для осуществления дыхательной функции митохондрий, и белки для построения рибосом, которые в свою очередь синтезировали бы белки для дыхания.
Кроме этого, мтДНК кодирует тРНК всех аминокислот (за исключением аспарагина) и рРНК, входящих в состав митохондриальных рибосом.
Задание 3.
В описании какой-либо последовательности, будь то полный геном организма, конкретный ген или белок, обязательно присутствует поле (таблица) FEATURES, в котором собрана вся информация о последовательности. В этом месте указываются различные особенности каких-либо участков последовательности и их свойства, например, взаимодействие с другими молекулами, биологическая роль, пометки об исправлениях и пр. Ключ такой таблицы - это одно слово или аббревиатура, обозначающая функциональную группу посл-ти.
Ключи представляют конкретную информацию о важных особенностях функциональной группы.
Описание 10 ключей, используемых в этом поле, приведено в Таблице 1 ниже. Использовались данные по EMBL-EBI, GenBank и DDBJ, взятые из INSDC.
Ribosome binding site (сайт связывания с рибосомой). Место посл-ти, куда садится рибосома (на 5-9 нуклеотидов раньше, чем инициирующий кодон).
5
source
Биологический источник данной посл-ти
6
terminator
Посл-ть ДНК,распознаваемая РНК-полимеразой, приводящая к завершению транскрипции
7
tRNA
Зрелая транспортная РНК
8
STS
Sequence tagged site (Сайт, помеченный какой-то посл-тью). Короткая ДНК-последовательность, служащая отличительным признаком какого-то сайта при картировании генома, может быть обнаружена при ПЦР
9
misc_feature
Участок, который нельзя охарактеризовать, используя другие обозначения (имеющий специфические свойства)
10
repeat_region
Участок генома, содержащий повторяющиеся блоки посл-ти