Учебный сайт Макаровой Надежды

Третий семестр

Банки нуклеотидных последовательностей.

Характеристика сборки генома

Нужно оценить качество сборки генома произвольно выбранного эукариотического организма Ficedula albicollis (см. рис.1) Сборка геномов этого и организма , а также других представителей отряда воробьинообразных имеет важное значение в сравнительной геномике для выяснения эволюции птичьих геномов.



Рис.1 Изображение Ficedula albicollis мухоловки-белошейки.


Для этого генома было проведено 2 сборки (GCA_000247815.2 и GCA_000247815.1). Также для него известно 2 проекта по секвенированию (PRJNA208061 и PRJNA75089) и 1 образец (SAMN02981387).

Для сборки 2013 года. (GCA_000247815.2)

Описание образца (см. рис.2)


Рис.2 Описание BIOSAMPLE для сборки 2013 года


На этой странице сообщается об:

  • Индентификаторе образца: в базе данных BIOSAMPLE (SAMN02981387) и GenBank (gb|AGTO00000000.2)
  • Систематике организма Мухоловки-белошейки.
  • Поле организма: мужской
  • Географическом местонахождении вида: Эланд, Швеция
  • Изоляте, к которму принадлежит организм: OC2
  • Дате сбора: 2009
  • Проектах по секвенированию, использующих данный образец: PRJNA75089 Ficedula albicollis
  • Дате и месте завяления образца: Uppsala University, Dept of Evolutionary Biology; 2014-08-11
  • Id образца: 2981387

Описание проекта по секвенированию (см. рис.3)


Рис.3 Описание BIOPROJECT для сборки 2013 года


Сборка 2013 года (GCA_000247815.2) содержит:
  • 30,843 контигов
  • 21,836 скэффолдов
  • N50 (для контигов) - 410,964
  • L50 (для контигов) - 771
  • N50 (скэффолдов) - 6,542,656
  • L50 (скэффолдов) - 48

Таблица контигов представлена здесь . Длина самого большого составляет 3298586 нуклеотидов (AC:AGTO02003581, name: contig02324),самого короткого (их несколько, выбран один) - 200 нуклеотидов(AC: AGTO02000301, name: contig02219)

Последовательность контига (contig04308) длиной 1,549,489 представлена здесь .

При быстром просмотре последовательности был обнаружен фрагмент из многократно (удивительно много раз) повторяющегся цитозина.

Таблица митохондриальных генов мха Oxystegus tenuirostris


Рис.4 Изображение мха Oxystegus tenuirostris


Составив запрос "Oxystegus tenuirostris and mitochondrion" в базе данных Nucleotide, получила две находки, по-разному датировнные, но содержащие идентичные последовательности. Далее перешла по ссылке Genome и получила информацию о всем митохондриальном геноме мха (см. рис.5) из таблички видно, что в митохондриальный геном содержит 66 генов, 39 из которых кодируют белки, 3 - рибосомальную РНК, 24 - транспортную РНК


Рис.5 Информация о геноме Oxystegus tenuirostris


Отсортированные по началу в геноме гены проедставлены в таблице

Ключи для таблицы особенностей (Feature Table)

На сайте Ebi (European Bioinformatics Institute) были найдены описания ключей из Feature Table. Далее приведены десять ключей с пояснениями и примерами.

Использование Blast для определения принадлежности последовательности к гену и таксономии организма.

В 6 практикуме была обработана хроматограмма и получена следующая последовательность. Чтобы определить, что закодировано в этой последовательности, был запущен Blastn c max количеством выровненных последовательностей равным 20000.

Определение принадлежности к гену.

Программа представила 20000 находок с наихудшим e-value = 1e-105. Все находки кодируют белок cytochrome oxidase subunit 1 (COI) (см. рис.6).


Рис.6 Структура белка cytochrome oxidase subunit 1


Этот белок кодируется митохондриальной ДНК. Является финальным ферментом электронной транспортной цепи в митохондриальном окислительном фосфолирировании. На этом основании можно быть уверенным, что в последовательности закодирован именно белок COI. При этом стоит заметить, что длина выбранной последовательности состовляет 695 нуклеотидов, а длина выравнивания - 662. Первые 33 нуклеотида не выравниваются. Предположение: некодирующая часть гена.

Определение таксономии.

Самые лучшие находки представлены на рис.7. Что было замечено:

  • У первых двух находок (соответсвующих одному виду Polycirrus medusa) показатели довольно разительно отличаются от последующих.
  • При просмотре первых трех выравниваний (ссылки на них приведены ниже) видно, что последовательности идентичны на 100 % (но по длине выравнивания различается на 2 нуклеотида), выравнивание же с последовательностью из организма Polycirrus sp. BOLD:AAI2761 содержит множество мест, где T замещен на С, А на G (еще есть единичные замены A на T и на С). Слово замена здесь употреблено только для описания различий. Ни в коем образе не предназначено для описания эволюционной истории. Уровень сродсвта (число замен на 100 н.п. составляет 93 %)


Рис.7 Лучшие находки, предложенные Blastn


Эти наблюдения делают возможным, по моему мнению, определить таксономию орагнизма с данной последовательностью с точностью до вида.(см.рис.8)


Этот эукариотический организм относится к полищетинковым червям. Полная систематика: Eukaryota; Metazoa; Lophotrochozoa; Annelida; Polychaeta; Scolecida; Terebellida; Terebellidae; Polycirrus, Polycirrus medusa.


Рис.8 Изображение Polycirrus medusa


Выравнивание выбранной последовательности с первой, со второй и с третьей находками