Учебный сайт Аксеновой Марины

Нуклеотидные банки данных
Часть I

Задание 1.

В данном задании требовалось качество сборки генома эукариотического организма. Данные об организме были взяты с сайта NCBI, сам организм был выбран при помощи опции Browse by organism. В качестве организма был выбран беркут (Aquila chrysaetos).

Aquila chrysaetos
Рис. 1. Aquila chrysaetos

Данному организму соответствуют 2 сборки (Рис. 2) - обе на скэффолдовом уровне. Для последующей работы была выбрана первая сборка GCA_000766835.1, т.к. в таблице на Рис. 2 о ней приведено больше сведений, чем о второй сборке.

Сборки генома Aquila chrysaetos
Рис. 2. Сборки генома Aquila chrysaetos

Для двух сборок:

Сборкам соответствуют 2 биологических образца и 3 проекта, т.к. для образца сборки GCA_000766835.1 было создано 2 проекта, о чем я узнала, перейдя по ссылке BioProject (Рис. 3).

Проекты сборки GCA_000766835.1
Рис. 3. Проекты сборки GCA_000766835.1

Для выбранной сборки:

Описание образца SAMN03079786 выбранной сборки приведено на Рис. 4.

Описание образца SAMN03079786
Рис. 4. Описание образца SAMN03079786. Указано: идентификаторы образца, систематическое положение вида, характеристики образца (изолят, пол, ткань образца), относящиеся к этому образцу проекты, время и место представления результатов.
Описание проекта PRJNA277694: The reference sequence (RefSeq) genome assembly is derived from the submitted GenBank assembly (see linked project PRJNA256103). Annotation provided on the RefSeq genomic records is based on NCBI annotation pipeline.
Перевод описания: Сборка референсного генома (RefSeq) получена из представленной сборки GenBank (см. связанный проект PRJNA256103). Аннотация представлена в геномных записях RefSeq, основанных на источнике информации аннотаций NCBI.
Как видно из перевода, это описание ссылается на связанный проект PRJNA256103. Поэтому было решено перевести описание и этого проекта.

Описание проекта PRJNA256103: The golden eagle (Aquila chrysaetos) is one of the best-known birds of prey in the Northern Hemisphere. It is the most widely distributed species of eagle. The golden eagle occurs throughout Europe, Asia, northern Africa and North America. Golden eagles and their conservation are very important to Native Americans, because of the eagle's prominence in the culture of so many tribes, such as the Iowa tribe of Oklahoma. The Iowa tribe is funding the sequencing and assembly of the genome, which represents an initial step towards elucidating the eagle's relatively unknown population structure.
Перевод описания: Беркут (Aquila chrysaetos) - одна из наиболее известных птиц, охотящихся в северном полушарии. Это наиболее широко распространенный вид орлов. Беркут встречается по всей Европе, Азии, Северной Африке и Северной Америке. Беркуты и их сохранение очень важны для коренных американцев из-за известности бекрутов в культуре многих племен, таких как племя Айова или Оклахома. Племя Айова спонсирует секвенирование и сборку генома, которая представляет собой первый этап в направении выяснения относительно неизвестной популяционной структуре орлов.

В сборке всего 1142 скэффолда и 17032 контига (ссылка на страницу с таблицей контигов). Таблицы со списком скэффолдов для этой сборки приведено не было.
Контиг N50=172,329
Контиг L50=2,004
Скэффолд N50=9,230,743
Скэффолд L50=40
Для одного контига (Accession - JRUM01011536, name - Aquila_chrysaetos-1.0.2-109.29) предложена ссылка на его последовательность.

Задание 2.

В этом задании требовалось составить таблицу митохондриальных генов мха Hypnum imponens.

Hypnum imponens
Рис. 5. Hypnum imponens

Был проведен поиск по полям БД Nucleotide с запросом ((Hypnum imponens [orgn]) and mitochondrion) and complete genome.
Было найдено 2 записи о митохондриальном геноме этого мха (Рис. 6). Одинаковые авторы и названия записей свидетельствуют о том, что эти 2 записи принадлежат одному исследованию, поэтому для работы была выбрана первая запись, как наиболее "свежая".

Найденные записи о митохондриальном геноме мха Hypnum imponens
Рис. 6. Найденные записи о митохондриальном геноме мха Hypnum imponens

В геноме всего 67 генов. Из них 40 кодируют белки, 3 - рРНК и 24 - тРНК.
Ссылка на файл со списком генов, отсортированным по началу в геноме (sorted by chromosome).

Задание 3.

Здесь надо было описать 10 ключей, используемых в таблицах особенностей. Информация для описания ключей была взята из help'a INSDC. Примеры для каждого ключа были найденв при помощи поиска в БД Nucleotides по полю [FKEY]. Описание ключей представлено в Таблице 1.

Таблица 1. Описание ключей, используемых в таблицах особенностей
Ключ Описание Пример
centromere Область биологического интереса, идентифицированная как центромера и
экспериментально охарактеризованная
centromere <1..>4149
LTR Длинный терминальный повтор, последовательность, точно
повторяющаяся на обоих концах определяемой последовательности,
подобное часто находят в ретровирусах
LTR 1..214
/note="left direct repeat"
misc_difference Функциональная последовательность, отличная от представленной
на входе и не описываемая никаким иным ключом (old_sequence,
variation, or modified_base)
misc_difference 550945
/gene="DOCK1"
/gene_synonym="ced5; DOCK180"
/note="This sequence differs
fromthe reference genome assembly (NCBI Build 38) at this
position. G was replaced by A to represent the standard
allele identified by alignment of public cDNAs."
/replace="g"
mobile_element Область генома, содержащая мобильные элементы mobile_element 1..4149
/mobile_element_type="LINE:HaCEN-LINE"
old_sequence Представленная последовательность содержит предыдущую версию
последовательности на этой позиции
old_sequence 1606^1607
/citation=[5]
/replace="cct"
regulatory Любой участок последовательности, функционирующий в регуляции
транскрипции или трансляции
regulatory 1683..1688
/regulatory_class="polyA_signal_sequence"
/gene="ERAL1"
/gene_synonym="CEGA; ERA; ERA-W; ERAL1A; H-ERA; HERA-A; HERA-B"
rep_origin Начало репликации; запускает сайт дупликации нуклеиновой кислоты,
чтобы создать 2 идентичные копии
rep_origin 2287..2538
/locus_tag="Hhub_ORI1"
/note="replication origin ORI1"
stem_loop Шпилька; двуспиральный участок, сформированный спариванием
оснований между соседними (инвертированными) комплементарными
парами оснований в единственной цепи РНК или ДНК
stem_loop complement(6061..6095)
/note="functions as an origin for replicating the light strand"
telomere Область биологического интереса, идентифицированная как теломера и
экспериментально охарактеризованная
telomere complement(1..847)
/note="TEL15L; Telomeric region
on the left arm of Chromosome XV; composed of an X
element core sequence, X element combinatorial repeats, and
a terminal stretch of telomeric repeats"
/db_xref="SGD:S000028929"
polyA_site Сайт на РНК транскрипте, к которому будут добавлены остатки аденина при
помощи посттранскрипционного полиаденилирования
polyA_site 1715
/gene="ERAL1" /gene_synonym="CEGA; ERA; ERA-W; ERAL1A; H-ERA; HERA-A; HERA-B"

Часть II

Задание 4.

В этом задании нужно было установить, какому гену принадлежит последовательность, полученная в предыдущем практикуме, и таксономию организма. Для этого был использован BLASTN с этой последовательностью на входе. При запуске BLAST применялся алгоритм "Somewhat similar sequences (blastn)" по БД nr, все параметры были оставлены по умолчанию.

Находки BLAST
Рис. 7. Некоторые находки BLAST

Всего было найдено 100 находок. На Рис. 7 представлены некоторые из них. Минимальныое E-value составляло 1е-26, минимальная идентичность - 89%. Исходя из данных об идентичности находок с входной последовательностью, для дальнейшей работы были выбраны 6 первых находки (6 первых строчки находок на Рис. 7). Ниже представлены ссылки на информацию об этих находках. Такое число выбранных находок обусловлено тем, что 3 лучшие находки принадлежат одному организму, а идентичность следующих 3-х одинакова (93%).

  1. Glycera capitata isolate A histone H3 (H3) gene, partial cds
  2. Glycera capitata isolate A histone H3 (H3) gene, partial cds
  3. Glycera capitata isolate A histone H3 (H3) gene, partial cds
  4. Coronaster briareus isolate CLM-32 voucher USNM 1138514 putative late stage histone H3 (H3) gene, partial cds
  5. Ophelina cylindricaudata histone H3 gene, partial cds
  6. Pectinaria koreni isolate B histone H3 (H3) gene, partial cds

Было проведено множественное выравнивание находок и консенсусной последовательности из практикума 6. При этом была использована команда muscle -in seq1.fasta -out seq2.fasta (seq1.fasta - файл со списком последовательностей, отправленных на выравнивание, а seq2.fasta - файл с построенным выравниванием). В графическом виде выравнивание представлено на Рис. 8.

Множественное выравнивание исходной последовательности и лучших выбранных находок
Рис. 8. Множественное выравнивание исходной последовательности и лучших выбранных находок

Таксономия организмов:

Сellular organisms; Eukaryota; Opisthokonta; Metazoa; Eumetazoa; Bilateria - общее у всех этих организмов, далее идет разделение:

  • Deuterostomia; Echinodermata; Eleutherozoa; Asterozoa; Asteroidea; Forcipulatacea; Forcipulatida; Labidiasteridae; Coronaster; Coronaster briareus
  • Protostomia; Lophotrochozoa; Annelida; Polychaeta:
    • Palpata; Aciculata; Phyllodocida; Glyceridae; Glycera; Glycera capitata
    • Scolecida; Opheliidae; Ophelina; Ophelina cylindricaudata
    • Scolecida; Terebellida; Pectinariidae; Pectinaria; Pectinaria koreni

Как видно из информации, приведенной выше, последовательность из предыдущего практикума - ген гистона. Таксономия достаточно разнообразна, но только одна из выбранных находок принадлежит Deuterostomia, что позволяет предположить, что последовательность скорее всего принадлежит Protostomia (Первичноротым), а конкретнее - Polychaeta (Полихетам). Поскольку 3 лучшие находки - гены одного и того же организма Glycera capitata, скорее всего ген из предыдущего практикума принадлежит организму из этого вида. Уровень сходства с лучшей находкой - 99% (меньше 2 замен на 100 п.н.).

Glycera capitata
Рис. 8. Glycera capitata