Нуклеотидные банки данных | Учебный сайт Аксеновой Марины

Нуклеотидные банки данных
Часть I

Задание 1.

В данном задании требовалось качество сборки генома эукариотического организма. Данные об организме были взяты с сайта NCBI, сам организм был выбран при помощи опции Browse by organism. В качестве организма был выбран беркут (Aquila chrysaetos).

Рис. 1. Aquila chrysaetos

Данному организму соответствуют 2 сборки (Рис. 2) - обе на скэффолдовом уровне. Для последующей работы была выбрана первая сборка GCA_000766835.1, т.к. в таблице на Рис. 2 о ней приведено больше сведений, чем о второй сборке.

Рис. 2. Сборки генома Aquila chrysaetos

Для двух сборок:

Сборкам соответствуют 2 биологических образца и 3 проекта, т.к. для образца сборки GCA_000766835.1 было создано 2 проекта, о чем я узнала, перейдя по ссылке BioProject (Рис. 3).

Рис. 3. Проекты сборки GCA_000766835.1

Для выбранной сборки:

Описание образца SAMN03079786 выбранной сборки приведено на Рис. 4.

Рис. 4. Описание образца SAMN03079786. Указано: идентификаторы образца, систематическое положение вида, характеристики образца (изолят, пол, ткань образца), относящиеся к этому образцу проекты, время и место представления результатов.

Описание проекта PRJNA277694: The reference sequence (RefSeq) genome assembly is derived from the submitted GenBank assembly (see linked project PRJNA256103). Annotation provided on the RefSeq genomic records is based on NCBI annotation pipeline.
Перевод описания: Сборка референсного генома (RefSeq) получена из представленной сборки GenBank (см. связанный проект PRJNA256103). Аннотация представлена в геномных записях RefSeq, основанных на источнике информации аннотаций NCBI.
Как видно из перевода, это описание ссылается на связанный проект PRJNA256103. Поэтому было решено перевести описание и этого проекта.

Описание проекта PRJNA256103: The golden eagle (Aquila chrysaetos) is one of the best-known birds of prey in the Northern Hemisphere. It is the most widely distributed species of eagle. The golden eagle occurs throughout Europe, Asia, northern Africa and North America. Golden eagles and their conservation are very important to Native Americans, because of the eagle's prominence in the culture of so many tribes, such as the Iowa tribe of Oklahoma. The Iowa tribe is funding the sequencing and assembly of the genome, which represents an initial step towards elucidating the eagle's relatively unknown population structure.
Перевод описания: Беркут (Aquila chrysaetos) - одна из наиболее известных птиц, охотящихся в северном полушарии. Это наиболее широко распространенный вид орлов. Беркут встречается по всей Европе, Азии, Северной Африке и Северной Америке. Беркуты и их сохранение очень важны для коренных американцев из-за известности бекрутов в культуре многих племен, таких как племя Айова или Оклахома. Племя Айова спонсирует секвенирование и сборку генома, которая представляет собой первый этап в направении выяснения относительно неизвестной популяционной структуре орлов.

В сборке всего 1142 скэффолда и 17032 контига (ссылка на страницу с таблицей контигов). Таблицы со списком скэффолдов для этой сборки приведено не было.
Контиг N50=172,329
Контиг L50=2,004
Скэффолд N50=9,230,743
Скэффолд L50=40
Для одного контига (Accession - JRUM01011536, name - Aquila_chrysaetos-1.0.2-109.29) предложена ссылка на его последовательность.

Задание 2.

В этом задании требовалось составить таблицу митохондриальных генов мха Hypnum imponens.

Рис. 5. Hypnum imponens

Был проведен поиск по полям БД Nucleotide с запросом ((Hypnum imponens [orgn]) and mitochondrion) and complete genome.
Было найдено 2 записи о митохондриальном геноме этого мха (Рис. 6). Одинаковые авторы и названия записей свидетельствуют о том, что эти 2 записи принадлежат одному исследованию, поэтому для работы была выбрана первая запись, как наиболее "свежая".

Рис. 6. Найденные записи о митохондриальном геноме мха Hypnum imponens

В геноме всего 67 генов. Из них 40 кодируют белки, 3 - рРНК и 24 - тРНК.
Ссылка на файл со списком генов, отсортированным по началу в геноме (sorted by chromosome).

Задание 3.

Здесь надо было описать 10 ключей, используемых в таблицах особенностей. Информация для описания ключей была взята из help'a INSDC. Примеры для каждого ключа были найденв при помощи поиска в БД Nucleotides по полю [FKEY]. Описание ключей представлено в Таблице 1.

Таблица 1. Описание ключей, используемых в таблицах особенностей
Ключ	Описание	Пример
centromere	Область биологического интереса, идентифицированная как центромера и экспериментально охарактеризованная	centromere <1..>4149
LTR	Длинный терминальный повтор, последовательность, точно повторяющаяся на обоих концах определяемой последовательности, подобное часто находят в ретровирусах	LTR 1..214 /note="left direct repeat"
misc_difference	Функциональная последовательность, отличная от представленной на входе и не описываемая никаким иным ключом (old_sequence, variation, or modified_base)	misc_difference 550945 /gene="DOCK1" /gene_synonym="ced5; DOCK180" /note="This sequence differs fromthe reference genome assembly (NCBI Build 38) at this position. G was replaced by A to represent the standard allele identified by alignment of public cDNAs." /replace="g"
mobile_element	Область генома, содержащая мобильные элементы	mobile_element 1..4149 /mobile_element_type="LINE:HaCEN-LINE"
old_sequence	Представленная последовательность содержит предыдущую версию последовательности на этой позиции	old_sequence 1606^1607 /citation=[5] /replace="cct"
regulatory	Любой участок последовательности, функционирующий в регуляции транскрипции или трансляции	regulatory 1683..1688 /regulatory_class="polyA_signal_sequence" /gene="ERAL1" /gene_synonym="CEGA; ERA; ERA-W; ERAL1A; H-ERA; HERA-A; HERA-B"
rep_origin	Начало репликации; запускает сайт дупликации нуклеиновой кислоты, чтобы создать 2 идентичные копии	rep_origin 2287..2538 /locus_tag="Hhub_ORI1" /note="replication origin ORI1"
stem_loop	Шпилька; двуспиральный участок, сформированный спариванием оснований между соседними (инвертированными) комплементарными парами оснований в единственной цепи РНК или ДНК	stem_loop complement(6061..6095) /note="functions as an origin for replicating the light strand"
telomere	Область биологического интереса, идентифицированная как теломера и экспериментально охарактеризованная	telomere complement(1..847) /note="TEL15L; Telomeric region on the left arm of Chromosome XV; composed of an X element core sequence, X element combinatorial repeats, and a terminal stretch of telomeric repeats" /db_xref="SGD:S000028929"
polyA_site	Сайт на РНК транскрипте, к которому будут добавлены остатки аденина при помощи посттранскрипционного полиаденилирования	polyA_site 1715 /gene="ERAL1" /gene_synonym="CEGA; ERA; ERA-W; ERAL1A; H-ERA; HERA-A; HERA-B"

Часть II

Задание 4.

В этом задании нужно было установить, какому гену принадлежит последовательность, полученная в предыдущем практикуме, и таксономию организма. Для этого был использован BLASTN с этой последовательностью на входе. При запуске BLAST применялся алгоритм "Somewhat similar sequences (blastn)" по БД nr, все параметры были оставлены по умолчанию.

Рис. 7. Некоторые находки BLAST

Всего было найдено 100 находок. На Рис. 7 представлены некоторые из них. Минимальныое E-value составляло 1е-26, минимальная идентичность - 89%. Исходя из данных об идентичности находок с входной последовательностью, для дальнейшей работы были выбраны 6 первых находки (6 первых строчки находок на Рис. 7). Ниже представлены ссылки на информацию об этих находках. Такое число выбранных находок обусловлено тем, что 3 лучшие находки принадлежат одному организму, а идентичность следующих 3-х одинакова (93%).

Было проведено множественное выравнивание находок и консенсусной последовательности из практикума 6. При этом была использована команда muscle -in seq1.fasta -out seq2.fasta (seq1.fasta - файл со списком последовательностей, отправленных на выравнивание, а seq2.fasta - файл с построенным выравниванием). В графическом виде выравнивание представлено на Рис. 8.

Рис. 8. Множественное выравнивание исходной последовательности и лучших выбранных находок

Таксономия организмов:

Сellular organisms; Eukaryota; Opisthokonta; Metazoa; Eumetazoa; Bilateria - общее у всех этих организмов, далее идет разделение:

Deuterostomia; Echinodermata; Eleutherozoa; Asterozoa; Asteroidea; Forcipulatacea; Forcipulatida; Labidiasteridae; Coronaster; Coronaster briareus
Protostomia; Lophotrochozoa; Annelida; Polychaeta:
- Palpata; Aciculata; Phyllodocida; Glyceridae; Glycera; Glycera capitata
- Scolecida; Opheliidae; Ophelina; Ophelina cylindricaudata
- Scolecida; Terebellida; Pectinariidae; Pectinaria; Pectinaria koreni

Как видно из информации, приведенной выше, последовательность из предыдущего практикума - ген гистона. Таксономия достаточно разнообразна, но только одна из выбранных находок принадлежит Deuterostomia, что позволяет предположить, что последовательность скорее всего принадлежит Protostomia (Первичноротым), а конкретнее - Polychaeta (Полихетам). Поскольку 3 лучшие находки - гены одного и того же организма Glycera capitata, скорее всего ген из предыдущего практикума принадлежит организму из этого вида. Уровень сходства с лучшей находкой - 99% (меньше 2 замен на 100 п.н.).

Нуклеотидные банки данныхЧасть I