Сборки генома

1. Качественная сборка генома Cannabis sativa

Параметр Значение Описание
Идентификатор GenBank GCA_029168945.1 -
Идентификатор RefSeq GCF_029168945.1 -
Уровень сборки генома Chromosome -
Общий размер генома 770.3 Mb -
Количество хромосом 10 (n) -
Количество скэффолдов 17 -
Количество контигов 70 -
N50 для скэффолдов 77 Mb Длина скэффолда, для которого половина всех нуклеотидов сборки генома содержится в скэффолдах такой же или большей длины
L50 для скэффолдов 7 Наименьшее число скэффолдов, в которых содержится половина всех нуклеотидов сборки
N50 для контигов 23.5 Mb Длина контига, для которого половина всех нуклеотидов сборки генома содержится в контигах такой же или большей длины
L50 для контигов 12 Наименьшее число контигов, в которых содержится половина всех нуклеотидов сборки

2. Знакомство с поисковыми системами ENA и NCBI

Выбранный белок: insulin

Поиск в NCBI Nucleotide:

Запрос: insulin[Title]

Тип поиска Количество записей
Всего записей 45020
Гены с таким словом в названии 4,129
мРНК белков с таким словом в названии 36,529
Записей генов в GenBank 4,109
Записей генов в RefSeq 20
Записей мРНК в RefSeq 31,341
Записей мРНК в GenBank 5,185

Только для последовательностей человека:

insulin[Title] AND Human[Organism]

Тип последовательности База данных Количество записей
genomic DNA/RNA RefSeq 19
genomic DNA/RNA GenBank 1,453
mRNA RefSeq 218
mRNA GenBank 3,875
Всего 5,565

Комментарий: Не все эти записи действительно содержат последовательности, кодирующие белки с соответствующей функцией. Например, встречается Insulin-like growth factor.

Поиск в ENA:

Запросы:

description="insulin" AND mol_type="mrna"
tax_tree(9606) AND description="insulin"
Тип записи Количество записей
мРНК 12756
Гены белков человека с insulin в названии 9341

Комментарий по DDBJ: Сайт DDBJ не прогружается на моем компьютере. А ENA УЖАСНО неудобен. В дальнейшем я буду использовать удобный и быстрый NCBI.

3. Органеллы в выбранной сборке генома

В таблице Chromosomes для Refseq sequences обнаружена хромосома MT (митохондриальный геном).

Параметр Значение
Идентификатор записи (ACCESSION) NC_029855
Тип органеллы мт
Число кодирующих последовательностей (CDS) 35
Число генов рРНК 3
Число генов тРНК 15
Число псевдогенов 2

4. Поиск дельта-субъединицы АТФ-синтазы

С помощью текстового поиска в файле последовательности белков каннабиса найден белок с идентификатором XP_030491925.1, который является дельта-субъединицей АТФ-синтазы.

Идентификатор нуклеотидной записи, к которой относится ген, кодирующий данный белок: NC_083601

Геномный браузер
Рис 1. Изображение окрестности участка (47595317 – 47599013), содержащего кодирующую белок часть гена δ-субъединицы АТФ-синтазы, из геномного браузера.

5. Поиск BLAST в таксоне Apoidea

Выбранный таксон для поиска: Apoidea

Параметры blastn
Рис. 2. Параметры поиска для алгоритма blastN. Использовалась база данных refseq_genomes. Число сборок в ней, входящих в выбранный таксон – 38.
Результаты blastn
Рис. 3. Результаты выдачи алгоритма blastn для последовательности субъединицы АТФ-синтазы каннабиса. Поиск производился по таксону Apoidea. Найдено 100 соответствий длиной 50-80 нуклеотидов, абсолютное большинство из них выровнялось на конец последовательности. Это объясняется удаленностью таксонов.
Параметры tblastn
Рис. 4. Параметры поиска для алгоритма tblastN. Использовалась база данных refseq_genomes. Число сборок в ней, входящих в выбранный таксон – 38.
Результаты tblastn
Рис. 5. Результаты выдачи алгоритма tblastn для последовательности субъединицы АТФ-синтазы каннабиса. Поиск производился по таксону Apoidea. Найдено 38 соответствий, большинство из них длиной 40-80 аминокислот. Значит, что в последовательности данной субъединицы есть консервативные участки даже для столь далёких таксонов.

6. Локальный поиск BLAST рРНК Escherichia coli

Индексация последовательностей генома каннабиса:

makeblastdb -in ./GCF_029168945.1_ASM2916894v1_genomic.fna -dbtype nucl

Локальный поиск BLAST для рРНК:

blastn -task blastn -query ./16s.fa -db ./GCF_029168945.1_ASM2916894v1_genomic.fna -outfmt 7 -evalue 0.005 -word_size 7 -out 16sblast
blastn -task blastn -query ./23s.fa -db ./GCF_029168945.1_ASM2916894v1_genomic.fna -outfmt 7 -evalue 0.005 -word_size 7 -out 23sblast
Ссылка на выдачу BLAST для 16s рРНК Ссылка на выдачу BLAST для 23s рРНК

В случае 16s получилось 80 находок, в случае 23s - 82. Это много, однако учитывая, что выравнивал я на геном растения, выдача кажется адекватной.

Далее, т.к. для такого числа находок посчитать число гомологов будет крайне сложно, я решил сделать это для одного "хромосомы" NC_029855.1 - митохондрии Cannabis sativa

Схема гомолога
Рис. 6 Пример гомологов последовательности 23S рРНК E. coli, найденного на NC_029855.1 - митохондрия Cannabis sativa

На координатах 369249..370983, судя по таблице для митохондрии, находится ген rrnL, кодирующий 23s рРНК. Получается, трём выровненым находкам для query соответствует один гомолог.

Для находки, выровненной на 368830..367738, нет генов в таблице, включающих данные координаты в принципе. Однако e-value у неё 0. Взлянем на выравнивание:

>NC_029855.1 Cannabis sativa mitochondrion, complete genome
Length=415602

 Score = 710 bits (787),  Expect = 0.0
 Identities = 848/1141 (74%), Gaps = 60/1141 (5%)
 Strand=Plus/Minus

Результаты почти идеальные. Можно сказать, что данной находке соответствует гомолог.

Итак, на митохондрии Cannabis sativa найдено два гомолога

Также я решил провести исследование для NC_083607.1 - хромосомы 7 Cannabis sativa.

Схема гомолога
Рис. 7 Пример гомологов последовательности 23S рРНК E. coli, найденного на NC_083607.1 - хромосома 7 Cannabis sativa.

На координатах 30103390..30100620 на хромосоме нет ни одного гена, судя по таблице локальных особенностей. Однако её e-value 0. Взглянем на выравнивание:

>NC_083607.1 Cannabis sativa cultivar Pink pepper isolate KNU-18-1 
chromosome 7, ASM2916894v1, whole genome shotgun sequence
Length=63199550

 Score = 803 bits (890),  Expect = 0.0
 Identities = 1935/2861 (68%), Gaps = 183/2861 (6%)
 Strand=Plus/Minus

Итак, можно сказать, что данным координатам соответствует гомолог, просто он не аннотирован

На координатах 45310301..45310403, судя по таблице локальных особенностей, также нет никаких генов, что странно, ведь e-value для находки, выровненной на данные координаты, очень низок(3.41e-13). Данные противоречивы, однако можно предположить, что находке соответствует гомолог, просто он не аннотирован в таблице.

На координатах 59937112..59937172 снова не нашлось никаких генов, а e-value по прежнему крайне низкий (2.15e-09). Снова можно предположить, что находке соответствует гомолог.

Итак, на 7 хромосоме каннабиса найдено 3 гомолога 23s рРНК E.coli

7. Сравнение геномов штаммов Halapricum desulfuricans

Выбранные штаммы: HSR12-2 и HSR-Bgl

Идентификаторы полностью собранных хромосом:

Дотплот мегабласт
Рис. 8. Дотплот выравнивания мегабластом со стандартными параметрами. Жёлтым показаны делеции, красным – транслокации + инверсии, синим – транслокации.
Дотплот blastn
Рис. 9. Дотплот выравнивания blastn со стандартными параметрами.

Комментарий: Tblastx выдавал ошибку. Причина – имеет низкое значение длины слова по умолчанию + ищет по транслятам.