В 8 практикуме прошлого семестра мною был выбран и скачан протеом UP000000805, в котором согласно информации из базы данных Proteomes Uniprot имеется 1787 аннотированных в Swiss-Prot белков (смотри ранее упомянутый практикум). Основная задача данного практикума состоит в том, чтобы найти с помощью технических средств EMBOSS, EDirect, Datasets CLI ген(-ы) ДНК-метилтрансфераз в геномной сборке, соответствующей этому протеому.
Для начала необходимо найти генмную сборку, соответствующую моему протеому. Для этого надо было сперва найти TaxID организма, чей протеом я выбрал, была выполнена в командной строке (далее подразумевается, что все программы запускаются в командной строке) программа:
Где файл proteom.swiss является как тем самым скачанным файлом, содержащим аннотацию белков протеома. Выдача оказалась следующей:
Далее по TaxID нужно было посмотреть на все возможные геномные сборки для данного организма, это я сделал следующей программой:
Как оказалось для моего организма есть только одна сборка в двух версиях, для дальнейшей работы я выбрал версию RefSeq (так как она лучше аннотированна), AC сборки оказался следующим: GCF_000091665.1.
Имея AC сборки, я сумел скачать нуклеотидную последовательность генома и таблицу локальных особенностей с помощью программы:
Скачанный архив ncbi_datasets.zip был разархивирован следующей командой:
Прежде чем транслировать полученную нуклеотидную последовательность нужно было выяснить какую таблицу генетического кода использует мой организм, поиск был проведен следующей командой:
В полученном файле tax.xml было обнаружено, что данный организм использует таблицу №11. Поиск открытых рамок считывания был осуществлен с помощью следующей программы:
Где GCF_000091665.1_ASM9166v1_genomic.fna – файл со скачанной нуклеотидной последовательностью генома, trans.fasta – файл с искомыми открытыми рамками считывания. Далее была осуществлена проверка, что среди транслированных белков нет тех, что короче 50 а. о., с помощью программы:
К счастью таких не оказалось. Далее была создана белковая база данных (названа ORFs) на основе полученных открытых рамок считывания:
Теперь необходимо было скачать последовательности гомологичных метилтрансфераз (по сходству с которыми можно было бы осуществить поиск генов этих белков у данного организма), а именно:
Скачивание последовательностей осуществлялось в 2 этапа, сначала был создан listfile tr.txt:
Далее была применена программа seqret и создан файл query_MTases.fasta, содержащие нужные последовательности:
Наконец, с помощью blastp, созданной ранее базы данных ORFs, а также скачанных в прошлом пункте последовательностей в качестве запроса (fasta-файл query_MTases.fasta), был произведен поиск гена метилтрансферазы у данного организма:
Ознакомиться с выдачей blastp можно здесь. Самая лучшая находка по весу, как можно видеть из выдачи, имеет идентификатор NC_000909.1_1302, координаты в геноме 529595-530500, вес 159. Далее нужно было определить с какими кодирующими белки участками (CDS) пересекается моя лучшая находка, для этого сперва нужно было создать вспомогательный файл CDS.tsv, содержащий только CDS из той же нуклеотидной последовательности, что и моя находка, а также необходимую информацию о них (главным образом координаты и аннотация), все данные о CDS были взяты из ранее скачанной таблицы локальный особенностей (файл genomic.gff):
Далее были обнаружены участки, которые по координатам наиболее близки (или даже перекрываются) с моей находкой:
В файле neighbors.tsv лежит выдача, с которой можно ознакомиться здесь. Отсюда видно, что найденная находка очень хорошо соответствует CDS с координатами 529634-530503, по аннотации в том же файле видно, что это ген DNA adenine methylase, тем самым найден гомолог m6A-МТазы.
В завершение был опробован также поиск нужных CDS по аннотациям в геноме, для чего были использованы EC-коды соответствующих ферментов: 2.1.1.37 (m5C), 2.1.1.72 (m6A) и 2.1.1.113 (m4C). Поиск осуществлялся конвейером:
Куда в аргументы -id подставлялись AC нуклеотидных последовательностей из генома (NC_000909.1, NC_001732.1, NC_001733.1), а в -query соответственно EC-коды. Таким способом был найден всего лишь один белок (как раз приведенной выше командой), им оказался гомолог m5C-МТаза. Ранее найденного с помощью blastp гомолога m6A-МТазы не было обнаружены здесь. Таким образом двумя разными методами было найдено суммарно 2 гомолога из 3 заданных.