Этап 0. Протеом бактерии Teridinibacter turnerae
В данном практикуме мной использовался протеом целлюлозоразлагающей бактерии(внутриклеточного симбионта мороского червя) Teridinibacter turnerae. Другие файлы, относящиеся к данному отчету, также можно найти в папке /home/students/y23/muravlev/term3/pr9
Этап 1. Получение идентификаторов сборок
Для начала работы с геномом Teridinibacter turnerae было необходимо получить её TaxID из файла с протеомом и убедиться, что он одинаков для всех белков протеома. Это было сделано с помощью данной команды:
Результат работы:
251 OX NCBI_TaxID=377629;
3998 OX NCBI_TaxID=377629
Таким образом, было подтверждено, что у всех белков протеома одинаковый TaxID, и найден сам TaxID(377629).
Далее был произведен поиск сборок по TaxID. Это было сделано с помощью команды
Результат:
Таким образом, был найдена единственная сборка, которая, к тому же, является референсной. В дальнейшем работа производилась с ней.
Этап 2. Скачивание информации о геноме
Последовательность генома и его таблица локальных особенностей были скачаны с помощью команды
Далее архив с этими данными был распакован с помощью команды
Этап 3. Поиск ORF и их трансляция
Для определения таблицы генетического кода Teridinibacter turnerae была скачана запись о таксоне из базы данных NCBI Тaxonomy с помощью команды
gentable_out - файл с записью NCBI Тaxonomy для Teridinibacter turnerae. У данной бактерии 11 таблица генетического кода.
Далее были предсказаны рамки считывания(между стоп-кодонами, трансляции не короче 150 аминокислот) в исследуемом геноме и получены их трансляции. Сделано это было с помощью команды
GCF_000023025.1_ASM2302v1_genomic.fna - файл с последовательностью генома, translated_out - промежуточный файл с трансляциями рамок считывания.
С помощью команды infoseq было проверено и подтверждено, что все трансляции не меньше 50 а.о.
По трансляциям рамок считывания была создана база данных ORFs с помощью команды
Этап 4. Скачивание последовательностей метилтрансфераз
С помощью команды seqret в файл query_MTases.fasta были загружены последовательности метилтрансфераз P0AED9 (Dcm, m5C-МТаза, E.coli), P0AEE8 (Dam, m6A-МТаза, E.coli), и P23941 (m4C-МТаза, Bacillus amyloliquefaciens).
Данные метилтрансферазы в дальнейшем были использованы для поиска гомологов в геноме Teridinibacter turnerae.
Этап 5. Поиск гомологов метилтрансфераз в геноме Teridinibacter turnerae
С помощью алгоритма blast был произведен поиск гомологов указанных выше метилтрансфераз. Введенная команда:
Лучшая находка(вес 48.9, E-value 59e-06) - NC_012997.1_20256(выровнялось с P0AED9).
С помощью приведенной ниже команды была обнаружена строчка в файле с трансляциями, соответствующая данной находке, и выяснены ее координаты в геноме([4575447 - 4576604]).
Далее мной был создан промежуточный файл CDS.tsv, содержащий столбцы 4, 5(координаты), 7(цепь), 9(доп. информация) для кодирующих последовательностей локуса NC_012997.1 из таблицы локальных особенностей genomic.gff
После этого к этим данным была добавлена исследуемая ORF с указанными геномными координатами, последовательности были отсортированы. После этого исследуемая ORF с соседними 3 CDS слева и справа были сохранены в файл neighbours.tsv
Было обнаружено пересечение находки со следующей CDS(хотя координаты немного не совпадают; приведена только часть характеристик):
[4575465-4576607], цепь +, ID=cds-WP_015820477.1, Parent=gene-TERTU_RS18350, go_function=DNA (cytosine-5-)-methyltransferase activity
Данный белок как раз-таки является цитозин-5-метилтрансферазой, что подтверждает его гомологию с P0AED9.
6)Поиск метилтрансфераз по аннотациям кодирующих участков генома
В завершение я провел поиск цитозин-5-метилтрансфераз в геноме Teridinibacter turnerae по аннотациям его кодирующих участков. Для этого использовалась следующая команда:
Единственный результат: >WP_015820477.1 DNA cytosine methyltransferase [Teredinibacter turnerae]
Была найдена та же метилтрансфераза, что и в пункте 5.