Практикум 9
Получение AC геномной сборки
В данном практикуме я использовала файл в формате swiss, который был скачан в прошлом семестре для выполнения практикума 8 и сжат с помощью gzip. В нём содержится информация о белках протеома бактерии Sulfurimonas aquatica.
Для получения AC геномной сборки для начала необходимо узнать TaxID организма, которому принадлежит геном. Для этого я использовала следующий конвейер:
zcat UP000671852.swiss.gz | grep '^OX' | cut -f4 -d ' ' | sort -u
Результат выдачи:
NCBI_TaxID=2672570
Таким образом, я удостоверилась, что для всех белков протеома Sulfurimonas aquatica значения TaxID совпадают.
Далее я получила список сборок генома Sulfurimonas aquatica вместе с основными полями записи при помощи следующего конвейера:
datasets summary genome taxon 2672570 --as-json-lines | dataformat tsv genome | vd
В списке оказалась лишь одна сборка, которая и соответствует используемому протеому.
Полученная таблица содержит в том числе и информацию об AC (AC: GCF_017357825.1).
Скачивание последовательности генома и таблицы локальных особенностей
Используя полученный AC сборки, я запустила следующую программу:
datasets download genome accession GCF_017357825.1 --include genome,gff3
В результате был скачан архив с файлами, который содержит в том числе последовательность генома и таблицу локальных особенностей. Архив был распакован при помощи следующей команды:
unzip ncbi_dataset.zip
Поиск и трансляция открытых рамок считывания
Для начала я нашла информацию о том, какую таблицу генетического кода использует Sulfurimonas aquatica. Для этого я запустила следующий конвейер:
efetch -db taxonomy -id 2672570 -format xml
Результатом выдачи является таблица, в соответствующей графе которой указано, что Sulfurimonas aquatica использует таблицу генетического кода №11.
Далее я использовала следующую команду:
getorf GCF_017357825.1_ASM1735782v1_genomic.fna -outseq ramki.fasta -table 11 -minsize 150 -find 0
С помощью неё я нашла открытые рамки считывания между двумя стоп-кодонами, которые сразу транслировались. При этом был выбран минимальный размер фрагмента в 150 нуклеотидов, чтобы убрать из рассмотрения слишком короткие продукты трансляции (меньше 50 аминокислот).
После этого я проверила при помощи данного конвейера, что среди полученных трансляций нет тех, длина которых меньше 50 аминокислот:
infoseq ramki.fasta | tr -s ' ' | cut -f6 -d ' ' | tail -n +2 | sort -n -u
После проверки я создала по данным трансляциям белковую базу при помощи следующей команды:
makeblastdb -in ramki.fasta -dbtype prot -out ORFs.fasta
Получение последовательностей гомологичных метилтрансфераз
Следующей целью было найти ДНК-метилтрансферазы, последовательности которых имеют сходства с последовательностями следующих белков (в скобках указаны коды доступа Swiss-Prot):
- Dcm, m5C-MTаза, E. coli (P0AED9)
- Dam, m6A-МТаза, E. coli (P0AEE8)
- m4C-МТаза, Bacillus amyloliquefaciens (P23941)
Для начала было необходимо получить последовательности данных ДНК-метилтрансфераз.
Для этого я воспользовалась следующим конвейером:
echo "sw:P0AED9" "sw:P0AEE8" "sw:P23941" | tr ' ' '\n' | seqret -filter @stdin -outseq query_MTases.fasta
Поиск по сходству последовательностей
Следующим шагом был произведен поиск сходных последовательностей при помощи blastp.
Поиск был выполнен посредством следующей команды:
blastp -task blastp -query query_MTases.fasta -db ORFs.fasta -outfmt 7 -out mtase_result
Результаты поиска в виде таблицы
Лучшей по весу находкой является находка с идентификатором NZ_CP046072.1_6036. Это гомолог m5C-метилтрансферазы E. coli.
Ниже представлена некоторая информация об этой находке:
Вес: 42
Координаты: [2611252 - 2610206] (REVERSE SENSE)
Далее в отдельный файл (CDS.tsv) я сохранила строки из таблицы локальных особенностей, которые соответствуют CDS в той же последовательности, что и полученная ранее находка, и столбцы с координатами (4 и 5), цепью (7) и некоторой информацией (9).
Это было сделано с помощью следующей команды:
grep 'NZ_CP046072.1' genomic.gff | grep 'CDS' | cut -f4,5,7,9 > CDS.tsv
После этого в полученный файл я добавила строчку со своей находкой, отсортировала по координатам и выбрала по три соседних с моей находкой CDS. Это было сделано с помощью следующего конвейера:
echo -e '2610206\t2611252\t-\tMY-ORF' | cat - CDS.tsv | sort -n | grep -C 3 'MY-ORF' > neighbors.tsv
Результат выдачи представлен в следующем файле:
neighbors.tsv
Из полученного файла можно заметить, что координаты моей находки перекрываются с координатами двух соседних находок (координаты этих находок: [2610203-2611249] и [2611246-2612331]).
Однако в значительной степени пересекаются координаты только с одной находкой, которая соответствует гену m5C-метилтрансферазы.
Поиск по аннотациям кодирующих участков
Следующей целью было найти посредством поиска по аннотациям кодирующих участков в геноме CDS, который соответствует моей находке.
Для поиска я использовала EC-код ферментов, соотвествующих m5C-метилтрансферазам. Это 2.1.1.37.
Поиск был произведен с помощью следующего конвейера:
elink -db 'nuccore' -target 'protein' -id 'NZ_CP046072.1' | efilter -query '2.1.1.37' | efetch -format 'fasta'
В результате поиска был найден один белок (WP_207561708.1), который соответствует ДНК-цитозин-метилтрансферазе.
Этот белок совпадает с находкой, полученной в предыдущем пункте.