Учебный сайт Карины Сим
  • Главная
  • Семестры
  • Обо мне
  • ФББ

    Практикум 9

    Получение AC геномной сборки

    В данном практикуме я использовала файл в формате swiss, который был скачан в прошлом семестре для выполнения практикума 8 и сжат с помощью gzip. В нём содержится информация о белках протеома бактерии Sulfurimonas aquatica.

    Для получения AC геномной сборки для начала необходимо узнать TaxID организма, которому принадлежит геном. Для этого я использовала следующий конвейер:

    zcat UP000671852.swiss.gz | grep '^OX' | cut -f4 -d ' ' | sort -u

    Результат выдачи:

    NCBI_TaxID=2672570

    Таким образом, я удостоверилась, что для всех белков протеома Sulfurimonas aquatica значения TaxID совпадают.

    Далее я получила список сборок генома Sulfurimonas aquatica вместе с основными полями записи при помощи следующего конвейера:

    datasets summary genome taxon 2672570 --as-json-lines | dataformat tsv genome | vd

    В списке оказалась лишь одна сборка, которая и соответствует используемому протеому.

    Полученная таблица содержит в том числе и информацию об AC (AC: GCF_017357825.1).

    Скачивание последовательности генома и таблицы локальных особенностей

    Используя полученный AC сборки, я запустила следующую программу:

    datasets download genome accession GCF_017357825.1 --include genome,gff3

    В результате был скачан архив с файлами, который содержит в том числе последовательность генома и таблицу локальных особенностей. Архив был распакован при помощи следующей команды:

    unzip ncbi_dataset.zip

    Поиск и трансляция открытых рамок считывания

    Для начала я нашла информацию о том, какую таблицу генетического кода использует Sulfurimonas aquatica. Для этого я запустила следующий конвейер:

    efetch -db taxonomy -id 2672570 -format xml

    Результатом выдачи является таблица, в соответствующей графе которой указано, что Sulfurimonas aquatica использует таблицу генетического кода №11.

    Далее я использовала следующую команду:

    getorf GCF_017357825.1_ASM1735782v1_genomic.fna -outseq ramki.fasta -table 11 -minsize 150 -find 0

    С помощью неё я нашла открытые рамки считывания между двумя стоп-кодонами, которые сразу транслировались. При этом был выбран минимальный размер фрагмента в 150 нуклеотидов, чтобы убрать из рассмотрения слишком короткие продукты трансляции (меньше 50 аминокислот).

    После этого я проверила при помощи данного конвейера, что среди полученных трансляций нет тех, длина которых меньше 50 аминокислот:

    infoseq ramki.fasta | tr -s ' ' | cut -f6 -d ' ' | tail -n +2 | sort -n -u

    После проверки я создала по данным трансляциям белковую базу при помощи следующей команды:

    makeblastdb -in ramki.fasta -dbtype prot -out ORFs.fasta

    Получение последовательностей гомологичных метилтрансфераз

    Следующей целью было найти ДНК-метилтрансферазы, последовательности которых имеют сходства с последовательностями следующих белков (в скобках указаны коды доступа Swiss-Prot):

    • Dcm, m5C-MTаза, E. coli (P0AED9)
    • Dam, m6A-МТаза, E. coli (P0AEE8)
    • m4C-МТаза, Bacillus amyloliquefaciens (P23941)

    Для начала было необходимо получить последовательности данных ДНК-метилтрансфераз.

    Для этого я воспользовалась следующим конвейером:

    echo "sw:P0AED9" "sw:P0AEE8" "sw:P23941" | tr ' ' '\n' | seqret -filter @stdin -outseq query_MTases.fasta

    Поиск по сходству последовательностей

    Следующим шагом был произведен поиск сходных последовательностей при помощи blastp.

    Поиск был выполнен посредством следующей команды:

    blastp -task blastp -query query_MTases.fasta -db ORFs.fasta -outfmt 7 -out mtase_result

    Результаты поиска в виде таблицы

    Лучшей по весу находкой является находка с идентификатором NZ_CP046072.1_6036. Это гомолог m5C-метилтрансферазы E. coli.

    Ниже представлена некоторая информация об этой находке:

    Вес: 42

    Координаты: [2611252 - 2610206] (REVERSE SENSE)

    Далее в отдельный файл (CDS.tsv) я сохранила строки из таблицы локальных особенностей, которые соответствуют CDS в той же последовательности, что и полученная ранее находка, и столбцы с координатами (4 и 5), цепью (7) и некоторой информацией (9).

    Это было сделано с помощью следующей команды:

    grep 'NZ_CP046072.1' genomic.gff | grep 'CDS' | cut -f4,5,7,9 > CDS.tsv

    После этого в полученный файл я добавила строчку со своей находкой, отсортировала по координатам и выбрала по три соседних с моей находкой CDS. Это было сделано с помощью следующего конвейера:

    echo -e '2610206\t2611252\t-\tMY-ORF' | cat - CDS.tsv | sort -n | grep -C 3 'MY-ORF' > neighbors.tsv

    Результат выдачи представлен в следующем файле:

    neighbors.tsv

    Из полученного файла можно заметить, что координаты моей находки перекрываются с координатами двух соседних находок (координаты этих находок: [2610203-2611249] и [2611246-2612331]).

    Однако в значительной степени пересекаются координаты только с одной находкой, которая соответствует гену m5C-метилтрансферазы.

    Поиск по аннотациям кодирующих участков

    Следующей целью было найти посредством поиска по аннотациям кодирующих участков в геноме CDS, который соответствует моей находке.

    Для поиска я использовала EC-код ферментов, соотвествующих m5C-метилтрансферазам. Это 2.1.1.37.

    Поиск был произведен с помощью следующего конвейера:

    elink -db 'nuccore' -target 'protein' -id 'NZ_CP046072.1' | efilter -query '2.1.1.37' | efetch -format 'fasta'

    В результате поиска был найден один белок (WP_207561708.1), который соответствует ДНК-цитозин-метилтрансферазе.

    Этот белок совпадает с находкой, полученной в предыдущем пункте.