Практикум 9

Этап 1

Для выполнения заданий данного практикума будет использована бактерия Succinivibrio dextrinosolvens, выбранная для практикума 8 во втором семестре. Белки ее протеома, скаченные в формате swiss, были сохранены на kodomo.

Для получения строк, содержащих TaxID организма был использован конвейер:

 grep -e 'TaxID' UP000242432.swiss | cut -d ' ' -f4 | sort -u | less
.
Все значения данного поля совпадали для каждого из белков протеома. Выдача: OX NCBI_TaxID=1123324 {ECO:0000313|EMBL:SKA57297.1, ECO:0000313|Proteomes:UP000242432};

Для получения списка сборок, соответствующих данному таксону, был использован конвейер

esearch -db assembly -query "Succinivibrio dextrinosolvens DSM 3072" | efetch -format docsum | xtract -pattern DocumentSummary -element AssemblyAcces
sion,TaxId,Title

В результате поиска был получен AC геномной сборки: GCF_900167015.1

Этап 2

Далее для скачивания последовательности и feature table была использована команда:

datasets download genome accession GCF_900167015.1 --include genome,gff3 --filename my_genome_data.zip

Этап 3

Чтобы узнать, какой вариант генетического кода использует исследуемый организм была скачана таблица с информацией о таксоне из базы NCBI Тaxonomy

efetch -db taxonomy -id 1123324 -format xml > data.xml

и оттуда выделена информация о генетическом коде: для кодирования используется таблица 11.

Далее для получения открытых рамок считывания была использована команда:

getorf -sequence GCF_900167015.1_IMG-taxon_2585428075_annotated_assembly_genomic.fna -outseq seq_frames.fna -minsize 150 -table 11

Чтобы убедиться, что среди трансляций нет тех, которые короче 50 а.о. был использован конвейер:
infoseq -sequence seq_frames.fna -only -length | sort -u -n | less

Из записанного файла создана белковая база данных для blastp:
makeblastdb -in orfs.fasta -out ORFs -dbtype prot -parse_seqids

Этап 4

Для получения последовательностей гомологичных метилтрансфераз был cоздан промежуточный файл с целевыми последовательностями:

echo -e 'sw:P0AED9\nsw:P0AEE8\nsw:P23941' |  tr ' ' '\n' > temp_ids.txt && seqret @temp_ids.txt query_MTases.fasta -osformat fasta && rm temp_ids.txt 

Этап 5

Поиск по сходству последовательностей выполнялся с помощью команды:

blastp -query query_MTases.fasta -db ORFs -out blastp.out -outfmt 7

Результаты:

  • Полная выдача blast.
  • Таблица 1

    subject acc.ver s. start s. end
    bit score гомолог
    NZ_FUXX01000004.1_428 21 285 143 m6A

    С помощью команд bash был получен файл CDS.tsv, содержащий нужные строки и столбцы:

    grep NZ_FUXX01000004.1 genomic.gff | grep CDS | cut -f4,5,7,9 > CDS.tsv

    Затем командой
     echo -e '68642\t69532\t-\tORFs' | cat - CDS.tsv | sort -n | grep -C 3 'ORFs' > neighbors.tsv

    Были получены координаты располагающихся рядом CDS.
  • Ссылка на файл с CDS.

  • 2 последовательности расположены на "+" цепи, и 5 последовательностей на "-" цепи. Так как целевой CDS однозначно (об этом говорят обратные координаты) находится на "-" цепи, то было найдено 5 соседних CDS. 1 из них, с координатами 68639-69502 пересекается с найденной CDS.

    Этап 6

    Также был проведен поиск по аннотации кодирующих участков в геноме:

     elink -target protein -db nuccore -id NZ_FUXX01000004.1 | efilter -query '2.1.1.72' | efetch
     -format 'fasta' > step6.fasta 

    В результате было найдено 2 последовательности, гомологи m6A-МТазы. Среди них есть 1 (WP_078928011.1), кодирующий участок для которой в аннотации генома пересекается с найденной рамкой считывания. Также была найдена последовательность m5C-МТазы с помощью команды:
    elink -target protein -db nuccore -id NZ_FUXX01000025.1 | efilter -query '2.1.1.37' | efetch -format 'fasta' >> step6.fasta

    При поиске по AC и EC-коду m4C-МТазы белки не были найдены.
  • Найденные белки.