Практикум 9.

Задание 1.

Для выполнения задания был выбран геном бактерии Streptomyces collinus, протеом которой изучался в pr8 семестра 2.

Идентификатор протеома: UP000015423

AC GenBank: GCA_000444875.1

AC RefSeq: GCF_000444875.1

  • Сборка в Genome
  • Страница в Proteomes
  • Задание 2.

    Для загрузки таблицы локальных особенностей в формате GFF3 использовалась следующая команда:

    datasets download genome accession GCF_000444875.1 --include genome,gff3

    Задание 3.

    Информация про тип генетического кода, используемого организмом, была получена из записи про таксон из базы NCBI Taxonomy с помощью конвейера:

    esearch -db 'taxonomy' -query 'Streptomyces collinus[Scientific Name]' | efetch -format 'xml'

    Таблица генетического кода бактерии имеет номер 11 (поле GeneticCode), что соответствует распространенному среди бактерий и архей варианту генетического кода. К его особенностям относят возможность старта трансляции с GUG и UUG, а также, в редких случаях, старт с AUU.

    Поиск открытых рамок считывания производился программой getorf из EMBOSS:

    getorf -sequence ncbi_dataset/data/GCF_000444875.1/GCF_000444875.1_ASM44487v1_genomic.fna -table 11 -minsize 150

    Правильость работы программы проверялась с помощью infoseq:

    infoseq -sequence orf_output -only -length | sort -n | head -n 20

    В выдаче присутствовали длины последовательностей не менее 50, значит getorf сработала верно

    Далее, была создана белковая база данных по последовательностям трансляций:

    makeblastdb -in orf_output -dbtype prot -out proteome

    Задание 4.

    Последовательности ДНК-метилтрансфераз были скачаны с помощью конвейера из программ seqret и tr:

    echo 'sw:P0AED9 sw:P0AEE8 sw:P23941' | tr " " "\n" | seqret -filter @stdin -outseq query.fasta

    Задание 5.

    С помощью локального blast было произведено выравнивание по базе proteome запроса query.fasta:

    blaedstp -query query.fasta -db proteome -outfmt 7 -out blastp_output.txt

    Как видно из выдачи, лучшей по весу находкой является NC_021985.1_23183 - гомолог m4C-МТазы (координаты в геноме: 4839429 - 4840391).

    Затем, была получена таблица из CDS исследуемой бактерии, а затем были найдены соседние с находкой CDS:

    grep 'CDS' ncbi_dataset/data/GCF_031348265.1/genomic.gff | cut -f 4,5,7,9 > CDS.tsv
    echo -e '4839429\t4840391\t-\tFOUND-ORF' | cat - CDS.tsv | sort -n | grep -C 3 'FOUND-ORF' > neighbors.tsv

    Ген, наиболее сильно пересекающийся с координатами находки имеет координаты 4839615 - 4840394 и кодирует белок, имеющий метилтрансферазную активность (methyltransferase activity).

  • neighbors.tsv
  • Выдача blast
  • Задание 6.

    Проверка возможности поиска белка из предыдущего задания по аннотированным последовательостям проводилась с помощью следующего конвейера:

    elink -db nuccore -id 'NC_021985.1' -target 'protein' | efilter -query '2.1.1.72[EC/RN Number]' | efetch -format 'acc'

    Поиск производился по EC всех трех метилтрансфераз. CDS, соответствующие находке, найти не удалось.