Герб ФББ
  • Главное
  • Семестры
  • Обо мне
  • Официальный сайт ФББ МГУ

    Практикум 9


    EMBOSS, Entrez Direct, NCBI Datasets

    В этом практическом задании осуществляется исследование генома и протеома бактерии Coxiella burnetii. Протеом этой бактерии имеет идентификатор UP000002671. Ранее был загружен файл с данными о белках её протеома в формате swiss с именем UP000002671.swiss.gz.

    Получение AC геномной сборки

    Для определения TaxID организма, применялся конвейер:

    zgrep 'TaxID' UP000002671.swiss.gz | cut -d " " -f4 | sort -u | uniq -c

    Файл UP000002671.swiss.gz представляет собой тот же самый загруженный файл, в котором содержится аннотация белков протеома. Все значения в этом поле были одинаковыми для каждого из белков протеома. Результат оказался следующим:

    1 NCBI_TaxID=227377
    1 NCBI_TaxID=227377;

    Получается, что TaxID моего организма - 227377. Затем при помощи конвейера я просматривала все доступные геномные сборки для этого организма:

    datasets summary genome taxon 227377 --as-json-lines | dataformat tsv genome > genome_assembly.tsv

    В результате данного конвейера я получила список сборок для моего организма. Из всех я выбрала референсую версии RefSeq. AC сборки: GCF_000007765.2

    Скачивание последовательности генома и таблицы локальных особенностей

    Затем с использованием команды я загрузила последовательность генома и таблицу локальных характеристик.:

    datasets download genome accession GCF_000007765.2 --include genome,gff3 --filename genome_data.zip

    Скачанный архив ncbi_datasets.zip был разархивирован следующей командой:

    unzip ncbi_datasets.zip

    Поиск и трансляция открытых рамок считывания

    Чтобы выяснить, какой вариант генетического кода применяется исследуемым организмом, я загрузила таблицу с данными о таксоне из базы NCBI Taxonomy с помощью следующей команды:

    efetch -db 'taxonomy' -id '227377' -format 'xml' > tax.xml

    В результате выполнения программы было установлено, что организм использует таблицу №11. После этого поиск открытых рамок считывания был проведен с помощью следующей команды:

    getorf -sequence GCF_000007765.2_ASM776v2_genomic.fna -outseq orfs.fasta -minsize 150 -table 11

    Для того чтобы убедиться, что среди трансляций нет таких, которые короче 50 аминокислот, был применен конвейер:

    infoseq -sequence orfs.fasta -only -length | sort -u -n | less

    Длина всех транслированных белков составила не менее 50 аминокислот. Поэтому следующим шагом я создала белковую базу данных, основываясь на полученных открытых рамках считывания:

    makeblastdb -in orfs.fasta -dbtype prot -out ORFs

    Получение последовательностей гомологичных метилтрансфераз

    Далее необходимо было получить последовательности гомологичных метилтрансфераз ( Dcm, m5C-МТаза, E.coli (код доступа в Swiss-Prot P0AED9), Dam, m6A-МТаза, E.coli (код доступа в Swiss-Prot P0AEE8), m4C-МТаза, Bacillus amyloliquefaciens (код доступа в Swiss-Prot P23941) ) без создания промежуточного файла. Для этого я воспользовалась следующим конвейером:

    echo "sw:P0AED9 sw:P0AEE8 sw:P23941" | tr ' ' '\n' | seqret @/dev/stdin -outseq query_MTases.fasta -osformat fasta

    Поиск по сходству последовательностей

    Далее я с помощью последовательностей белков в качестве запроса и ORFs в качестве базы данных выполнила команд, которая выполняла поиск по сходству последовательностей:

    blastp -query query_MTases.fasta -db ORFs -outfmt 7 -out blast_results.txt

    Результаты:

    Полная выдача blast.

    В результате было найдено 20 находок, среди которых лучший я посчитала по критериям минимального e-value и максимального bit-score:

    subject acc.ver s. start s. end
    E-value bit score гомолог
    NC_002971.4_9890 581692 581537 0.10 28.5 m4C

    Далее, используя приведенный ниже конвейер, я получила файл CDS.tsv, содержащий строки и столбцы, необходимые для дальнейшей работы:

    grep NC_002971.4 genomic.gff | grep CDS | cut -f4,5,7,9 > CDS.tsv

    Затем были выявлены участки, которые по своим координатам наиболее близки с моей находкой:

    echo -e '581537\t581692\t-\tMY-ORF' | cat - CDS.tsv | sort -n | grep -C 3 'MY-ORF' > neighbors.tsv

    Были получены координаты соседних CDS:

    Ссылка на файл с CDS.

    Получилось, что найденная мной открытая рамка пересекается с одним CDS, но координаты не совпадают

    Поиск по аннотациям кодирующих участков

    Команда для поиска CDS в аннотации генома Coxiella burnetii (2.1.1.113 – EC-код ДНК-метилтрансферазы m4C):

    elink -target protein -db nuccore -id NC_002971.4 | efilter -query '2.1.1.113' | efetch -format 'fasta' > cds.fasta

    Я перепробовала поискать по всем EC-кодам, но ни один из команд не выдал мне результатов. Следовательно, количество найденных белков равняется нулю.