Учебный сайт Карины Сим
  • Главная
  • Семестры
  • Обо мне
  • ФББ

    Практикум 8

    В данном практикуме я попробовала поработать с разными алгоритмами поиска BLAST.

    В ходе выполнения заданий я использовала файлы, скачанные в предыдущем практикуме. В этих файлах содержится некоторая информация о сборке генома Cucumis melo из RefSeq.

    Поиск гена, кодирующего δ-субъединицу АТФ-синтазы

    В файле с последовательностями белков Cucumis melo я обнаружила два белка, аннотированных как δ-субъединица АТФ-синтазы (ATP synthase subunit delta).

    Один из этих белков является митохондриальным, другой – хлоропластным.

    Для дальнейшей работы я выбрала митохондриальный белок. Его последовательность я сохранила в формате fasta.

    Последовательность белка

    Далее по идентификатору данного белка (XP_008438277.1) я нашла идентификатор нуклеотидной записи в файле с последовательностями генома с аннотацией.

    Идентификатор нуклеотидной записи: NC_066862.

    Затем я открыла нужную нуклеотидную запись в NCBI Nucleotide и сохранила последовательность фрагмента ДНК, содержащую ген данного белка с небольшой окрестностью.

    Нуклеотидная последовательность

    Разные варианты BLAST

    В данном задании я воспользовалась разными варинтами поиска BLAST.

    Для поиска BLAST я выбрала семейство кошачьих (Felidae). Это семейство является удаленным от Cucumis melo: дыня относится к двудольным растениям, а кошачьи – к вторичноротым животным.

    Поиск BLAST выполнялся через сайт NCBI по последовательностям геномов кошачьих.

    В качестве базы данных при поиске я выбрала Refseq_genomes.

    В данной базе есть 15 геномных сборок, принадлежащих семейству кошачьих.

    blastn vs megablast

    Для начала необходимо было решить, какой алгоритм использовать в данном задании: blastn или megablast.

    Я выбрала blastn.

    Почему же? Megablast создан для поиска почти идентичных последовательностей. В моём случае Cucumis melo и кошачьи довольно сильно удалены друг от друга. Более того, в файле, который подаётся на вход, представлена нуклеотидная последовательность гена с окрестностью. Следовательно, шансы найти что-нибудь невысоки.

    Однако любопытства ради я решила всё-таки попробовать воспользоваться megablast.

    Параметры алгоритма:

    Max target sequences: 100

    Expect threshold: 0.05

    Word size: 28

    Max matches in a query range: 0

    Match/Mismatch Scores: 1,-2

    Gap costs: Linear

    В результате ничего не нашлось.

    blastn

    Далее я запустила поиск BLAST при помощи алгоритма blastn.

    На вход подается файл в формате fasta с последовательностью гена, кодирующего δ-субъединицу АТФ-синтазы, с окрестностью.

    Параметры алгоритма я оставила неизменными:

    Max target sequences: 100

    Expect threshold: 0.05

    Word size: 11

    Max matches in a query range: 0

    Match/Mismatch Scores: 2,-3

    Gap costs: Existence: 5 Extension: 5

    В результате было обнаружено 42 находки. В целом, я и ожидала примерно столько находок: не очень много, но при этом они есть. Находки были разными.

    Результаты поиска

    В целом, алгоритм справился с поиском.

    tblastn

    На следующем этапе надо было выбрать, каким алгоритмом теперь проводить поиск: tblastn или tblastx.

    Я решила воспользоваться tblastn. Мой выбор обусловлен тем, что мне было интересно попробовать этот алгоритм.

    На вход подается файл с белковой последовательностью δ-субъединицы АТФ-синтазы Cucumis melo.

    Параметры алгоритма:

    Max target sequences: 100

    Expect threshold: 0.05

    Word size: 5

    Max matches in a query range: 0

    Matrix: BLOSSUM62

    Gap costs: Existence: 11 Extension: 1

    Compositional adjustments: Conditional compositional score matrix adjustment

    В результате поиска ничего не нашлось. Тогда я решила воспользоваться tblastx.

    tblastx

    На вход подается нуклеотидная последовательность гена, кодирующего δ-субъединицу АТФ-синтазы Cucumis melo, с небольшой окрестностью.

    Параметры алгоритма:

    Max target sequences: 100

    Expect threshold: 0.05

    Word size: 3

    Max matches in a query range: 0

    Matrix: BLOSSUM62

    В результате было обнаружено 18 находок.

    Результаты поиска

    Я ожидала увидеть меньшее число находок. В целом, алгоритм справился с поиском.

    Поиск генов основных рРНК по далекому гомологу

    Для начала я проиндексировала геном Cucumis melo c помощью следующей команды:

    makeblastdb -in cucumis_melo_genomic.fna -dbtype nucl

    Далее я скачала последовательности рРНК Escherichia coli.

    После этого я провела локальный поиск BLAST для каждой рРНК отдельно. Я воспользовалась алгоритмом blastn, так как моей задачей являлось сравнить нуклеотидную последовательность с нуклеотидной базой данных, при этом поиск происходил по далекому гомологу.

    Поиск проводился по 16S и 23S рРНК.

    16S рРНК входит в состав малой (30S) субъединицы прокариотической рибосомы и играет структурную роль, в том числе вместе с 23S рРНК способствует взаимодействию большой (50S) и малой (30S) субъединицы рибосомы [1]. 23S рРНК в свою очередь входит в состав большой (50S) субъединицы [2]. 16S рРНК высококонсервативна, поэтому она служит филогенетическим маркером.

    Для поиска использовались следующие команды:

    blastn -task blastn -query seq1.fasta -db cucumis_melo_genomic.fna -outfmt 7 -out result1

    blastn -task blastn -query seq2.fasta -db cucumis_melo_genomic.fna -outfmt 7 -out result2

    seq1.fasta и seq2.fasta – это файлы с последовательностями 16S и 23S рРНК Escherichia coli, соответственно. Результаты поиска записывались в файлы result1 и result2 в виде таблицы с комментариями.

    Файлы с результатами:

    Результаты поиска для последовательности 16S рРНК

    Результаты поиска для последовательности 23S рРНК

    Для последовательности 16S рРНК было обнаружено 1996 находок, для 23S рРНК – 2764. Но число гомологов ниже, однако из-за большого числа находок его тяжело оценить.

    Используемые источники

    1) https://en.wikipedia.org/wiki/16S_ribosomal_RNA

    2) https://en.wikipedia.org/wiki/23S_ribosomal_RNA