Практикум 8
В данном практикуме я попробовала поработать с разными алгоритмами поиска BLAST.
В ходе выполнения заданий я использовала файлы, скачанные в предыдущем практикуме. В этих файлах содержится некоторая информация о сборке генома Cucumis melo из RefSeq.
Поиск гена, кодирующего δ-субъединицу АТФ-синтазы
В файле с последовательностями белков Cucumis melo я обнаружила два белка, аннотированных как δ-субъединица АТФ-синтазы (ATP synthase subunit delta).
Один из этих белков является митохондриальным, другой – хлоропластным.
Для дальнейшей работы я выбрала митохондриальный белок. Его последовательность я сохранила в формате fasta.
Последовательность белка
Далее по идентификатору данного белка (XP_008438277.1) я нашла идентификатор нуклеотидной записи в файле с последовательностями генома с аннотацией.
Идентификатор нуклеотидной записи: NC_066862.
Затем я открыла нужную нуклеотидную запись в NCBI Nucleotide и сохранила последовательность фрагмента ДНК, содержащую ген данного белка с небольшой окрестностью.
Нуклеотидная последовательность
Разные варианты BLAST
В данном задании я воспользовалась разными варинтами поиска BLAST.
Для поиска BLAST я выбрала семейство кошачьих (Felidae). Это семейство является удаленным от Cucumis melo: дыня относится к двудольным растениям, а кошачьи – к вторичноротым животным.
Поиск BLAST выполнялся через сайт NCBI по последовательностям геномов кошачьих.
В качестве базы данных при поиске я выбрала Refseq_genomes.
В данной базе есть 15 геномных сборок, принадлежащих семейству кошачьих.
blastn vs megablast
Для начала необходимо было решить, какой алгоритм использовать в данном задании: blastn или megablast.
Я выбрала blastn.
Почему же? Megablast создан для поиска почти идентичных последовательностей. В моём случае Cucumis melo и кошачьи довольно сильно удалены друг от друга. Более того, в файле, который подаётся на вход, представлена нуклеотидная последовательность гена с окрестностью. Следовательно, шансы найти что-нибудь невысоки.
Однако любопытства ради я решила всё-таки попробовать воспользоваться megablast.
Параметры алгоритма:
Max target sequences: 100
Expect threshold: 0.05
Word size: 28
Max matches in a query range: 0
Match/Mismatch Scores: 1,-2
Gap costs: Linear
В результате ничего не нашлось.
blastn
Далее я запустила поиск BLAST при помощи алгоритма blastn.
На вход подается файл в формате fasta с последовательностью гена, кодирующего δ-субъединицу АТФ-синтазы, с окрестностью.
Параметры алгоритма я оставила неизменными:
Max target sequences: 100
Expect threshold: 0.05
Word size: 11
Max matches in a query range: 0
Match/Mismatch Scores: 2,-3
Gap costs: Existence: 5 Extension: 5
В результате было обнаружено 42 находки. В целом, я и ожидала примерно столько находок: не очень много, но при этом они есть. Находки были разными.
Результаты поиска
В целом, алгоритм справился с поиском.
tblastn
На следующем этапе надо было выбрать, каким алгоритмом теперь проводить поиск: tblastn или tblastx.
Я решила воспользоваться tblastn. Мой выбор обусловлен тем, что мне было интересно попробовать этот алгоритм.
На вход подается файл с белковой последовательностью δ-субъединицы АТФ-синтазы Cucumis melo.
Параметры алгоритма:
Max target sequences: 100
Expect threshold: 0.05
Word size: 5
Max matches in a query range: 0
Matrix: BLOSSUM62
Gap costs: Existence: 11 Extension: 1
Compositional adjustments: Conditional compositional score matrix adjustment
В результате поиска ничего не нашлось. Тогда я решила воспользоваться tblastx.
tblastx
На вход подается нуклеотидная последовательность гена, кодирующего δ-субъединицу АТФ-синтазы Cucumis melo, с небольшой окрестностью.
Параметры алгоритма:
Max target sequences: 100
Expect threshold: 0.05
Word size: 3
Max matches in a query range: 0
Matrix: BLOSSUM62
В результате было обнаружено 18 находок.
Результаты поиска
Я ожидала увидеть меньшее число находок. В целом, алгоритм справился с поиском.
Поиск генов основных рРНК по далекому гомологу
Для начала я проиндексировала геном Cucumis melo c помощью следующей команды:
makeblastdb -in cucumis_melo_genomic.fna -dbtype nucl
Далее я скачала последовательности рРНК Escherichia coli.
После этого я провела локальный поиск BLAST для каждой рРНК отдельно. Я воспользовалась алгоритмом blastn, так как моей задачей являлось сравнить нуклеотидную последовательность с нуклеотидной базой данных, при этом поиск происходил по далекому гомологу.
Поиск проводился по 16S и 23S рРНК.
16S рРНК входит в состав малой (30S) субъединицы прокариотической рибосомы и играет структурную роль, в том числе вместе с 23S рРНК способствует взаимодействию большой (50S) и малой (30S) субъединицы рибосомы [1]. 23S рРНК в свою очередь входит в состав большой (50S) субъединицы [2]. 16S рРНК высококонсервативна, поэтому она служит филогенетическим маркером.
Для поиска использовались следующие команды:
blastn -task blastn -query seq1.fasta -db cucumis_melo_genomic.fna -outfmt 7 -out result1
blastn -task blastn -query seq2.fasta -db cucumis_melo_genomic.fna -outfmt 7 -out result2
seq1.fasta и seq2.fasta – это файлы с последовательностями 16S и 23S рРНК Escherichia coli, соответственно. Результаты поиска записывались в файлы result1 и result2 в виде таблицы с комментариями.
Файлы с результатами:
Результаты поиска для последовательности 16S рРНК
Результаты поиска для последовательности 23S рРНК
Для последовательности 16S рРНК было обнаружено 1996 находок, для 23S рРНК – 2764. Но число гомологов ниже, однако из-за большого числа находок его тяжело оценить.
Используемые источники
1) https://en.wikipedia.org/wiki/16S_ribosomal_RNA
2) https://en.wikipedia.org/wiki/23S_ribosomal_RNA