Практикум №8. Нуклеотидный BLAST

Поиск δ-субъединицу АТФ-синтазы

В данном задании исследовался геном и протеом коралла Acropora millepora.

С помощью текстового поиска в файле протеома была найдена последовательность δ-субъединицы АТФ-синтазы. В качестве запроса были заданы слова "subunit delta".

Файл с последовательностью белка atpase_sub_delta.fasta

Далее белок был найден в NCBI Protein Database, откуда был взят идентификатор нуклеотидной записи, к которой относится ген, кодирующий данный белок: NC_058079.1

Данная запись предаставляет собой 14 хромосому Acropora millepora, на которой был найден ген, кодирующий δ-субъединицу АТФ-синтазы: LOC14961338

Файл с последовательностью гена и его окружением nucleotide_seq_atpase.fasta

Координаты гена: 4438820-4443480

environment

Рис 1. Окружение гена.

Применение различных алгоритмов BLAST для фрагмента ДНК

Так как Acropora millepora не относится ни к первичноротым животным, ни ко вторичноротым животным, то для дальнейшего анализа было выбрано произвольное семейство Кошачих (Felidae).

t3pr8_distr.png

Рис 2. При поиске с помощью blastn на вход подавался fasta-файл с последовательностью гена δ-субъединицы АТФ-синтазы. При этом megablast не использовался ввиду наличия большого расхождения псоледовательностей, из-за чего выдача была бы путой. В качестве базы данных для поиска была выбрана refseq_genomes. В параметрах алгоритма была указана минимальная длина слова 7. В результате было найдено 15 записей.

environment

Рис 3. Поиск проводился по базе данных refseq_genomes. Была указана длина слова 5, так как достоверных находок оказалось достаточное количество. Была использована программа tblastn вместо tblastx, так как имеет меньшее время работы. Обнаружено 15 соответствий, что говорит о наличии в гене δ-субъединицы АТФ-синтазы консерватиных участков.

Поиск в геноме Acropora millepora генов основных рибосомальных РНК по далёкому гомологу

Для поиска гомологов последовательности генома Acropora millepora были проиндексированы с помощью локального BLAST:

makeblastdb -in GCF_013753865.1_Amil_v2.1_genomic.fna -dbtype nucl -out Amil_DB

Поиск гомологов 16S и 23S рРНК у E. coli по базе данных Acropora millepora производился с помощь алгоритма blastn:

blastn -task blastn -query 16S_rRNA_ecoli.txt -db Amil_DB -out 16s_pr8.out -evalue 0.01 -outfmt 7

blastn -task blastn -query 23S_rRNA_ecoli.txt -db Amil_DB -out 23s_pr8.out -evalue 0.01 -outfmt 7

Ниже представленны файлы выдачи отдельно для каждой рРНК:

Выдача blastn 16S

Выдача blastn 23S

В результате локального поиска с помощью алгоритма blastn для 16S рРНК было найдено 14 хитов, которые имели значение E-value меньше 0.01. Для 23S рРНК было найдено 33 хита. Все хиты были выровнены на прямой цепи.

Все хиты 23S рРНК обладали достаточно низким E-value. Можно заметить, что процент идентичности был тем меньше, чем короче было выравнивание.

Для визуализации локального поиск BLAST были построены схемы выравнивания 6 участков для гомолога NW_025322990.1, соответствующих участкам 23S рРНК.

environment

Рис 4. Визуализация участка выравнивания 23S рРНК E.Coli на геном Acropora millepora.

environment

Рис 5. Визуализация участка выравнивания 23S рРНК E.Coli на геном Acropora millepora.

Из рис 4. и рис. 5. видно, что одни и те же 3 участка 23S рРНК E.Coli выравнялись на 2 разных места на NW_025322990.1

Это говорит, что в геноме Acropora millepora нашлось 2 повтора генов 23S рРНК.

Построение карты локального сходства участков двух схожих геномов

Для построения карты локального сходства были выбраны хромосомные сборки из геномов бактерий Bacillus subtilis и Bacillus licheniformis. Построение осуществлялось с помощью алгоритмов megablast, blastn и tblastx.

Выбор организмов из одного рода был обусловлен необходимостью сильного сходства между сравниваемыми последовательностями.

environment

Рис 6. Карта локального сходства хромосом Bacillus subtilis и Bacillus licheniformis, построенная с помощью алгоритма megablast.

environment

Рис 7. Карта локального сходства хромосом Bacillus subtilis и Bacillus licheniformis, построенная с помощью алгоритма blastn.

Большая диагональ здесь не возрастает, а убывает. Это означает, что последовательность одной бактерии является обратно-комплементарной по отношению к другой, что может быть обуcловлено глобальной инверсией. Однако она скорее всего произошла из-за прочтения хромосом с разных концов и не имеет биологической причины.

Также на обоих картах заметно смещение начала главной диагонали. Это означает, что в начале хромосомы одного из штаммов присутствует точка разрыва.

При этом выдача tblastx содержит сообщение, что сходства между последовательностями не обнаружено.

Это может быть связано с самим принципом алгоритма, который сравнивает последовательности, используя очень малую длинну слова, так как сравнение происходит не нуклеотидных последовательностей, а их аминокислотных продуктов, полученных с помощью автоматической трансляции.