\ Торхова, BLAST

8. Нуклеотидный BLAST


Задание 1

В файле с последовательностями белков речной выдры (Lutra lutra) белок XP_047567085.1 был аннотирован как δ-субъединица АТФ-синтазы.

1. XP_047567085.1 - идентификатор δ-субъединицы АТФ-синтазы, его последовательность

2. NC_062278 - идентификатор нуклеотидной записи, к которой относится ген, кодирующий данный белок

Ссылка на файл с последовательностью окрестности этого гена (222791996..222794983)


Задание 2

Для полученного фрагмента ДНК с последовательностью гена δ-субъединицы АТФ-синтазы я попробовала разные алгоритмы BLAST, выбрав для поиска семейство Пчёл (Apoidea), поскольку оно достаточно удаленное от исходного организма Lutra lutra.

В качестве базы данных для поиска была выбрана RefSeq Genome Database (refseq_genomes). Число сборок в этой базе данных, входящих в выбранный таксон (Apoidea), оказалось равно 29.

При поиске с помощью blastn, когда я указывала последовательность гена (From 803 To 2575), находок не было. Когда я ввела последовательность, соответсвующую окрестности этого гена, то появилась одна находка.

Ссылка на файл с выдачей

При использовании blastn поиск производится по последовательности нуклеотидов, он довольно точен в определении очень похожих нуклеотидных последовательностей. Поскольку целью было нахождение гомологов структур у организмов, у которых хоть и процессы, связанные с АТФ-синтазой мало отличаются, неудивительно, что находок практически не нашлось. Если бы у алгоритма была возможность учитывать избыточность генетического кода, то, вероятно, находок было бы больше (в гипотетическом лучшем случае это число было бы немногим меньшим числа сборок - 29), так что blastn в этом смысле не справляется с задачей. Не могу сказать, что находка, полученная при поиске по окрестности этого гена, значима, т.к. во-первых, она одна (нет каких-либо еще находок с последовательностями представителей Apoidea), во-вторых, в сравнении с тем, что нашлось с помощью tblastn (результаты ниже), длина выравнивания меньше (т.е. нуклеотидов меньше чем аминокислот в выравниваниях, при том, что аминокислоты кодируются тремя нуклеотидами).


Для поиска гомологов белка по его аминокислотной последовательности и формальным трансляциям нуклеотидных последовательностей из refseq_genomes для Apoidea я использовала tblastn.

tblastn выдал 25 находок при значениях параметров по умолчанию (Word size = 5).

Для примерно половины находок оказалось, что часть последовательности белка похожа, для других, что последовательности схожи на более длинном участке.

tblastn
Рис. 1 результат работы tblastn
Ссылка на файл с выдачей


Поскольку tblastn позволяет проводить поиск по последовательности аминокислот белка, он лучше подходит для поиска гомологов - выше вероятность появиться у находки, близкой по аминокислотному составу (т.к. последовательность аминокислот запроса сравнивается с нуклеотидными последовательностями во всех шести возможных рамках считывания).


Задание 3

Сначала я проиндексировала последовательности генома Lutra lutra, взятые из файла GCF_902655055.1_mLutLut1.2_genomic.fna с сайта NCBI, на своем компьютере с помощью команды

makeblastdb -in GCF_902655055.1_mLutLut1.2_genomic.fna -dbtype nucl

Получила локальную базу данных.

Далее провела локальный поиск BLAST отдельно для 16S рРНК и 23S рРНК E. coli по полученной базе данных./p>

Функции 16S рРНК

Структурная: выступает как каркас, площадка для рибосомальных белков, определяя их положение внутри малой субъединицы.

Взаимодействие с мРНК: 3'-конец 16S рРНК связывается с последовательностью Шайна-Дальгарно на мРНК, что приводит к инициации трансляции.

Взаимодействие кодон-антикодон: обеспечивает правильность спаривания в A-сайте рибосомы.


Функции 23S рРНК

Участвует в образовании пептидной связи при синтезе белка. 23S рРНК образует основную часть пептидилтрансферазного центра (PTC) в большой субъединице.

Определенные участки в 23S рРНК важны для связывания тРНК в P-сайте рибосомы.

Может выступать в качестве мишени антибиотиков, которые препятствуют трансляции.


Для поиска использовала алгоритм blastn, поскольку он подходит для нуклеотидных последовательностей, которые принадлежат неродственным организмам и не относятся к белок кодирующим.

Использованные параметры: evalue = 0.05, word_size по умолчанию 11, для получения табличного формата выдачи - outfmt = 7.

Использованные команды:

blastn -task blastn -query 16S.fasta -db GCF_902655055.1_mLutLut1.2_genomic.fna -out blastn_16S_text -evalue 0.05

blastn -task blastn -query 16S.fasta -db GCF_902655055.1_mLutLut1.2_genomic.fna -out blastn_16S_table -evalue 0.05 -outfmt 7

blastn -task blastn -query 23S.fasta -db GCF_902655055.1_mLutLut1.2_genomic.fna -out blastn_23S_text -evalue 0.05

blastn -task blastn -query 23S.fasta -db GCF_902655055.1_mLutLut1.2_genomic.fna -out blastn_23S_table -evalue 0.05 -outfmt 7

Для 16S выдача состояла из 2 находок, обе из них соответсвуют гомологам. Для 23S выдача состояла из 9 находок, среди которых 3 относятся к гомологам.


Ссылка на файл с выдачей для 16S в текстовом формате

Ссылка на файл с выдачей для 16S в табличном формате

Ссылка на файл с выдачей для 23S в текстовом формате

Ссылка на файл с выдачей для 23S в табличном формате