\
В файле с последовательностями белков речной выдры (Lutra lutra) белок XP_047567085.1 был аннотирован как δ-субъединица АТФ-синтазы.
1. XP_047567085.1 - идентификатор δ-субъединицы АТФ-синтазы, его последовательность
2. NC_062278 - идентификатор нуклеотидной записи, к которой относится ген, кодирующий данный белок
Ссылка на файл с последовательностью окрестности этого гена (222791996..222794983)
Для полученного фрагмента ДНК с последовательностью гена δ-субъединицы АТФ-синтазы я попробовала разные алгоритмы BLAST, выбрав для поиска семейство Пчёл (Apoidea), поскольку оно достаточно удаленное от исходного организма Lutra lutra.
В качестве базы данных для поиска была выбрана RefSeq Genome Database (refseq_genomes). Число сборок в этой базе данных, входящих в выбранный таксон (Apoidea), оказалось равно 29.
При поиске с помощью blastn, когда я указывала последовательность гена (From 803 To 2575), находок не было. Когда я ввела последовательность, соответсвующую окрестности этого гена, то появилась одна находка.
Ссылка на файл с выдачейПри использовании blastn поиск производится по последовательности нуклеотидов, он довольно точен в определении очень похожих нуклеотидных последовательностей. Поскольку целью было нахождение гомологов структур у организмов, у которых хоть и процессы, связанные с АТФ-синтазой мало отличаются, неудивительно, что находок практически не нашлось. Если бы у алгоритма была возможность учитывать избыточность генетического кода, то, вероятно, находок было бы больше (в гипотетическом лучшем случае это число было бы немногим меньшим числа сборок - 29), так что blastn в этом смысле не справляется с задачей. Не могу сказать, что находка, полученная при поиске по окрестности этого гена, значима, т.к. во-первых, она одна (нет каких-либо еще находок с последовательностями представителей Apoidea), во-вторых, в сравнении с тем, что нашлось с помощью tblastn (результаты ниже), длина выравнивания меньше (т.е. нуклеотидов меньше чем аминокислот в выравниваниях, при том, что аминокислоты кодируются тремя нуклеотидами).
Для поиска гомологов белка по его аминокислотной последовательности и формальным трансляциям нуклеотидных последовательностей из refseq_genomes для Apoidea я использовала tblastn.
tblastn выдал 25 находок при значениях параметров по умолчанию (Word size = 5).
Для примерно половины находок оказалось, что часть последовательности белка похожа, для других, что последовательности схожи на более длинном участке.
Поскольку tblastn позволяет проводить поиск по последовательности аминокислот белка, он лучше подходит для поиска гомологов - выше вероятность появиться у находки, близкой по аминокислотному составу (т.к. последовательность аминокислот запроса сравнивается с нуклеотидными последовательностями во всех шести возможных рамках считывания).
Сначала я проиндексировала последовательности генома Lutra lutra, взятые из файла GCF_902655055.1_mLutLut1.2_genomic.fna с сайта NCBI, на своем компьютере с помощью команды
makeblastdb -in GCF_902655055.1_mLutLut1.2_genomic.fna -dbtype nucl
Получила локальную базу данных.
Далее провела локальный поиск BLAST отдельно для 16S рРНК и 23S рРНК E. coli по полученной базе данных./p>
Функции 16S рРНК
Структурная: выступает как каркас, площадка для рибосомальных белков, определяя их положение внутри малой субъединицы.
Взаимодействие с мРНК: 3'-конец 16S рРНК связывается с последовательностью Шайна-Дальгарно на мРНК, что приводит к инициации трансляции.
Взаимодействие кодон-антикодон: обеспечивает правильность спаривания в A-сайте рибосомы.
Функции 23S рРНК
Участвует в образовании пептидной связи при синтезе белка. 23S рРНК образует основную часть пептидилтрансферазного центра (PTC) в большой субъединице.
Определенные участки в 23S рРНК важны для связывания тРНК в P-сайте рибосомы.
Может выступать в качестве мишени антибиотиков, которые препятствуют трансляции.
Для поиска использовала алгоритм blastn, поскольку он подходит для нуклеотидных последовательностей, которые принадлежат неродственным организмам и не относятся к белок кодирующим.
Использованные параметры: evalue = 0.05, word_size по умолчанию 11, для получения табличного формата выдачи - outfmt = 7.
Использованные команды:
blastn -task blastn -query 16S.fasta -db GCF_902655055.1_mLutLut1.2_genomic.fna -out blastn_16S_text -evalue 0.05
blastn -task blastn -query 16S.fasta -db GCF_902655055.1_mLutLut1.2_genomic.fna -out blastn_16S_table -evalue 0.05 -outfmt 7
blastn -task blastn -query 23S.fasta -db GCF_902655055.1_mLutLut1.2_genomic.fna -out blastn_23S_text -evalue 0.05
blastn -task blastn -query 23S.fasta -db GCF_902655055.1_mLutLut1.2_genomic.fna -out blastn_23S_table -evalue 0.05 -outfmt 7
Для 16S выдача состояла из 2 находок, обе из них соответсвуют гомологам. Для 23S выдача состояла из 9 находок, среди которых 3 относятся к гомологам.