\
В файле с последовательностями белков речной выдры (Lutra lutra) белок XP_047567085.1 был аннотирован как δ-субъединица АТФ-синтазы.
1. XP_047567085.1 - идентификатор δ-субъединицы АТФ-синтазы, его последовательность
2. NC_062278 - идентификатор нуклеотидной записи, к которой относится ген, кодирующий данный белок
Ссылка на файл с последовательностью окрестности этого гена (222791996..222794983)
Для полученного фрагмента ДНК с последовательностью гена δ-субъединицы АТФ-синтазы я попробовала разные алгоритмы BLAST, выбрав для поиска семейство Пчёл (Apoidea), поскольку оно достаточно удаленное от исходного организма Lutra lutra.
В качестве базы данных для поиска была выбрана RefSeq Genome Database (refseq_genomes). Число сборок в этой базе данных, входящих в выбранный таксон (Apoidea), оказалось равно 29.
При поиске с помощью blastn, когда я указывала последовательность гена (From 803 To 2575), находок не было. Когда я ввела последовательность, соответсвующую окрестности этого гена, то появилась одна находка.
Ссылка на файл с выдачейПри использовании blastn поиск производится по последовательности нуклеотидов, он довольно точен в определении очень похожих нуклеотидных последовательностей. Поскольку целью было нахождение гомологов структур у организмов, у которых хоть и процессы, связанные с АТФ-синтазой мало отличаются, неудивительно, что находок практически не нашлось. Если бы у алгоритма была возможность учитывать избыточность генетического кода, то, вероятно, находок было бы больше (в гипотетическом лучшем случае это число было бы немногим меньшим числа сборок - 29), так что blastn в этом смысле не справляется с задачей. Не могу сказать, что находка, полученная при поиске по окрестности этого гена, значима, т.к. во-первых, она одна (нет каких-либо еще находок с последовательностями представителей Apoidea), во-вторых, в сравнении с тем, что нашлось с помощью tblastn (результаты ниже), длина выравнивания меньше (т.е. нуклеотидов меньше чем аминокислот в выравниваниях, при том, что аминокислоты кодируются тремя нуклеотидами).
Для поиска гомологов белка по его аминокислотной последовательности и формальным трансляциям нуклеотидных последовательностей из refseq_genomes для Apoidea я использовала tblastn.
tblastn выдал 25 находок при значениях параметров по умолчанию (Word size = 5).
Для примерно половины находок оказалось, что часть последовательности белка похожа, для других, что последовательности схожи на более длинном участке.
Ссылка на файл с выдачейПоскольку tblastn позволяет проводить поиск по последовательности аминокислот белка, он лучше подходит для поиска гомологов - выше вероятность появиться у находки, близкой по аминокислотному составу (т.к. последовательность аминокислот запроса сравнивается с нуклеотидными последовательностями во всех шести возможных рамках считывания).
Сначала я проиндексировала последовательности генома Lutra lutra, взятые из файла GCF_902655055.1_mLutLut1.2_genomic.fna с сайта NCBI, на своем компьютере с помощью команды
makeblastdb -in GCF_902655055.1_mLutLut1.2_genomic.fna -dbtype nucl
Получила локальную базу данных.
Далее провела локальный поиск BLAST отдельно для 16S рРНК и 23S рРНК E. coli по полученной базе данных./p>
Функции 16S рРНК
Структурная: выступает как каркас, площадка для рибосомальных белков, определяя их положение внутри малой субъединицы.
Взаимодействие с мРНК: 3'-конец 16S рРНК связывается с последовательностью Шайна-Дальгарно на мРНК, что приводит к инициации трансляции.
Взаимодействие кодон-антикодон: обеспечивает правильность спаривания в A-сайте рибосомы.
Функции 23S рРНК
Участвует в образовании пептидной связи при синтезе белка. 23S рРНК образует основную часть пептидилтрансферазного центра (PTC) в большой субъединице.
Определенные участки в 23S рРНК важны для связывания тРНК в P-сайте рибосомы.
Может выступать в качестве мишени антибиотиков, которые препятствуют трансляции.
Для поиска использовала алгоритм blastn, поскольку он подходит для нуклеотидных последовательностей, которые принадлежат неродственным организмам и не относятся к белок кодирующим.
Использованные параметры: evalue = 0.05, word_size по умолчанию 11, для получения табличного формата выдачи - outfmt = 7.
Использованные команды:
blastn -task blastn -query 16S.fasta -db GCF_902655055.1_mLutLut1.2_genomic.fna -out blastn_16S_text -evalue 0.05
blastn -task blastn -query 16S.fasta -db GCF_902655055.1_mLutLut1.2_genomic.fna -out blastn_16S_table -evalue 0.05 -outfmt 7
blastn -task blastn -query 23S.fasta -db GCF_902655055.1_mLutLut1.2_genomic.fna -out blastn_23S_text -evalue 0.05
blastn -task blastn -query 23S.fasta -db GCF_902655055.1_mLutLut1.2_genomic.fna -out blastn_23S_table -evalue 0.05 -outfmt 7
Для 16S выдача состояла из 2 находок, обе из них соответсвуют гомологам. Для 23S выдача состояла из 9 находок, среди которых 3 относятся к гомологам.