Белковая последовательность гена сигма субъединицы АТФ-синтазы была найдена в файле *.gbff(protein_id="XP_015644663.1"). Белковая последовательность в fasta формате доступна по ссылке. Нуклеотидную последовательность гена(db_xref="GeneID:4343288") можно скачать по ссылке. Нуклеотидный участок окрестности гена можно скачать здесь.
Целью данного задания было найти гомологов сигма субъединицы АТФ-синтазы у далеких организмов. Все предложенные таксоны относились к животным, поэтому любой из них был достаточно удален от высшего растений. Я остановился на пауках(Araneae). Всего в базе данных refseq_genomes было 4 сборки пауков, поэтому ожидаемое число находок - 4. Для начала, поиск гомологов был осуществлен с помощью blastn. Все параметры были использованы по-умолчанию, кроме word_size = 7. В результате работы алгоритма никаких гомологов найдено не было, что неудивительно, потому что blastn нельзя использовать для поиска гомологов белок-кодирующих генов ввиду того, что он не учитывает вырожденность генетического кода.
Далее поиск осуществлялся с помощью алгоритма tblastn c word_size=2 . Алгоритм tblastn берет на вход последовательность белка и по ней ищет гомологов в транслированной нуклеотидной базе данных. В результате нашлись все 4 ожидаемых гомолога. Результаты приведены на Рис. 1 и в файле.
Для поиска гомологов некодирующих 16S и 23S рРНК была выбрана программа blastn, так как некодирующие белок последовательности нужно искать именно с помощью нее. Эти РНК являются важной структурной и каталитической частью рибосом. В эукариотических рибосомах гомологами 16S и 18S рРНК являются соответственно 18S и 28S рРНК. В геноме риса ожидадается найти эти гомологи этих генов в трех вариантах: цитоплазматических, пластидных и митохондриальных. Поиск осуществлялся с помощью следующих команд:
makeblastdb -in rice.fna -dbtype nucl
blastn -task blastn -query 16s.fasta -db rice.fna -out 16stext.out -word_size 7
blastn -task blastn -query 23s.fasta -db rice.fna -out 23stext.out -word_size 7
blastn -task blastn -query 16s.fasta -db rice.fna -out 16stable.out -word_size 7 -outfmt 7
blastn -task blastn -query 23s.fasta -db rice.fna -out 23stable.out -word_size 7 -outfmt 7
Файлы с находками можно скачать соотвественно по ссылкам: 16S-таблица, 16S-текст, 23s-таблица, 23s-текст.
Всего для 16S рРНК было найдено 2165 находок blastn, а для 23S - 3178. Число аннотированных гомологов 16S - 1030, а 23S - 1024(оба числа найдены прямым поиском в *.gbff). Интересно, что митохондриальные рРНК почему были аннотированы как 18S и 28S, хотя их следовало бы аннотировать как 16S и 23S. Из-за большого числа находок blastn сравнение числа аннотированных гомологов и тех, что нашел blastn затруднительно, поэтому на этом и остановимся.