Поиск гена δ-субъединицы АТФ-синтазы


ID белка: NP_495286.1

ID нуклеотидной последовательности: F58F12.1. Последовательность в формате FASTA доступна по ссылке


Проба вариантов BLAST


Caenorhabditis elegans - круглый червь, первичноротое животное, поэтому поиск проводился в семействе Кошачьих, которое принадлежит группе вторичноротых животных, т. е. поиск вёлся в группе организмов, довольно далёких от выбранной мною нематоды.

Задача - найти последовательности ДНК, похожие на ген δ-субъединицы АТФ-синтазы нематоды, среди других организмов - в данном случае в семействе Кошачьих.

Использована база данных RefSeq Genome Database. В данной базе данных у данного таксона представлено 1.13 млн. записей по нуклеиновым кислотам, 852.5 тыс. записей по белкам, 22 записи с геномами и 530 тыс. записей с отдельными генами; представлено около 120 видов.

Для BLASTn пришлось уменьшить длину слова до 7, т. к. с большей длиной программа ничего не находила. Для tBLASTx настройки поиска не изменял.

Выбрал BLASTn вместо MegaBLAST, т. к. MegaBLAST в отличие от BLASTn подбирает очень большие слова длиной от 16 до 64; т. о. MegaBLAST находит высокоидентичные запросу последовательности. Из-за большой длины слова найти ничего не удалось с помощью MegaBLAST. BLASTn со стандартными настройками тоже не справлялся с задачей - пришлось уменьшить длину слова до минимума - 7.

Рис. 1. Результат поиска по алгоритму BLASTn.

tBLASTn и tBLASTx на стандартных настройках дали одинаковый результат (рис. 2).

Рис. 2. Результаты поиска по алгоритмам tBLASTn (слева) и tBLASTx (справа).

Для BLASTn ожидал около 10 находок, для tBLASTn/x - около 20. BLASTn нашёл 2 малозначимые находки (рис. 1) (E value > 10^2); алгоритм не справился, т. к. находок практически нет. tBLASTn/x нашли 15 значимых последовательностей с E value < 10^6 (рис. 2); данные алгоритмы справились с задачей гораздо лучше (учитывая, что в базе данных у семейства Кошачьих всего 22 записи с геномами).


Поиск генов основных рибосомальных РНК по далекому гомологу


Создание базы данных:

Поиск проводился по 16S и 23S рРНК E. coli. 16S рРНК - структурный компонент малой субъединицы рибосомы прокариот, 23S - большой.

Пользовался программой blastn, т. к. имеем дело с некодирующими белки последовательностями. Параметры взяты по умолчанию. Команды выглядят так:

Получил следующие результаты: 16S и 23S

Ожидалось найти гомологов для обоих видов рРНК - это должны были быть рибосомальные РНК эукариотической клетки (включая митохондриальные).

Для 16S было найдено 3 пары значимых находок в первой хромосоме (для каждого представленного отрывка запроса находилось две разные по координатам, но идентичные по содержанию последовательности хромосомы), для 23S было получено 2 пары одинаковых и 5 уникальных выравниваний.

Гомологичные участки (значимых находок) принадлежат посл-ти 18S рРНК эук. для 16S бакт. и 26S эук. - для 23S бакт.

16S и 23S рРНК-находки не были найдены (хоть и есть митохондриальная хромосома), аннотации для 18S и 26S рРНК есть, они в 1 хромосоме, но ожидались аннотации для 16S и 23S в митохондриальной.