Практикум 8

Задание 1. Нахождение в геноме Manis pentadactyla гена, кодирующего δ-субъединицу АТФ-синтазы

С помощью текстового поиска найдите в файле с последовательностями белков эукариота белок, аннотированный как δ-субъединица АТФ-синтазы.

Идентификатор белка - XP_036745782.1

Последовательность белка

Далее был найден идентификатор нуклеотидной записи с помощью поиска по идентификатору белка в файле с последовательностями генома с аннотацией (GBFF).

Идентфикатор нуклеотидной записи - NC_080030.1

Последовательность небольшой окрестности гена в FASTA-формате

Рис 1.Расположение гена на выбранном участке.Тонкие линии - интроны, толстые - экзоны. Зеленый - ген (серо-зеленый 5'-НТО и 3'-HTO) , фиолетовый - мРНК, красный - CDS.

Задание 2. Варианты BLAST

В данном задании были использованы разные варианты BLAST для поиска гомологов среди последовательностей геномов таксона Пчелы(Apoidea) для δ-субъединицы АТФ-синтазы из Manis pentadactyla. Так как ранее я использовала геном вторичноротого животного, Китайского панголина (Manis pentadactyla), то для дальнейшего анализа мною был выбран достаточно удаленный от исходного организма таксон Пчёлы (Apoidea), принадлежащий кладе первичноротых.(пчелы показались интереснее)

Я использовала базу данных Refseq Genomes, содержащую 29 сборок таксона Apoidea.

1)Для анализа я выбрала blastn. Megablast используется для быстрого анализа очень схожих последовательностей бликородственных организмов, поэтому думаю что в данном случве оптимальнее использовать blastn. Была использована длина слова 11. В результате нашлось 0 находок. Изначально ожидалось небольшое значение находок, близкое к 0.

2)Для анализа был выбран tblastn. И tblastn и tblastx ищут в "псевдобелковой" базе данных(транслированными последовательностями из нуклеотидной БД), при этом в качестве запроса tblastx использует ген белка (который затем транслирует), а tblastn использует последовательнсоть белка

Были выбраны стандратные параметры(word size=5).Было найдено 25 находок c хорошим показателем E-value, у которых процент идентичности в среднем составлял 50%. Изначально ожидалось, что находок с tblastn будет больше, чем с blastn. Думаю, что можно считать, что tblastn справился с поиском.

Выдача tblastn

Задание 3. Поиск в геноме Formica selysi генов основных рибосомальных РНК по далекому гомологу.

К сожалению, мне не удалось выполнить этот пункт с геномом Manis pentadactyla из-за слишком большого файла, поэтому я выбрала новый организм - Рабочий муравей (Formica selysi).

Индексация генома Formica rufa была проведена с помощью команды:

makeblastdb -in GCA_009859135.1_ASM985913v1_genomic.fna -dbtype nucl

Для анализа были даны последовательности 16s и 23S рРНК. 16s рРНК входит в состав малой субъединицы, 23s рРНК входит в состав большой субъединицы прокариотической рибосомы. 16s рРНК выполняет структурную функцию, связывется с факторами инициации трансляции, связывается с мРНК через последовтаельность Шайна-Дольгарно. 23s РНК также выполняет структурную функцию, способствует пептидилтрансферазной реакции.

Для выполнения задания был использован blastn, потому что в качестве запроса использовалась нуклеотидная последовательнотсь таксономичеки далекого организма и поиск профодился в нуклеотидной базе данных. Использовались следующие параметры: word size - 11; e-value - 0.05.

Были выполнены следующие запросы:

blastn -task blastn -evalue 0.05 -query 16rna.txt -db GCA_009859135.1_ASM985913v1_genomic.fna -out blastn_16.txt -outfmt 7
blastn -task blastn -evalue 0.05 -query 23rna.txt -db GCA_009859135.1_ASM985913v1_genomic.fna -out blastn_23.txt -outfmt 7

Получились следующие файлы с выдачей: 16s рРНК-таблица, текстовая выдача; 23s рРНК - таблица, текстовая выдача

Для 16s рРНК было найдено 6 находок, из них 3 являются гомологичными.

Для 23s рРНК было найдено 32 находки, из них являются 17 гомологичными(для подсчета гомологов не использовались находки с e-value 0.032 и 0.003)