С помощью текстового поиска найдите в файле с последовательностями белков эукариота белок, аннотированный как δ-субъединица АТФ-синтазы.
Идентификатор белка - XP_036745782.1
Далее был найден идентификатор нуклеотидной записи с помощью поиска по идентификатору белка в файле с последовательностями генома с аннотацией (GBFF).
Идентфикатор нуклеотидной записи - NC_080030.1
Последовательность небольшой окрестности гена в FASTA-формате
В данном задании были использованы разные варианты BLAST для поиска гомологов среди последовательностей геномов таксона Пчелы(Apoidea) для δ-субъединицы АТФ-синтазы из Manis pentadactyla. Так как ранее я использовала геном вторичноротого животного, Китайского панголина (Manis pentadactyla), то для дальнейшего анализа мною был выбран достаточно удаленный от исходного организма таксон Пчёлы (Apoidea), принадлежащий кладе первичноротых.(пчелы показались интереснее)
Я использовала базу данных Refseq Genomes, содержащую 29 сборок таксона Apoidea.
1)Для анализа я выбрала blastn. Megablast используется для быстрого анализа очень схожих последовательностей бликородственных организмов, поэтому думаю что в данном случве оптимальнее использовать blastn. Была использована длина слова 11. В результате нашлось 0 находок. Изначально ожидалось небольшое значение находок, близкое к 0.
2)Для анализа был выбран tblastn. И tblastn и tblastx ищут в "псевдобелковой" базе данных(транслированными последовательностями из нуклеотидной БД), при этом в качестве запроса tblastx использует ген белка (который затем транслирует), а tblastn использует последовательнсоть белка
Были выбраны стандратные параметры(word size=5).Было найдено 25 находок c хорошим показателем E-value, у которых процент идентичности в среднем составлял 50%. Изначально ожидалось, что находок с tblastn будет больше, чем с blastn. Думаю, что можно считать, что tblastn справился с поиском.
К сожалению, мне не удалось выполнить этот пункт с геномом Manis pentadactyla из-за слишком большого файла, поэтому я выбрала новый организм - Рабочий муравей (Formica selysi).
Индексация генома Formica rufa была проведена с помощью команды:
makeblastdb -in GCA_009859135.1_ASM985913v1_genomic.fna -dbtype nucl
Для анализа были даны последовательности 16s и 23S рРНК. 16s рРНК входит в состав малой субъединицы, 23s рРНК входит в состав большой субъединицы прокариотической рибосомы. 16s рРНК выполняет структурную функцию, связывется с факторами инициации трансляции, связывается с мРНК через последовтаельность Шайна-Дольгарно. 23s РНК также выполняет структурную функцию, способствует пептидилтрансферазной реакции.
Для выполнения задания был использован blastn, потому что в качестве запроса использовалась нуклеотидная последовательнотсь таксономичеки далекого организма и поиск профодился в нуклеотидной базе данных. Использовались следующие параметры: word size - 11; e-value - 0.05.
Были выполнены следующие запросы:
blastn -task blastn -evalue 0.05 -query 16rna.txt -db GCA_009859135.1_ASM985913v1_genomic.fna -out blastn_16.txt -outfmt 7
blastn -task blastn -evalue 0.05 -query 23rna.txt -db GCA_009859135.1_ASM985913v1_genomic.fna -out blastn_23.txt -outfmt 7
Получились следующие файлы с выдачей: 16s рРНК-таблица, текстовая выдача; 23s рРНК - таблица, текстовая выдача
Для 16s рРНК было найдено 6 находок, из них 3 являются гомологичными.
Для 23s рРНК было найдено 32 находки, из них являются 17 гомологичными(для подсчета гомологов не использовались находки с e-value 0.032 и 0.003)