Задание 1. δ-субъединица АТФ-синтазы.

Был произведен поиск в файле последовательностей белков последовательности δ-субъединицы АТФ-синтазы по запросу: ATP synthase subunit delta. Идентификатор данного белка: XP_003123039.1 ATP synthase subunit delta, mitochondrial [Sus scrofa].

Файл с последовательностью δ-субъединицы АТФ-синтазы.

Далее я искала в нуклеотидной последовательности генома идентификатор записи нуклеотидной последовательности. В результате поиска я выяснила, что идентификатор нуклеотидной записи - NC_010444.4, ген находится во 2 хромосоме. Ген, в котором содержится последовательность дельта-субъединицы - ATP5D.

Файл с окрестностью гена ATP5D.

Рис. 1. Окрестноссть гена

Задание 2. Разные варианты BLAST для фрагмента ДНК.

Дикий кабан относится к вторичноротым, поэтому в качестве достаточно удаленного таксона я выбрала семейство Пчёлы (Apoidea).

Я выполнила поиск BLAST через сайт NCBI по последовательностям геномов из выбранного таксона для последовательности гена δ-субъединицы АТФ-синтазы дикого кабана с помощью двух типов алгоритмов: blastn и tblastn. В качестве базы данных для поиска была взята база данных RefSeq Genome Database, содержащую 29 сборок таксона Apoidea.

При поиске с помощью blastn находок не нашлось. И это вполне ожидаемо, так как рассматривается нуклеотидная последовательность и если бы алгоритм мог учитывать избыточность генетического кода, то находок, скорее всего, было бы больше.

При поиске с помощью tblastn (параметры оставила те же, кроме word_size: здесь я выбрала word_size=2) я получила 25 находок с хорошим показателем E-value, процент идентичности в среднем 45%. Изначально ожидалось, что находок с tblastn будет больше, чем с blastn.

Задание 3. Гены основных рибосомальных РНК по далекому гомологу.

Сначала я проиндексировала последовательности генома Malassezia japonica, взятые из файла GCF_029542785.1_ASM2954278v1_genomic.fna с сайта NCBI, на своем компьютере с помощью команды:

makeblastdb -in GCF_029542785.1_ASM2954278v1_genomic.fna -dbtype nucl

Получив локальную базу данных, я провела поиск BLAST для 16S рРНК и для 23S рРНК E. coli 

16S

16S рРНК является частью малой субъединицы рибосомы и обеспечивает структурную поддержку рибосомы, помогает в правильной сборке рибосомных компонентов и связывается с мРНК и тРНК во время трансляции, обеспечивая правильное считывание кодонов и соответствие между мРНК и тРНК.

23S

23S рРНК является компонентом большой субъединицы рибосомы, обеспечивает структурную целостность и стабильность большой субъединицы рибосомы, играя важную роль в формировании рибосомной структуры, и обладает рибозимной активностью, что означает, что она может катализировать химические реакции.

Я выбрала blastn, так как необходимо найти нуклеотидные последовательности рРНК в нуклеотидной базе данных генома эукариота. blastn оптимизирован для поиска схожих нуклеотидных последовательностей. Я использовала такие параметры: evalue = 0.05, а остальные по умолчанию.

Для поиска последовательностей, сходных с 16S рРНК:

blastn -task blastn -query 16s.fasta -db GCF_029542785.1_ASM2954278v1_genomic.fna -out 16s_res_tbl -evalue 0.05 -outfmt 7

Файл с выдачей для 16S в табличном формате

Для поиска последовательностей, сходных с 23S рРНК:

blastn -task blastn -query 23s.fasta -db GCF_029542785.1_ASM2954278v1_genomic.fna -out 23s_res_tbl -evalue 0.05 -outfmt 7

Файл с с выдачей для 23S в табличном формате

Для 16S выдача состояла из 14 хитов, 7 из них соответсвуют гомологам. Для 23S выдача состояла из 28 хитов, среди которых 7 относятся к гомологам.