Нуклеотидный BLAST

Задание 1

Хромосома
Рис.1. Apodemus sylvaticus chromosome 1, mApoSyl1.1

Для сравнения был выбран родственный организм Apodemus iconicus, они с исходным Apodemus sylvaticus принадлежат к одному роду.

blastn - 2 находки(длина слова 11), используется для сравнения геномов у дальних родственников

megablast - 2 находки (длина слвоа 7), используется для проверки почти идентичных геномов

blastx - 0 находок(пробовала длину слова 2,3,5,6), создаёт 6 рамок считывания и на этой основе ищет схожие белки в белковой базе данных

tblastx - 0 находок (пробовала длину слова 2,3), создаёт 6 рамок считывания и ищет похожие в нуклеотидной базе данных (используется для корректности предсказанных белков)

Эукариотические гены основных рибосомальных РНК по далекому гомологу

Создание базы данных для моего организма Apodemus sylvaticus:

makeblastdb -in "C:\Users\liask\Downloads\GCF_947179515.1_mApoSyl1.1_genomic.fna\ GCF_947179515.1_mApoSyl1.1_genomic.fna" -dbtype nucl

Далее был скачан файл с Последовательностями рРНК Escherichia coli и проведён локальный поиск BLAST для 16sRNA и 23sRNA. Команды:

blastn -task "blastn" -query "C:\Users\liask\Downloads\16sRNA.fa" -db "C:\Users\liask\Downloads\GCF_947179515.1_mApoSyl1.1_genomic.fna\ GCF_947179515.1_mApoSyl1.1_genomic.fna" -out "16S_rRNA_output.tsv" -outfmt 7

blastn -task "blastn" -query "C:\Users\liask\Downloads\23sRNA.fa" -db "C:\Users\liask\Downloads\ GCF_947179515.1_mApoSyl1.1_genomic.fna\GCF_947179515.1_mApoSyl1.1_genomic.fna" -out "23S_rRNA_output.tsv" -outfmt 7

-outfmt 7 - для выдачи в виде таблицы

Выводы команд:

16s rRNA

23s rRNA

Для 16sRNA нашлось 34 находки(длина выравнивания не превышала 104). Среди них были скаффолды, хромосома 16(рРНК, miscRNA), хромосома 21(кодирует почти то жде что предыдущая), хромосома 19, хромосома 5, хромосома 23, хромосома 22, хромосома 9, хромосома 7, хромосома 20, хромосома 8. Для 23s нашлось 95 находок(длина выравнивания не превышала 196). Примерно половина из них это скаффолды, остальное хромосомы - 22,16,13,15, X, 21,6,5,4,11,8,19,9,1,3,17.

Eсли посмотрим на находки 16S то процент идентичности высокий(около 88 при выравнивании 33-43), а чем меньше процент идентичности тем больше выравнивание, 69 и 104 например, у гомологов наверное бы не было такого скачка вниз при не таком сильном увеличении длины выравнивания. Но с другой стороны, например рассмотрим находку с такими данными:CP014225.1:complement(926804-928359)|16S_rRNA|Escherichia/1-1556 NC_067487.1 69.231 104 32 0 1306 1409 744426 744323 0.17 44.6 и по её координатам посмотрим что она кодирует - это окажется участок 18S ribosomal RNA, который вполне может являться гомологом. Остальные находки из хромосомы NC_067487.1 тоже падают на участок кодирующий 18S ribosomal RNA, в другой хромосоме NC_067492.1 это - finger homeobox 3 точно не будет являться гомологом, NC_067490.1 - что-то не аннотированное, NC_067476.1 - peptidase domain containing associated with muscle regeneration 1(вряд ли гомолог), NC_067494.1 - не аннотированно, NC_067493.1 - calneuron 1(не гомолог),NC_067480.1 - potassium voltage-gated channel subfamily Q member 5(не гомолог), NC_067478.1 - не аннторированно, NC_067474.1 - не аннторированно, NC_067491.1 - не аннторированно, NC_067479.1 - uncharacterized LOC127690765. Таким образом, был найден возможный гомолог в хромосоме NC_067487.1(16)(там несколько находок падают на 18S ribosomal RNA).

Тот же самый анализ сделала для 23s RNA: NC_067493.1(несколько находок) - uncharacterized LOC127673423, fatty acid-binding protein 12-like, zinc finger protein 878-like, fatty acid-binding protein 12-like, zinc finger protein 431-like, NC_067487.1 - rRNA-28S ribosomal RNA(не гомолог!!!) - почти все находоки из этой хромосомы падали на эту кодирующую область, NC_067484.1 - неаннторирвоанные области(все находки), NC_067486.1 - CRACD-like protein, NC_067495.1 - uncharacterized LOC127675455, NC_067477.1 - mRNA-myoferlin-like, myoferlin-like, NC_067475.1 - mRNA-LDL receptor related protein 1B, NC_067479.1 - uncharacterized LOC127690765. Таким образом, тут гомологов не нашлось.

Выше был выбран blastn так как на вход подаётся нуклеотидная последовательность РНК и нужно найти её гомологи в нуклеотидной базе данных.

16s рРНК входит в состав малой субъединицы прокариотической рибосомы, 23 рРНК в состав большой субъединицы. Наш найденный гомолог 16S RNA - 18S RNA, которая входит в состав малой субъединицы эукариотической хромосомы.