Онлайн BLAST
Для того, чтобы определить бактерию, из генома которой был взят выданный мне фрагмент, была использована программа megablast на сайте NCBI. В качестве банка был выбран "refseq_genomic", поиск был ограничен археями и бактериями. В разделе Filters and Masking была снята отметка с параметра Low complexity regions.
В итоге было найдено 69 последовательностей, которые на 100% совпадали с исходной. Все они были из генома энтеробактерии Shigella flexneri. Так как показатели для всех этих результатов были абсолютно одинаковыми, было решено выбрать штамм, чей геном полностью собран, например, Shigella flexneri 2002017 (NC_017328.1). Состояние сборки геномов других штаммов можно посмотреть здесь.
Далее был выбран человеческий белок YA043_HUMAN (Swiss-Prot). Это хорошо аннотированный трансмембранный белок, для которого расшифрована 3D-структура. Загрузить его нуклеотидную последовательность можно, нажав на его название.
Использованные команды:
infoseq sw:ya*_human -only -name -desc -out ya.txt; sw:ya043_human -auto
С помощью сервиса ENA был проведён поиск гомолога белка YA043_HUMAN в геноме африканского слона (Loxodonta africana). Для этого был выбран чекбокс "spliced translated nucleotide search" (поиск не отдельных экзонов, а белка полностью), в графе "Collection" — "Loxodonta_africana".
Всего было найдено 2 гомолога. E-value для лучшей находки — 8x10-35, длина полученного выравнивания — 96; identity — 78%. Координаты найденного гена в геноме слона: 13985031<-13984744. Интронов обнаружено не было. Ниже представлено выравнивание исходного гена и гена из слона:
29 : ProSerProArgSerGluMetAsnSerSerValGlyAspLeuGlyValGlyGly : 46 |||!!! !!:!|||! |||||||||||| !!||||||||||||..!|||||| ProArg***LysSerGlyMetAsnSerSerPheGlyAspLeuGlyThrGlyGly 13985031 : CCCAGGTAAAAGTCAGGTATGAACAGCAGCTTTGGAGACCTGGGTACTGGCGGC : 13984980 47 : CysSerLeuTrpAspAspProAlaArgPheIleValValProAlaAlaTyrAla : 64 ||||||! !|||||||||||||||||||||||||||||||||.!!||||||||| CysSerProTrpAspAspProAlaArgPheIleValValProThrAlaTyrAla 13984979 : TGCAGCCCTTGGGATGACCCTGCTCGCTTCATCGTGGTGCCTACGGCCTACGCC : 13984926 65 : LeuAlaLeuGlyLeuGlyLeuProAlaAsnValAlaAlaLeuAlaMetPheIle : 82 ||||||||||||||||||||||||:!!||||||||||||||||||:!!|||:!! LeuAlaLeuGlyLeuGlyLeuProSerAsnValAlaAlaLeuAlaValPheLeu 13984925 : CTAGCGCTGGGCTTGGGGCTGCCCTCCAATGTGGCCGCCCTGGCAGTGTTCCTC : 13984872 83 : ArgSerGlyGlyArgLeuGlyGlnAlaLeuLeuLeuTyrLeuPheAsnLeuAla : 100 ||||||||||||||||||||||||||||||! !|||||||||.!!||||||||| ArgSerGlyGlyArgLeuGlyGlnAlaLeuArgLeuTyrLeuLeuAsnLeuAla 13984871 : CGCAGTGGTGGGCGCCTAGGCCAGGCCCTACGTCTCTACCTGCTCAACTTGGCC : 13984818 101 : LeuValAspGluPhePheThrLeuThrLeuGlnLeuTrpLeuThrTyrTyrLeu : 118 |||!.!|||! !.!!|||||||||||||||! !||||||||||||||||||||| LeuAlaAspValLeuPheThrLeuThrLeuProLeuTrpLeuThrTyrTyrLeu 13984817 : CTGGCCGACGTGCTTTTCACGCTCACGCTACCGCTGTGGCTCACCTACTACCTG : 13984764 119 : GlyLeuAlaArgArgPro : 124 |||! !|||!.! !!||| GlyProAlaHisTrpPro 13984763 : GGCCCGGCCCACTGGCCC : 13984744
Из файла с последовательностями РНК бактерии Chloroflexus aurantiacus J-10-fl, с которой я долго и упорно работала в первом семестре, была вырезана в отдельный файл тРНК.
В дальнейшем по последовательности этой тРНК был произведён поиск гомологов тремя вариантами: алгоритмом megablast, алгоритмом blastn с параметрами по умолчанию, алгоритмом blastn с длиной слова = 7, match/mismatch = 1/-1 (самые чувствительные параметры на сайте).
Поиск производился внутри порядка Chloroflexales в банке данных refseq_genomic. Ниже приведена краткая статистика для каждого поиска.
- megablast: число находок с e-value < 0,001 — 5 из 5, самый большой e-value — 2x10-24
- blastn (параметры по умолчанию): число находок с e-value < 0,001 — 7 из 14, самый большой e-value — 6x10-19
- blastn (самые чувствительные параметры): число находок с e-value < 0,001 — 13 из 24, самый большой e-value — 8x10-5
По результатам видно, что megablast более строг в поиске гомологов, чем blastn. Все последовательности, найденные по алгоритму megablast совпадают на 100% с поданной, что не может не радовать.