Онлайн BLAST
Для того, чтобы определить бактерию, из генома которой был взят выданный мне фрагмент, была использована программа megablast на сайте NCBI. В качестве банка был выбран "refseq_genomic", поиск был ограничен археями и бактериями. В разделе Filters and Masking была снята отметка с параметра Low complexity regions.
В итоге было найдено 69 последовательностей, которые на 100% совпадали с исходной. Все они были из генома энтеробактерии Shigella flexneri. Так как показатели для всех этих результатов были абсолютно одинаковыми, было решено выбрать штамм, чей геном полностью собран, например, Shigella flexneri 2002017 (NC_017328.1). Состояние сборки геномов других штаммов можно посмотреть здесь.
Далее был выбран человеческий белок YA043_HUMAN (Swiss-Prot). Это хорошо аннотированный трансмембранный белок, для которого расшифрована 3D-структура. Загрузить его нуклеотидную последовательность можно, нажав на его название.
Использованные команды:
infoseq sw:ya*_human -only -name -desc -out ya.txt; sw:ya043_human -auto
С помощью сервиса ENA был проведён поиск гомолога белка YA043_HUMAN в геноме африканского слона (Loxodonta africana). Для этого был выбран чекбокс "spliced translated nucleotide search" (поиск не отдельных экзонов, а белка полностью), в графе "Collection" — "Loxodonta_africana".
Всего было найдено 2 гомолога. E-value для лучшей находки — 8x10-35, длина полученного выравнивания — 96; identity — 78%. Координаты найденного гена в геноме слона: 13985031<-13984744. Интронов обнаружено не было. Ниже представлено выравнивание исходного гена и гена из слона:
29 : ProSerProArgSerGluMetAsnSerSerValGlyAspLeuGlyValGlyGly : 46
|||!!! !!:!|||! |||||||||||| !!||||||||||||..!||||||
ProArg***LysSerGlyMetAsnSerSerPheGlyAspLeuGlyThrGlyGly
13985031 : CCCAGGTAAAAGTCAGGTATGAACAGCAGCTTTGGAGACCTGGGTACTGGCGGC : 13984980
47 : CysSerLeuTrpAspAspProAlaArgPheIleValValProAlaAlaTyrAla : 64
||||||! !|||||||||||||||||||||||||||||||||.!!|||||||||
CysSerProTrpAspAspProAlaArgPheIleValValProThrAlaTyrAla
13984979 : TGCAGCCCTTGGGATGACCCTGCTCGCTTCATCGTGGTGCCTACGGCCTACGCC : 13984926
65 : LeuAlaLeuGlyLeuGlyLeuProAlaAsnValAlaAlaLeuAlaMetPheIle : 82
||||||||||||||||||||||||:!!||||||||||||||||||:!!|||:!!
LeuAlaLeuGlyLeuGlyLeuProSerAsnValAlaAlaLeuAlaValPheLeu
13984925 : CTAGCGCTGGGCTTGGGGCTGCCCTCCAATGTGGCCGCCCTGGCAGTGTTCCTC : 13984872
83 : ArgSerGlyGlyArgLeuGlyGlnAlaLeuLeuLeuTyrLeuPheAsnLeuAla : 100
||||||||||||||||||||||||||||||! !|||||||||.!!|||||||||
ArgSerGlyGlyArgLeuGlyGlnAlaLeuArgLeuTyrLeuLeuAsnLeuAla
13984871 : CGCAGTGGTGGGCGCCTAGGCCAGGCCCTACGTCTCTACCTGCTCAACTTGGCC : 13984818
101 : LeuValAspGluPhePheThrLeuThrLeuGlnLeuTrpLeuThrTyrTyrLeu : 118
|||!.!|||! !.!!|||||||||||||||! !|||||||||||||||||||||
LeuAlaAspValLeuPheThrLeuThrLeuProLeuTrpLeuThrTyrTyrLeu
13984817 : CTGGCCGACGTGCTTTTCACGCTCACGCTACCGCTGTGGCTCACCTACTACCTG : 13984764
119 : GlyLeuAlaArgArgPro : 124
|||! !|||!.! !!|||
GlyProAlaHisTrpPro
13984763 : GGCCCGGCCCACTGGCCC : 13984744
Из файла с последовательностями РНК бактерии Chloroflexus aurantiacus J-10-fl, с которой я долго и упорно работала в первом семестре, была вырезана в отдельный файл тРНК.
В дальнейшем по последовательности этой тРНК был произведён поиск гомологов тремя вариантами: алгоритмом megablast, алгоритмом blastn с параметрами по умолчанию, алгоритмом blastn с длиной слова = 7, match/mismatch = 1/-1 (самые чувствительные параметры на сайте).
Поиск производился внутри порядка Chloroflexales в банке данных refseq_genomic. Ниже приведена краткая статистика для каждого поиска.
- megablast: число находок с e-value < 0,001 — 5 из 5, самый большой e-value — 2x10-24
- blastn (параметры по умолчанию): число находок с e-value < 0,001 — 7 из 14, самый большой e-value — 6x10-19
- blastn (самые чувствительные параметры): число находок с e-value < 0,001 — 13 из 24, самый большой e-value — 8x10-5
По результатам видно, что megablast более строг в поиске гомологов, чем blastn. Все последовательности, найденные по алгоритму megablast совпадают на 100% с поданной, что не может не радовать.