Составление репрезентативной выборки гомологов белка PDXT_BACSU при помощи BLAST



Для составления репрезентативной выборки был произведен поиск в BLAST сперва только по прокариотам, исключая "родной" для B.subtilis филум Firmicutes, потом только по эукариотам. Для ограничения количества результатов в обоих случаях был выбран порог E-value=9,00E-06 , поскольку он позволяет исключить очевидно негомологичные последовательности, но не сильно урезает разнообразия подходящих последовательностей. Ниже приведена таблица с результатами поиска.

ПоискАлгоритм BLASTНазвание базы данныхОграничения по таксонамПорог e-valueМаксимальное количество хитовРеальное количество хитов
ProkaryotaBLASTPRefseq исключить Firmicutes
исключить Eukaryota
9,00E-061000792
EukaryotaBLASTPRefseqисключить все кроме Eukaryota9,00E-06250128
Далее приведены таксономические деревья GenBank для организмов, содержащих белки, удовлетворяющие результатам поиска.
Из результатов поиска вручную сделаем выборку из 36 последовательностей такую, чтобы в ней были представлены организмы из каждого филума. Полученную выборку в fasta формате можно скачать по этой ссылке.
Ниже представлена таблица встречаемости белков из выборки в различных таксонах. Розовым выделен исходный белок PDXT_BACSU.
Домен Филум/Царство Название организма Количество белков
Archaea Crenarchaeotes Acidianus hospitalis W1
Hyperthermus butylicus DSM 5456
2
Euryarchaeotes Natronomonas moolapensis 8.8.11 1
Nitrosopumilales Candidatus Nitrosopumilus sp. AR2
Nitrosopumilus maritimus SCM1
2
Bacteria Actinobacteria Propionibacterium avidum 44067
Bifidobacterium breve UCC2003
2
Acidobacteriales Granulicella tundricola MP5ACTX9
Terriglobus roseus DSM 18391
2
Deinococcales Truepera radiovictrix DSM 17093
Deinococcus peraridilitoris DSM 19664
2
Firmicutes Bacillus subtilis subsp. subtilis str. 168 (PDXT_BACSU) 1
Fusobacteria Sebaldella termitidis ATCC 33386
Streptobacillus moniliformis DSM 12112
2
GNS bacteria Anaerolinea thermophila UNI-1
Caldilinea aerophila DSM 14535 = NBRC 104270
2
Proteobacteria Bibersteinia trehalosi USDA-ARS-USMARC-192 1
Spirochaetes Spirochaeta thermophila DSM 6578
Treponema succinifaciens DSM 2489
2
Synergistales Thermovirga lienii DSM 17291 1
Thermales Thermus sp. CCB_US3_UF1
Thermus scotoductus SA-01
2
Thermotogales Thermosipho africanus TCF52B
Thermosipho melanesiensis BI429
1
Eukaryotes Acantamoeba Acanthamoeba castellanii str. Neff 1
Animals Ciona intestinalis 1
Apicomplexa Toxoplasma gondii ME49 1
Capsaspora Capsaspora owczarzaki ATCC 30864 1
Cellular slime molds Dictyostelium fasciculatum 1
Choanoflagellates Monosiga brevicollis MX1 1
Ciliates Ichthyophthirius multifiliis 1
Diatoms Thalassiosira pseudonana CCMP1335 1
Fungi Schizosaccharomyces pombe 972h- 1
Viridiplantae Zea mays 1
Oomycetes Phytophthora infestans T30-4 1
Perkinsida Perkinsus marinus ATCC 50983 1
Скачать таксономические деревья для организмов выборки, построенные с помощью NCBI taxonomy можно скачать по следующим ссылкам: для прокариот и для эукариот.
Ниже представлены таксономические деревья GenBank для организмов выборки.

Построение и анализ множественного выравнивания средствами JalView



Для белков выборки в JalView было построено множественное выравнивание при помощи веб-сервиса Muscle при стандартных настройках. Ознакомиться с полученным выравниванием можно по этой картинке. Аминокислотные остатки были окрашены в соответствии со свойствами бокового радикала.Последовательность PDXT_BACSU была проассоциирована со своей трехмерной структурой из банка PDB (2NV0).После были добавлены дополнительные строки аннотации:


Ознакомится с результатом можно по этой картинке или на этой странице. В целом, выравнивание получилось хорошее, поскольку содержит много консервативных участков. Большинство блоков соответствуют элементам вторичной структуры (особенно консервативны бета-листы), вероятно, ввиду их функциональной важности. Колонки, состоящие из ГЭПов либо обусловлены вставкой одной единственной аминокислоты у одного единственного белка (такое бывает достаточно редко), либо всттречаются в не очень консервативных участках между элементами вторичной структуры. Особенно консервативны аминокислотные остатки активного центра и его окрестностей(совсем не меняются), ибо они непосредственно ответственны за функциональность белка. Для наглядности представлена трехмерная структура белка с аминокислотными остатками, раскрашенными так же, как и в выравнивании.
скачать проект JalView можно здесь