Матрицы аминокислотных замен. Карта локального сходства

Карта локального сходства 2 полипротеинов

Карта локального сходства геномных полипротеинов Poliovirus type 1 (strain Mahoney) (по оси абсцисс) и Foot-and-mouth disease virus (strain A10-61) (Aphthovirus A) (по оси ординат):

Характеристики 2 лучших блоков локального выравнивания:

Block №Length 1*Length 2*Mature Protein 1*Mature Protein 2*ScoreScore in bits% Identity% PositivesGaps
1615644Protease 3C, RNA-directed RNA polymerasePicornain 3C, RNA-directed RNA polymerase 3D-POL638250 bits29%48%59
2277263Protein 2CProtein 2C397157 bits37%51%26

* 1 - относится к вирусу полиомиелита, 2 - относится к вирусу ящура

Сравнение веса выравнивания со случайным

Гомологичность выровненных последовательностей оценивается с помощью p-value выравнивания - вероятности получить больший или такой же вес при выравнивании одной из исходных последовательностей с последовательностью, полученной случайным перемешиванием букв другой исходной последовательности. p-value рассчитывается по формуле:
p-value = 2-B , где B - вес выравнивания в битах, который, в свою очередь, рассчитывается из статистических данных:
B = 1 + (S - M)/(Q1 - M) , где
S - вес исходного выравнивания, M - медиана весов выравнивания первой последовательности с много раз случайно перемешанной второй, Q1 - верхний квартиль этих весов.

Оценка локального выравнивания предположительно гомологичных факторов сопряжения транскрипции и репарации Escherichia coli и Bacillus subtilis:

ID1MFD_ECOLI
ID2MFD_BACSU
Score1857.0
M103.25
Q1117.25
Bits126.27

p-value9.8e-39

Оценка локального выравнивания предположительно негомологичных декарбоксилирующей 6-фосфоглюконатдегидрогеназы Escherichia coli и пантотенаткиназы Bacillus subtilis:

ID16PGD_ECOLI
ID2COAA_BACSU
Score51.0
M48.0
Q153.25
Bits1.57

p-value0.34

Проверка формулы для перевода веса в биты

Формула B = 1 + (S - M)/(Q1 - M) даёт оценку (через p-value) случайности появления выравнивания данного веса. Соответсвенно, если вес исходного выравнивания составляет уровень верхней 1/8 (O1) весов любого количества случайных выравниваний, то вероятность получить случайное выравнивание с таким же или больше весом должна быть p = 1/8 = 2^(-3), значит, этот вес соответствует 3 битам. Проверим формулу для 1000 случайных последовательностей и веса гипотетического локального выравнивания (исходной последовательности со специально подобранной случайной последовательностью), равному уровню верхней 1/8 весов локальных выравниваний исходной последовательности с этой 1000 случайных последовательностей:

ID1CHLE_MIMIV
ID shuffledCHLE_HUMAN
Hypothetical Score = O172.5
M59.0
Q167.5

Bits = 1 + (O1 - M)/(Q1 - M) = 1 + (72.5 - 59.0)/(67.5 - 59.0) = 2.59

Полученный счёт в битах заметно отличается от теоретического значения, хотя p-value = 16.6%, не так уж сильно отличается от теоретического p = 1/8 = 12.5% - формула для перевода веса выравнивания в биты даёт погрешность, но всё же достаточно точная (особенно, если учитывать то, что p-value позволяет дать лишь приблизительную оценку гомологичности белков, и часто важен только порядок его значения).

Методы:

Последовательности были перемешаны программой shuffleseq. Локальное выравнивание исходной последовательности с перемешанными осуществлялось программой water с параметрами по умолчанию. Сортированный список весов выравниваний со случайными последовательностями составлялся конвейером grep "Score" [input_alignments.fasta] | sed -r "s/[^.0-9]//g" | sort -g > [score_list.scores]. Нужные веса извлекались из списка программой sed по номеру строки. Все промежуточные файлы лежат в директории ~stepan_puhov/term2/block3/pr10.

BLAST: поиск гомологов в банке

2 белка из банка Swiss_Prot, наиболее сходных с предположительной аминометилтрансферазой Pseudomonas putida strain ATCC 47054 (Name: Putative Aminomethyltransferase; UniProt AC: Q88LI8):

  • NameAminomethyltransferase
    UniProt IDGCST_CALS4
    UniProt ACQ8RCV9
    ОрганизмCaldanaerobacter subterraneus subsp. tengcongensis strain DSM 15242 (Thermoanaerobacter tengcongensis)

    Характеристики выравнивания с белком P. putida:

    Query Length*Subject Length*ScoreScore in bitsExpect% Identity% PositivesGapsQuery Coverage*
    39233122892.4 bits2e-1924%40%8892%

  • NameAminomethyltransferase
    UniProt IDGCST_THEP3
    UniProt ACB0KD95
    ОрганизмThermoanaerobacter pseudethanolicus strain ATCC 33223 (Clostridium thermohydrosulfuricum)

    Характеристики выравнивания с белком P. putida:

    Query Length*Subject Length*ScoreScore in bitsExpect% Identity% PositivesGapsQuery Coverage*
    39333321989.0 bits3e-1823%42%8892%

    *Query - исходный белок, Subject - находка, предполагаемый гомолог исходного белка

Замечание:

Исходный белок (Query) принадлежит Pseudomonas putida, относящейся к классу Gammaproteobacteria отдела Proteobacteria группы дидермных ("грамотрицательных") бактерий. Однако среди представленных 50 находок первые 36 являются аминометилтрансферазами монодермных ("грамположительных") бактерий (в основном отдел Firmicutes, реже отдел Thermotogae и отдел Actinobacteria), почти для всех этих находок процент идентичности около 22% и довольно большое покрытие исходного белка - около 93%. Только с 37-находки начинают появляться аминометилтрансферазы дидермных бактерий (в основном отделы Cyanobacteria и Proteobacteria, а также отдел Spirochaetea), также присутствуют регуляторная суб'единица митохондриальной фосфатазы пируват дегидрогеназы 3 видов позвоночных (предки митохондрий относятся к классу Alphaproteobacteria отдела Proteobacteria), тем не менее хотя процент идентичности этих находок даже несколько больше, покрытие исходного белка значительно уменьшается: менее 73%, в среднем около 55-60%, E-value также больше такового для белков монодермных бактерий, начиная с 9e-08 и достигает значений порядка единиц. Можно предположить, что фермент псевдомонады имеет больше гомолгичных доменов с аминометилтрансферазами монодермных бактерий, чем с ферментами протеобактерий, и, возможно, был получен от монодермных бактерий путём горизонтального переноса генов.

Главная страница


© Степан Пухов

2018