Практикум девятый

Герои сегодняшней сцены

Сегодня мы рассмотрим (предположительно) гомологичные белки E. Coli K12 и B. Subtilis 168:

  • фактор терминации транскрипции Rho (его также можно называть ATP-зависимой хеликазою Rho): ECOLI, BACSU
  • аминофосфорибозил-трансфераза (глутамин-фосфорибозилпирофосфат-амидотрансфераза): ECOLI, BACSU
  • Хромосомный фактор инициации рекликации DnaA: ECOLI, BACSU

Глобальное парное выравнивание

Protein name ID1 ID2 Score Identity, % Similarity, % Gaps Indels
1 RHO RHO_ECOLI RHO_BACSU 1120 54,6 73,3 22 6
2 PUR1 PUR1_ECOLI PUR1_BACSU 814.5 37.6 54.1 55 14
3 DNAA DNAA_ECOLI DNAA_BACSU 990 42,3 61,9 43 9
Табл. 1. Результаты парного глобального выравнивания выявляют большое количество синонимичных замен во всех трёх парах.

Локальное парное выравнивание

Protein name ID1 ID2 Score Ident, % Sim, % Gaps Indels Cov1 Cov2
1 RHO RHO_ECOLI RHO_BACSU 1220 56,6 75,9 8 4 0,998 0,965
2 PUR1 PUR1_ECOLI PUR1_BACSU 821.5 40.6 57.7 26 11 0,927 0,941
3 DNAA DNAA_ECOLI DNAA_BACSU 994 43,6 63,5 33 7 0,972 0,984
Табл. 2. Видно, что парное локальное выравнивание, оказывается, соответствует более высоким весу и процентам идентичности и схожести, чем глобальное.

Как считались индели?

Соответствующий скрипт доступен на kodomo проверяющему по адресу ~/term2/indels/indels.py или по ссылке всем желающим. Сценарий удовлетворяет всем предъявленным требованиям, исключая входной формат файла: это .fasta.

Пример исполнения сценария:


a.k.rybakov@kodomo:~/term2/pr9/ndl$ ../../indels/indels.py f-dnaa
DNAA_ECOLI: 4
DNAA_BACSU: 5
Total: 9
            

Парные глобальное и локальное выравнивания негомологичных белков

Локальное парное выравнивание

# Alignment type ID1 ID2 Score Ident, % Sim, % Gaps Indels Cov1 Cov2
1 Global PUR1_BACSU HIS1_BACSU 55 12,8 22 293 22 1 (def) 1 (def)
2 Local PUR1_BACSU HIS1_BACSU 67 24,3 38,2 39 7 0,303 0,765
Табл. 3. Видно, что парное локальное выравнивание оказывается соответствует более высоким весу и процентам идентичности и схожести, чем глобальное. Белки были выбраны неслучайно: хотелось проверить, отразится ли на выравнивании способность обоих белков к связыванию фосфорибозилпирофосфата.

Множественное выравнивание

Устроим эту процедуру для белков, называемых Rho-факторами терминации транскрипции. Посвятим же следующий блок кода поиску количества белков, мнемоника которых начинается с 'RHO_' и множественному выравниванию семи из них:

                
a.k.rybakov@kodomo:~/term2/pr9/Mult$ infoseq 'sw:RHO_*' -only -name -nohead -out FamilyRHO.txt
Display basic information about sequences
a.k.rybakov@kodomo:~/term2/pr9/Mult$ cat FamilyRHO.txt | wc -l
48
                
            
Выбрав 7 белков и организовав их мнемоники в файл FriendsRHO.txt, продолжаем:
                
a.k.rybakov@kodomo:~/term2/pr9/Mult$ seqret @FriendsRHO.txt SeqsRHO.txt
Read and write (return) sequences
a.k.rybakov@kodomo:~/term2/pr9/Mult$
a.k.rybakov@kodomo:~/term2/pr9/Mult$ muscle -in SeqsRHO.txt -out MultRHO.fasta
                
            

Полученное выравнивание визулизировано в Jalview и раскрашено по проценту идентичности.

7 выровненных белков принадлежат следующим организмам:
  • Gemmatimonas aurantiaca - 'GEMAT'
  • Mycobacterium tuberculosis - 'RICCN'
  • E. Coli - 'ECOLI'
  • Mycobacterium tuberculosis - 'MYCTO'
  • Thermotoga maritima - 'THEMA'
  • B. subtilis - 'BACSU'
  • Neisseria gonorrhoeae - 'NEIGO'

Выравнивание показывает, что наиболее отличен от всех Rho-фактор G. aurantiaca: около 5 больших инделей делают этот белок длиннее с N-конца на примерно 300 аминокислот. Интересно, какое состояние первично - "длинное" или "короткое"? В пределах от 380 до 700 координаты выравнивания лежит участок, который с уверенностью можно назвать консервативным.