Практикум девятый
Герои сегодняшней сцены
Сегодня мы рассмотрим (предположительно) гомологичные белки E. Coli K12 и B. Subtilis 168:
- фактор терминации транскрипции Rho (его также можно называть ATP-зависимой хеликазою Rho): ECOLI, BACSU
- аминофосфорибозил-трансфераза (глутамин-фосфорибозилпирофосфат-амидотрансфераза): ECOLI, BACSU
- Хромосомный фактор инициации рекликации DnaA: ECOLI, BACSU
Глобальное парное выравнивание
Protein name | ID1 | ID2 | Score | Identity, % | Similarity, % | Gaps | Indels | |
---|---|---|---|---|---|---|---|---|
1 | RHO | RHO_ECOLI | RHO_BACSU | 1120 | 54,6 | 73,3 | 22 | 6 |
2 | PUR1 | PUR1_ECOLI | PUR1_BACSU | 814.5 | 37.6 | 54.1 | 55 | 14 |
3 | DNAA | DNAA_ECOLI | DNAA_BACSU | 990 | 42,3 | 61,9 | 43 | 9 |
Локальное парное выравнивание
Protein name | ID1 | ID2 | Score | Ident, % | Sim, % | Gaps | Indels | Cov1 | Cov2 | |
---|---|---|---|---|---|---|---|---|---|---|
1 | RHO | RHO_ECOLI | RHO_BACSU | 1220 | 56,6 | 75,9 | 8 | 4 | 0,998 | 0,965 |
2 | PUR1 | PUR1_ECOLI | PUR1_BACSU | 821.5 | 40.6 | 57.7 | 26 | 11 | 0,927 | 0,941 |
3 | DNAA | DNAA_ECOLI | DNAA_BACSU | 994 | 43,6 | 63,5 | 33 | 7 | 0,972 | 0,984 |
Как считались индели?
Соответствующий скрипт доступен на kodomo проверяющему по адресу~/term2/indels/indels.py
или по ссылке всем желающим.
Сценарий удовлетворяет всем предъявленным требованиям, исключая входной формат файла: это .fasta
.
Пример исполнения сценария:
a.k.rybakov@kodomo:~/term2/pr9/ndl$ ../../indels/indels.py f-dnaa
DNAA_ECOLI: 4
DNAA_BACSU: 5
Total: 9
Парные глобальное и локальное выравнивания негомологичных белков
Локальное парное выравнивание
# | Alignment type | ID1 | ID2 | Score | Ident, % | Sim, % | Gaps | Indels | Cov1 | Cov2 |
---|---|---|---|---|---|---|---|---|---|---|
1 | Global | PUR1_BACSU | HIS1_BACSU | 55 | 12,8 | 22 | 293 | 22 | 1 (def) | 1 (def) |
2 | Local | PUR1_BACSU | HIS1_BACSU | 67 | 24,3 | 38,2 | 39 | 7 | 0,303 | 0,765 |
Множественное выравнивание
Устроим эту процедуру для белков, называемых Rho-факторами терминации транскрипции. Посвятим же следующий блок кода поиску количества белков, мнемоника которых начинается с 'RHO_' и множественному выравниванию семи из них:
a.k.rybakov@kodomo:~/term2/pr9/Mult$ infoseq 'sw:RHO_*' -only -name -nohead -out FamilyRHO.txt
Display basic information about sequences
a.k.rybakov@kodomo:~/term2/pr9/Mult$ cat FamilyRHO.txt | wc -l
48
Выбрав 7 белков и организовав их мнемоники в файл
FriendsRHO.txt, продолжаем:
a.k.rybakov@kodomo:~/term2/pr9/Mult$ seqret @FriendsRHO.txt SeqsRHO.txt
Read and write (return) sequences
a.k.rybakov@kodomo:~/term2/pr9/Mult$
a.k.rybakov@kodomo:~/term2/pr9/Mult$ muscle -in SeqsRHO.txt -out MultRHO.fasta
Полученное выравнивание визулизировано в Jalview и раскрашено по проценту идентичности.
7 выровненных белков принадлежат следующим организмам:- Gemmatimonas aurantiaca - 'GEMAT'
- Mycobacterium tuberculosis - 'RICCN'
- E. Coli - 'ECOLI'
- Mycobacterium tuberculosis - 'MYCTO'
- Thermotoga maritima - 'THEMA'
- B. subtilis - 'BACSU'
- Neisseria gonorrhoeae - 'NEIGO'
Выравнивание показывает, что наиболее отличен от всех Rho-фактор G. aurantiaca: около 5 больших инделей делают этот белок длиннее с N-конца на примерно 300 аминокислот. Интересно, какое состояние первично - "длинное" или "короткое"? В пределах от 380 до 700 координаты выравнивания лежит участок, который с уверенностью можно назвать консервативным.