Практикум 9

Выравнивание последовательностей

1. Программа подсчёта инделей

Для подсчета инделей для выполнения заданий практикума был написан скрипт на питоне:


from sys import argv

with open(argv[1], 'r', encoding='utf-8') as f:
    for line in f:
        if not line.startswith('#'):
            line = f.readline()
            lines = f.readlines()
            lines = [l for l in lines if not l.startswith('#') and l.strip()]

            first = lines[0].split()[0]
            second = lines[2].split()[0]

            a = 0
            b = 0
            
   
            one = lines[::3]   
            two = lines[2::3]  

            seq1 = []
            seq2 = []

            for line in one:
                parts = line.split()
                q = parts[-2]         
                seq1.append(q)         

            for line in two:
                parts = line.split()
                w = parts[-2]
                seq2.append(w)

  
            w1 = ''.join(seq1)
            w2 = ''.join(seq2)

           
            prev = ''
            for g in w1:
                if g == '-' and prev != '-':
                    a += 1
                prev = g

      
            prev = ''
            for g in w2:
                if g == '-' and prev != '-':
                    b += 1
                prev = g

            print(f"{first} {a}")
            print(f"{second} {b}")
            print(f"Total {a+b}")
            break

Для выполнения следующих заданий были выбраны белки с мнемониками ACCA, LIPA и MENA. Далее мы сделали парные глобальные и локальные выравнивания с помощью программ needle и water соответственно. Результаты приведены в таблицах.

2. Глобальное парное выравнивание гомологичных белков

Таблица 1. Характеристики глобального парного выравнивания трёх пар белков
Protein Name ID 1 ID 2 Score % Identity % Similarity Gaps Indels
carboxylase ACCA_ECOLI ACCA_BACSU 814.5 51.1 66.0 14 4
lipoyl synthase LIPA_ECOLI LIPA_BACSU 747.0 46.5 59.0 35 5
octaprenyltransferase MENA_ECOLI MENA_BACSU 242.0 24.9 43.4 49 12

3. Локальное парное выравнивание гомологичных белков

Таблица 2. Характеристики локального парного выравнивания трёх пар белков
Protein Name ID 1 ID 2 Score % Identity % Similarity Gaps Indels Coverage 1 Coverage 2
carboxylase ACCA_ECOLI ACCA_BACSU 823.5 53.8 69.6 3 2 97.8 95.1
lipoyl synthase LIPA_ECOLI LIPA_BACSU 748.0 52.8 67.1 3 3 88.8 95.3
octaprenyltransferase MENA_ECOLI MENA_BACSU 245.0 26.2 45.4 38 10 97.7 94.9

Скорее всего, белки ACCA и LIPA являются гомологичными по всей длине, т.к. имеют высокий процент идентичности как при локальном, так и при глобальном выравнивании. Белки MENA, возможно, также являются гомологичными. Они имеют относительно низкий процент идентичности, но довольно высокий процент Similarity. При локальном выравнивании параметры получились схожими, но процент покрытия очень высокий. Это может говорить о том, что белки являются гомологичными, но имеют не много консервативных участков. В случае белков ACCA и LIPA локальное выравнивание по сравнению с глобальным не информативно, а в случае белков MENA информативно, т.к. показывает, что белки могут быть гомологичны.

Далее мы сделали глобальное и локальное выравнивание пары неродственных белков ACP_ECOLI (Acyl carrier protein) и PSIE_BACSU (Protein PsiE). Результаты представлены в таблице

Результат применения программ выравнивания к неродственным белкам

Таблица 3. Характеристики парного выравнивания пары неродственных белков
Protein Name ID 1 ID 2 Score % Identity % Similarity Gaps Indels Coverage 1 Coverage 2
needle ACP_ECOLI PSIE_BACSU 10.0 1.0 1.4 204 4 - -
water 18.0 57.1 71.4 0 0 9.0 5.1

При глобальном выравнивании мы видим очень низкий score и процент идентичности, что логично, т.к. исследованные белки не гомологичны. Локальное выравнивание показало достаточно высокий процент идентичности, однако это произошло из-за того, что похожие участки имеют очень маленькую длину (7 аминокислот).

Множественное выравнивание белков

Для задания 6 была выбрана мнемоника LIPA (Lipoyl synthase). Всего белков с такой мнемоникой из кластера UniRef100 было найдено 439. Были выбраны белки LIPA_ECOLI, LIPA_BACSU, LIPA_PELPD, LIPA_AZOSB, LIPA_RICAH, LIPA_SALAR, LIPA_GEODF. Все белки выровнены хорошо, они гомологичны, есть высококонсервативные участки: 66-82, 88-106, 134-149, 191-214, 233-244, 266-271, 305-315. Ознакомиться с выравниванием можно по ссылке.