Выравнивание двух последовательностей: из базы данных RefSeq и PDB

Выравнивание двух последовательностей белка дисульфидного обмена Chlorobium tepidum TLS: из базы данных RefSeq и PDB

Последовательность, полученная в первом семестре (база данных RefSeq) - NP_661963.1.fasta .

Последовательность того же самого белка из базы данных PDB - 3GL3.fasta

Выравнивать будем с помощью вот этого ресурса. Результаты:

                   170 aa vs. 152 aa
                                               
scoring matrix: , gap penalties: -12/-2
80.3% identity;		Global alignment score: 893

               10        20        30        40        50        60
778106 MKRSTLSTCRVALFALVLSVGLSANAHALDKGDKAPDFALPGKTGVVKLSDKTGSVVYLD
       :                          .::::::::::::::::::::::::::::::::
_      M--------------------------SLDKGDKAPDFALPGKTGVVKLSDKTGSVVYLD
                                         10        20        30    

               70        80        90       100       110       120
778106 FWASWCGPCRQSFPWMNQMQAKYKAKGFQVVAVNLDAKTGDAMKFLAQVPAEFTVAFDPK
       ::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::
_      FWASWCGPCRQSFPWMNQMQAKYKAKGFQVVAVNLDAKTGDAMKFLAQVPAEFTVAFDPK
           40        50        60        70        80        90    

              130       140       150       160       170        
778106 GQTPRLYGVKGMPTSFLIDRNGKVLLQHVGFRPADKEALEQQILAALGGN--------
       ::::::::::::::::::::::::::::::::::::::::::::::::::        
_      GQTPRLYGVKGMPTSFLIDRNGKVLLQHVGFRPADKEALEQQILAALGGNEGHHHHHH
          100       110       120       130       140       150

Верхняя строчка - файл fasta-последовательности из базы данных RefSeq (ncbi). Нижняя строчка - файла fasta-последовательности из базы данных PDB.

В моём белке 4 одинаковых цепи, поэтому выравнивания по всем цепям давали одинаковый результат. Выше приведено выравнивание для цепи А и fasta-файла RefSeq. Совпадение 80.3%, на мой взгляд, довольно большое. Отличия, как мы видим, только в начале и конце. Я думаю, эти отличия связаны с разными методами секвенирования. Последовательность из базы данных Refseq учёные узнали с помощью метода "conceptual translation", то есть полипептидную цепь восстанавливали по мРНК. А последовательность №2 секвенировали методом рентгеноструктурного анализа.