1) Работа в командной строке Linux:
2) Построить и сравнить оптимальные глобальное и оптимальное локальное выравнивание 2-х последовательностей.
а) Построить полное (глобальное) оптимальное выравнивание с помощью программы needle пакета EMBOSS:
Глобальное выравнивание строится по всей длине сравниваемых последовательностей, существует единственное оптимальное глобальное выравнивание.
Пользуясь программой seqret, создаем файл с последовательностью аминокислот в фаста-формате белка Q21SJ0(PURT_RHOFD) - родственного белку P33221(PURT_ECOLI) (на основании записи в базе данных UniProt): оба белка выполняют идентичную функцию - ферменты трансформилазы, участвующие в биосинтезе пуринов, имеют АТФ-связывающий домен, связывают магний. Но белки принадлежат разным организмам PURT_RHOFD из Rhodoferax ferrireducens, а PURT_ECOLI из Escherichia coli, для белка E. Coli есть 3D-модель, для белка Rhodoferax ferrireducens - нет.
Для выравнивания используем программу needle, название файла с результатом aln_needle.needle, файл содержит: название рабочей программы, дату и время выполнения сравнения, название входящих файлов, название выходящего файла (с результатами), название матрицы, используемой для штрафов и определения веса (BLOSUM62), показаны штрафы за гэп (10,0) и за гэп длины больше, чем 1 (0,5), длина выравнивания: 412, процент идентичности последовательностей: 57,5%, процент сходства последовательностей: 65,8%, число гэпов: 24(5,8%), вес выравнивания: 1042,0, файл содержит также само выравнивание: | обозначаются идентичные аминокислоты, . означат неблизкородственные замены аминокислот (цена такой замены не положительна), : означает - близкородственную замену аминокислот.
Задание штрафов за гэпы, отличных от заданных по умолчанию:
Выходной файл - aln1_needle.needle. Штрафы увеличены в 2 раза: стало за гэп - 20,0, а за гэп длины больше, чем 1 - 1,0. Выравнивание изменилось: оптимальное выравнивание теперь имеет длину: 409, процент идентичности последовательностей: 56,5%, процент сходства последовательностей: 65,0%, число гэпов: 18(4,4%), вес выравнивания: 964.
Получение выдачи в формате, пригодном для импорта в GeneDoc: Выходной файл - aln_needle.msf. Программ needle запущена с опцией -auto (для задания штрафов автоматически), с опцией -aformat msf.
* 20 * 40 * PURT_ECOLI : MTLLGTALRPAATRVMLLGSGELGKEVAIECQRLGVEVIAVDRYADAPAMHVAH : 54 PURT_RHOFD : MTTLGTPLSHHATKVMLLGSGELGKEVIIALQRLGVETIAVDRYNHAPGQQVAH : 54 MT LGT L AT4VMLLGSGELGKEV I QRLGVE IAVDRY AP VAH 60 * 80 * 100 PURT_ECOLI : RSHVINMLDGDALRRVVELEKPHYIVPEIEAIATDMLIQLEEEG-LNVVPCARA : 107 PURT_RHOFD : HTRTITMSDPALLKALIQAEKPDLVVPEIEAIATPMLEVLEATGVVRVIPTARA : 108 3 I M D L4 662 EKP 6VPEIEAIAT ML LE G 6 V6P ARA * 120 * 140 * 160 PURT_ECOLI : TKLTMNREGIRRLAAEELQLPTSTYRFADS-ESLFREAVADIGYPCIVKPVMSS : 160 PURT_RHOFD : ARLTMDREGIRRLAAETLGLPTSPYQFCDSFEELQAAIEGGIGYPCIVKPVMSS : 162 4LTM1REGIRRLAAE L LPTS Y F DS E L IGYPCIVKPVMSS * 180 * 200 * PURT_ECOLI : SGKGQTFIRSAEQLAQAWKYAQQGGRAGAGRVIVEGVVKFDFEITLLTVSA--V : 212 PURT_RHOFD : SGKGQSKISGPADVQKAWDYAMAGGRVSHGRVIVEGFIDFDYEITLLTVRAKGA : 216 SGKGQ3 I 6 AW YA GGR GRVIVEG 6 FD5EITLLTV A 220 * 240 * 260 * PURT_ECOLI : DG---VHFCAPVGHRQEDGDYRESWQPQQMSPLALERAQEIARKVVLALG---- : 259 PURT_RHOFD : DGQIETHFCEPVGHLQVNGDYVESWQPHPMHPAALERARHIAKTVTDDLGIAVD : 270 DG HFC PVGH Q 1GDY ESWQP M P ALERA IA4 V LG 280 * 300 * 320 PURT_ECOLI : ----GYGLFGVELFVCGDEVIFSEVSPRPHDTGMVTLISQDLSEFALHVRAFLG : 309 PURT_RHOFD : GQASGLGIFGVELFVKGEQVWFSEVSPRPHDTGLVTLTTQWQSEFELHARAILG : 324 G G6FGVELFV G 2V FSEVSPRPHDTG6VTL 3Q SEF LH RA LG * 340 * 360 * 3 PURT_ECOLI : LPVG-GIRQYGPAASAVILPQLTSQNVTFDNVQNAV---GADLQIRLFGKPEID : 359 PURT_RHOFD : LPVNTALR--NPGASAVIYGGVDAKGIVFDGVDEALRVPGTDL--RLFGKPESF : 374 LPV 6R P ASAVI 6 6 FD V A6 G DL RLFGKPE 80 * 400 * PURT_ECOLI : GSRRLGVALATAESVVDAIERAKHAAGQVKVQG~ : 392 PURT_RHOFD : VKRRMGVALAAHADVEQARVNAKLAASKVKPRAA : 408 RR6GVALA V A AK AA VK
Файл с двойными штрафами в msf-формате: aln1_needle.msf.
б) Построить локальное (частичное) оптимальное выравнивание тех же последовательностей с помощью программы water пакета EMBOSS:
Локальных оптимальных выравниваний уже может быть несколько, поскольку происходит сравнение не по всей длине последовательностей, а поиск похожих фрагментов, без усреднений на весь белок.
Выравнивания со стандартными штрафами (за гэп - 10,0, а гэп, длина которого больше 1 - 0,5): aln_water.water, в msf-формате: aln_water.msf.
Выравнивания с двойными штрафами: aln_big_water.water, aln_big_water.msf.
Выравнивания с штрафами в 2 раза меньше, чем стандартными: aln_small_water.water, aln_small_water.msf.
Сравнение полученных результатов:
Во время глобального выравнивания, находится наиболее оптимальное выравнивание последовательностей по всей их длине. Однако сравниваемые белки могут содержать домены со сходными функциями, но с разным расположением относительно друг друга, локальное выравнивание позволяет учесть это, ведь выравнивая последовательности глобально, можно разделить сходные домены белков, чтобы уменьшить число гэпов.
с штрафами по умолчанию:
* 180 * 200 * 220 * 240 PURT_ECOLI : QTFIRSAEQLAQAWKYAQQGGRAGAGRVIVEGVVKFDFEITLLTVSA--VDG---VHFCAPVGHRQEDGDYRESWQPQQMSPL : 242 PURT_RHOFD : QSKISGPADVQKAWDYAMAGGRVSHGRVIVEGFIDFDYEITLLTVRAKGADGQIETHFCEPVGHLQVNGDYVESWQPHPMHPA : 249 Q3 I 6 AW YA GGR GRVIVEG 6 FD5EITLLTV A DG HFC PVGH Q 1GDY ESWQP M P
с увеличенными штрафами:
* 180 * 200 * 220 * 240 PURT_ECOLI : QTFIRSAEQLAQAWKYAQQGGRAGAGRVIVEGVVKFDFEITLLTVSAVDG-----VHFCAPVGHRQEDGDYRESWQPQQMSPL : 242 PURT_RHOFD : QSKISGPADVQKAWDYAMAGGRVSHGRVIVEGFIDFDYEITLLTVRAKGADGQIETHFCEPVGHLQVNGDYVESWQPHPMHPA : 249 Q3 I 6 AW YA GGR GRVIVEG 6 FD5EITLLTV A HFC PVGH Q 1GDY ESWQP M P
с штрафами по умолчанию:
* 100 * 120 * 140 * 160 PURT_ECOLI : EAIATDMLIQLEEEG-LNVVPCARATKLTMNREGIRRLAAEELQLPTSTYRFADS-ESLFREAVADIGYPCIVKPVMSSSGKG : 164 PURT_RHOFD : EAIATPMLEVLEATGVVRVIPTARAARLTMDREGIRRLAAETLGLPTSPYQFCDSFEELQAAIEGGIGYPCIVKPVMSSSGKG : 166 EAIAT ML LE G 6 V6P ARA 4LTM1REGIRRLAAE L LPTS Y F DS E L IGYPCIVKPVMSSSGKG
с уменьшенными в 2 раза штрафами:
* 100 * 120 * 140 * 160 PURT_ECOLI : EAIATDMLIQLEEEG-LNVVPCARATKLTMNREGIRRLAAEELQLPTSTYRFADSESLFRE---AV-ADIGYPCIVKPVMSSS : 161 PURT_RHOFD : EAIATPMLEVLEATGVVRVIPTARAARLTMDREGIRRLAAETLGLPTSPYQFCDS---FEELQAAIEGGIGYPCIVKPVMSSS : 163 EAIAT ML LE G 6 V6P ARA 4LTM1REGIRRLAAE L LPTS Y F DS F E A6 IGYPCIVKPVMSSS
с увеличенными в 2 раза штрафами:
* 180 * 200 * 220 * 240 PURT_ECOLI : QTFIRSAEQLAQAWKYAQQGGRAGAGRVIVEGVVKFDFEITLLTVSAVDG-----VHFCAPVGHRQEDGDYRESWQPQQMSPL : 242 PURT_RHOFD : QSKISGPADVQKAWDYAMAGGRVSHGRVIVEGFIDFDYEITLLTVRAKGADGQIETHFCEPVGHLQVNGDYVESWQPHPMHPA : 249 Q3 I 6 AW YA GGR GRVIVEG 6 FD5EITLLTV A HFC PVGH Q 1GDY ESWQP M P
с штрафами по умолчанию:
* 180 * 200 * 220 * 240 PURT_ECOLI : QTFIRSAEQLAQAWKYAQQGGRAGAGRVIVEGVVKFDFEITLLTVSA--VDG---VHFCAPVGHRQEDGDYRESWQPQQMSPL : 242 PURT_RHOFD : QSKISGPADVQKAWDYAMAGGRVSHGRVIVEGFIDFDYEITLLTVRAKGADGQIETHFCEPVGHLQVNGDYVESWQPHPMHPA : 249 Q3 I 6 AW YA GGR GRVIVEG 6 FD5EITLLTV A DG HFC PVGH Q 1GDY ESWQP M P
с штрафами по умолчанию:
* 100 * 120 * 140 * 160 PURT_ECOLI : EAIATDMLIQLEEEG-LNVVPCARATKLTMNREGIRRLAAEELQLPTSTYRFADS-ESLFREAVADIGYPCIVKPVMSSSGKG : 164 PURT_RHOFD : EAIATPMLEVLEATGVVRVIPTARAARLTMDREGIRRLAAETLGLPTSPYQFCDSFEELQAAIEGGIGYPCIVKPVMSSSGKG : 166 EAIAT ML LE G 6 V6P ARA 4LTM1REGIRRLAAE L LPTS Y F DS E L IGYPCIVKPVMSSSGKG
с уменьшенными в 2 раза штрафами:
* 100 * 120 * 140 * 160 PURT_ECOLI : EAIATDMLIQLEEEG-LNVVPCARATKLTMNREGIRRLAAEELQLPTSTYRFADSESLFRE---AV-ADIGYPCIVKPVMSSS : 161 PURT_RHOFD : EAIATPMLEVLEATGVVRVIPTARAARLTMDREGIRRLAAETLGLPTSPYQFCDS---FEELQAAIEGGIGYPCIVKPVMSSS : 163 EAIAT ML LE G 6 V6P ARA 4LTM1REGIRRLAAE L LPTS Y F DS F E A6 IGYPCIVKPVMSSS
* 260 * 280 * 300 * 320 * PURT_ECOLI : ALERAQEIARKVVLALG--------GYGLFGVELFVCGDEVIFSEVSPRPHDTGMVTLISQDLSEFALHVRAFLGLPVGGIRQ : 317 PURT_RHOFD : ALERARHIAKTVTDDLGIAVDGQASGLGIFGVELFVKGEQVWFSEVSPRPHDTGLVTLTTQWQSEFELHARAILGLPVNTALR : 332 ALERA IA4 V LG G G6FGVELFV G 2V FSEVSPRPHDTG6VTL 3Q SEF LH RA LGLPV
По данным записи в банке данных UniProt для белка PURT_ECOLI и белка PURT_RHOFD : у белков есть АТФ-связывающий домен, для белка PURT_ECOLI 119-308 а.о., для белка PURT_RHOFD 120-323 а.о., область сходства попадает в область домена (чуть выходит из области домена)
Построение карты локального сходства последовательностей с помощью программы dotmatcher пакета EMBOSS:
С помощью команды dotmatcher получен файл с расширением ps (dotmatcher.ps) (команда: dotmatcher purt_ecoli.fasta purt_rhofd.fasta -graph cps), в формате gif это выглядит так:
Из рисунка видно, что белки обладают высокой степенью сродства: линии идущие вдоль диагонали почти складывают непрерывную прямую, что говорит о том, что белки почти совпадают, причем схожие элементы расположены в них в схожих порядках. Видно также сходство конца 1 белка (по оси x) с началом 2 белка (по оси у). Линии идущие вдоль диагонали несколько сдвинуты по вертикали друг относительно друга, что говорит о гэпах: так, например, в районе 250 а.о 1 белка линия поднимается наверх - следующим а.о. 1 белка соответствуют а.о. 2 белка идущие с пропуском от предыдущих - во втором белке есть гэп в этом месте.
Получить несколько субоптимальных локальных выравниваний заданных последовательностей с помощью программы matcher пакета EMBOSS. Выбрать лучшие из них, в которых фрагменты последовательностей не совпадают с выровненными фрагментами в оптимальном выравнивании.
Субоптимальное локальное выравнивание используется для получения нескольких хороших локальных выравниваний при одних и тех же параметрах поиска.
Файл с 10 выравниваниями (aln_10_mat.matcher), штраф за гэп: 14, за продолжающийся гэп: 4.
На мой взгляд интересно выравнивание :
360 PURT_E GKPEIDGSRRLGV :: : .:::: PURT_R GKEVIIALQRLGV 30
В нем представлены начало 2-го белка и конец 1-го - в глобальном выравнивании они не могли быть сопоставлены, ведь был бы слишком большой гэп слева от верхней последовательности и справа от нижней, но мы можем наблюдать эти фрагменты на карте локального выравнивания - в нижнем правом углу.
Аналогично выравнивание:
290 300 310 320 PURT_E HDTGMVTLISQDLSEFALHVRAFLGLPVGGIRQYGPA : : .. : : .: . . ::. . .: : PURT_R HATKVMLLGSGELGKEVIIALQRLGVETIAVDRYNHA 20 30 40
не могло наблюдаться в глобальном выравнивании, но странно, что оно не представлено и на карте локального выравнивания.
Интересно также, почему выравнивание:
10 20 PURT_E ALRPAATRVMLLGSGE ::: : . : : : PURT_R ALRVPGTDLRLFGKPE 360 370
не представлено на карте локальных сходств.
Вышеперечисленные выравнивания обладают хорошим весом (порядка 24-29).
Если поменять параметры dotmatcher и построить новую карту локального сходства (windowsize=6 а не стандартные 10), на ней все равно не будет этого участка: