Учебный сайт Смирновой Виктории

Главная Проекты Семестры


Работа в командной строке Linux. Программы выравнивания последовательностей пакета EMBOSS.


1. Работа в командной строке Linux.

1) Смена активной директории и просмотр содержимого директорий. Результаты выполнения команд:

2) Создание и просмотр файлов.
С помощью программы seqret в директорию был скачан новый файл gluq_ecoli.fasta. Команда "more gluq_ecoli.fasta " вывела на экран содержимое файла - fasta-последовательность моего белка. С помощью программы entret в директорию был скачан новый файл gluq_ecoli.entret. Команда "more gluq_ecoli. entret " вывела на экран содержимое файла - данные банка SwissProt о моем белке.

2.Построить и сравнить оптимальные глобальное и оптимальное локальное выравнивание 2-х последовательностей

1) Построить полное (глобальное) оптимальное выравнивание с помощью программы needle пакета EMBOSS.
Созданный с помощью needle файл aln.needle содержит выравнивание двух последовательностей - моего белка и родственного ему. Кроме самого выравнивания, в файле есть информация о нем: длина, % сходства, % идентичности, % гэпов и вес.
При увеличении штрафов за гэпы выравнивание изменилось - уменьшились все параметры: длина, % сходства, % идентичности, % гэпов и вес.

2) Построить локальное (частичное) оптимальное выравнивание с помощью программы water пакета EMBOSS.
Структура файлов, созданных с использованием алгоритма water - такая же, как и для needle. Изменение параметров так же привело к изменению выравнивания.

Файлы выравниваний:
needle water

Сравнение выравниваний
  1. Есть ли хотя бы один пример того, что одной и той же позиции первой последовательности в разных глобальных выравниваниях сопоставлены разные позиции второй последовательности?
    Да, например позиции №233 в aln N 1-ой последовательности сопоставлено значение S, в aln1 сопоставлено значение D.
    	Aln
    	GLUQ_ECOLI      233 NHAPALPKGDPRPVLI-----------AALQFLGQQAEAHWQD--FSVEQ    269
    	                    :       ||  .|.|           |.|.:|.:...||..|  |::||       
    	SYE_NEIM0       247 S-------GD--TVAITDFGAMGILPEAMLNYLARLGWAHGDDEFFTMEQ    287
    
    	Aln1
    	GLUQ_ECOLI      233 --NHAPALPKGDPRPVLIAALQFLGQQAEAHWQD--FSVEQILQSAVKNW    278
    	                      :.......|....:..|.|.:|.:...||..|  |::||.::......       
    	SYE_NEIM0       247 SGDTVAITDFGAMGILPEAMLNYLARLGWAHGDDEFFTMEQFIEWFDLKD    296
    
    
            
  2. Есть ли хотя бы один пример того, что одной и той же позиции первой последовательности в разных локальных выравниваниях сопоставлены разные позиции второй последовательности?
    Да, например позиции №112 в aln G 1-ой последовательности сопоставлено значение T, в aln2 сопоставлено значение G.
    
    	Aln
    	GLUQ_ECOLI      107 RIQSI--------GGIYDGHCR-----VLHHGPDNAAVRIRQQHP---VT    140
    	                    .::::        ...||...|     .|...|......:|.:.|   ||       
    	SYE_NEIM0       106 ELEAMREKAEKEGTATYDRRWRPEAGKTLPEIPAGVQPVVRFKTPLDGVT    155
    	
    	Aln2
    	GLUQ_ECOLI       95 QGLSYYCTCTRARIQSI-------G-GIYD-------GHCRVLHHGPD-N    128
    	                    :|.:|||.|::..::::       | ..||       |  :.|   |: .       
    	SYE_NEIM0        94 KGDAYYCYCSKEELEAMREKAEKEGTATYDRRWRPEAG--KTL---PEIP    138
    
            
  3. Есть ли хотя бы один пример того, что в одном глобальном выравнивании какой-либо позиции первой последовательности сопоставлена некоторая позиция второй, а в другом выравнивании против той же позиции оказался пропуск?
    Да, например позиции №1 в aln M 1-ой последовательности сопоставлено значение M, в aln1 cопоставлен пропуск.
    
    	Aln
    	GLUQ_ECOLI        1 MTDTQYIGRFAPSPSGELHFGSLIAALGSYLQARARQGRWLVRIEDIDPP     50
    	                    ||...   ||||||:|.||.|.:..||.|:..||..:|.:|:||||.|..       
    	SYE_NEIM0         1 MTVKT---RFAPSPTGYLHIGGVRTALFSWAFARHHKGEFLLRIEDTDLA     47
    	
    	Aln1
    	GLUQ_ECOLI        1 MTDTQYIGRFAPSPSGELHFGSLIAALGSYLQARARQGRWLVRIEDIDPP     50
    	                       .....||||||:|.||.|.:..||.|:..||..:|.:|:||||.|..       
    	SYE_NEIM0         1 ---MTVKTRFAPSPTGYLHIGGVRTALFSWAFARHHKGEFLLRIEDTDLA     47
    
    
            
  4. Есть ли хотя бы один пример того, что в одном локальном выравнивании какой-либо позиции первой последовательности сопоставлена некоторая позиция второй, а в другом выравнивании против той же позиции оказался пропуск?
    Да, например позиции №52 в aln2 E 1-ой последовательности cопоставлен пропуск, в aln1 сопоставлено значение S.
    
            Aln2
    	GLUQ_ECOLI       50 PREVPGAAET---ILRQLEHYGLHWD--GDVLWQSQRHDAYREALAWLHE     94
    	                    .|   ..||:   ||..::..||.:|  |:|::|::|.|.|:|.:|.|.|       
    	SYE_NEIM0        47 AR---STAESVNIILDGMKWVGLDYDNAGNVVYQTRRFDRYKEVIAELLE     93
    
    	Aln1
    	GLUQ_ECOLI        9 RFAPSPSGELHFGSLIAALGSYLQARARQGRWLVRIEDIDPPREVPGAAE     58
    	                    ||||||:|.||.|.:..||.|:..||..:|.:|:||||.|..|....:..       
    	SYE_NEIM0         6 RFAPSPTGYLHIGGVRTALFSWAFARHHKGEFLLRIEDTDLARSTAESVN     55
    
    
            
  5. Соответствуют ли оптимальные локальные выравнивания, построенными с использованием разных параметров, одним и тем же фрагментам последовательностей?
    Да. В середине последовательностей практически все фрагменты со сходными/совпадающими буквами длиной больше одного совпадают - в основном все различия встречаются на участках с большими промежутками, где встречаются только отдельные пары сходных/совпадающих букв, которые не являются целыми выравненными фрагментами. Но есть существенная разница в выравнивании фрагментов по краям последовательностей, т. к. water из выравниваний Aln и Aln1 по каким-то причинам вообще исключила первый/последний фрагмент:
    
    	Aln
    	GLUQ_ECOLI       9 RFAPSPSGELHFGSLIAALGSYLQARARQGRWLVRIEDIDPPREVPGAAE     58
    	                   ||||||:|.||.|.:..||.|:..||..:|.:|:||||.|..|....:..       
    	SYE_NEIM0        6 RFAPSPTGYLHIGGVRTALFSWAFARHHKGEFLLRIEDTDLARSTAESVN     55
    	
    	GLUQ_ECOLI     191 GADLIEPTVRQISLYQLFGWKVPDYIHLPLALNPQGAKLSKQNHAPALPK    240
    	                   |.|.:..|.:||::.:..|..:|:|.|||:.||.||.|:||::              
    	SYE_NEIM0      205 GDDHVNNTPKQINILKAIGATLPEYGHLPMILNEQGKKISKRS-------    247
    	
    	
    	GLUQ_ECOLI     241 GDPRPVLI-----------AALQFLGQQAEAHWQD--FSVEQILQ    272 
    	                   ||  .|.|           |.|.:|.:...||..|  |::||.::        
    	SYE_NEIM0      248 GD--TVAITDFGAMGILPEAMLNYLARLGWAHGDDEFFTMEQFIE    290
    	
    	Aln1
    	GLUQ_ECOLI       9 RFAPSPSGELHFGSLIAALGSYLQARARQGRWLVRIEDIDPPREVPGAAE     58
    	                   ||||||:|.||.|.:..||.|:..||..:|.:|:||||.|..|....:..       
    	SYE_NEIM0        6 RFAPSPTGYLHIGGVRTALFSWAFARHHKGEFLLRIEDTDLARSTAESVN     55
    	
    	GLUQ_ECOLI     191 GADLIEPTVRQISLYQLFGWKVPDYIHLPLALNPQGAKLSKQN    233
    	                   |.|.:..|.:||::.:..|..:|:|.|||:.||.||.|:||::       
    	SYE_NEIM0      205 GDDHVNNTPKQINILKAIGATLPEYGHLPMILNEQGKKISKRS    247
    
    
    	Aln2
    	GLUQ_ECOLI       1 MT-DTQYIGRFAPSPSGELHFGSLIAALGSYLQARARQGRWLVRIEDIDP     49
    	                   || .|    ||||||:|.||.|.:..||.|:..||..:|.:|:||||.|.       
    	SYE_NEIM0        1 MTVKT----RFAPSPTGYLHIGGVRTALFSWAFARHHKGEFLLRIEDTDL     46
                                                                                
                                                                                 
    	GLUQ_ECOLI     223 NPQGAKLSKQ---------------------N--------H---------    234 
    	                   |.||.|:||:                     |        |                 
    	SYE_NEIM0      237 NEQGKKISKRSGDTVAITDFGAMGILPEAMLNYLARLGWAHGDDEFFTME    286 
    	                                                                               
    	GLUQ_ECOLI     235 -------------APA------L-----------PKG------DPR----    244 
    	                                :|:      |           |.|      .||            
    	SYE_NEIM0      287 QFIEWFDLKDVSPSPSRMDLKKLYWINGEHIKITPNGKLAELVKPRLALR    336 
    	                                                                               
    	GLUQ_ECOLI     245 -------PVL--IAAL-----Q-----------FLGQQ--AEA----HWQ    263 
    	                          |.|  :.||     |           |..:|  .||    ||.        
    	SYE_NEIM0      337 DIHETEKPALEDVLALVKDRAQDLNTLADECLYFYVKQTPTEADVQKHWD    386 
    	                                                                               
    	GLUQ_ECOLI     264 DFSVEQILQSA-----VKNWRLTAV-----P---ESAI----VNSTFSNA    296 
    	                   |.:..::|:.|     :::|...|:     |   |..|    :......|        
    	SYE_NEIM0      387 DEAAARMLRFAERLEGLEDWNTEAIHDLFKPFCDEEGIKMGKLGMPLRLA    436 
                                                                                   
    	GLUQ_ECOLI     297 SC    298                                                 
    	                   .|                                                        
    	SYE_NEIM0      437 VC    438
    	                                                                                                                       
    	*Жирным шрифтом выделены некоторые крупные cходные фрагменты, присутствующие не
    	во всех вариантах выравнивания.
    
            
  6. Совпадают ли локальные выравнивания с соответствующими частями глобальных выравниваний?
    За исключением уже упомянутых "обрезанных" краев у Aln1.water и Aln.water участки глобальных и локальных выравниваний с одинаковыми штрафами за гэпы совпадают (фрагмент 9-272 Aln.needle (номера позиций - по последовательности GLUQ_ECOLI) полностью совпадает с выравниванием Aln.water, фрагмент 9-232 Aln1.needle соответствует выравниванию Aln1.water без последней колонки):
    
    
            Aln.needle
    
    	GLUQ_ECOLI         1 MTDTQYIGRFAPSPSGELHFGSLIAALGSYLQARARQGRWLVRIEDIDPP     50
    	                     ||...   ||||||:|.||.|.:..||.|:..||..:|.:|:||||.|..
    	SYE_NEIM0          1 MTVKT---RFAPSPTGYLHIGGVRTALFSWAFARHHKGEFLLRIEDTDLA     47
    
    	GLUQ_ECOLI        51 REVPGAAETILRQLEHYGLHWD--GDVLWQSQRHDAYREALAWLHEQGLS     98
    	                     |....:...||..::..||.:|  |:|::|::|.|.|:|.:|.|.|:|.:
    	SYE_NEIM0         48 RSTAESVNIILDGMKWVGLDYDNAGNVVYQTRRFDRYKEVIAELLEKGDA     97
    
    	GLUQ_ECOLI        99 YYCTCTRARIQSI--------GGIYDGHCR-----VLHHGPDNAAVRIRQ    135
    	                     |||.|::..::::        ...||...|     .|...|......:|.
    	SYE_NEIM0         98 YYCYCSKEELEAMREKAEKEGTATYDRRWRPEAGKTLPEIPAGVQPVVRF    147
    
    	GLUQ_ECOLI       136 QHP---VTQFTDQLRGIIHADEKLAREDFIIHRRDGLFAYNLAVVVDDHF    182
    	                     :.|   ||::||.::|.|....: |.:|.||.|.||...||..|||||:.
    	SYE_NEIM0        148 KTPLDGVTKWTDLVKGEISIPNE-ALDDLIIARADGTPTYNFCVVVDDYD    196
    
    	GLUQ_ECOLI       183 QGVTEIVRGADLIEPTVRQISLYQLFGWKVPDYIHLPLALNPQGAKLSKQ    232
    	                     .|||.::||.|.:..|.:||::.:..|..:|:|.|||:.||.||.|:||:
    	SYE_NEIM0        197 MGVTHVIRGDDHVNNTPKQINILKAIGATLPEYGHLPMILNEQGKKISKR    246
    
    	GLUQ_ECOLI       233 NHAPALPKGDPRPVLI-----------AALQFLGQQAEAHWQD--FSVEQ    269
    	                     :       ||  .|.|           |.|.:|.:...||..|  |::||
    	SYE_NEIM0        247 S-------GD--TVAITDFGAMGILPEAMLNYLARLGWAHGDDEFFTMEQ    287
    
    	GLUQ_ECOLI       270 ILQSAVKNWRLTAVPESAIVNSTFSNASC---------------------    298
    	                     .::     |              |.....                     
    	SYE_NEIM0        288 FIE-----W--------------FDLKDVSPSPSRMDLKKLYWINGEHIK    318
    
    	GLUQ_ECOLI       298 --------------------------------------------------    298
    	                                                                       
    	SYE_NEIM0        319 ITPNGKLAELVKPRLALRDIHETEKPALEDVLALVKDRAQDLNTLADECL    368
    
    	GLUQ_ECOLI       298 --------------------------------------------------    298
    	                                                                       
    	SYE_NEIM0        369 YFYVKQTPTEADVQKHWDDEAAARMLRFAERLEGLEDWNTEAIHDLFKPF    418
    
    	GLUQ_ECOLI       298 ----------------------------------------------    298
    	                                                                   
    	SYE_NEIM0        419 CDEEGIKMGKLGMPLRLAVCGTAKTPSVDAVLALIGKEEVLKRIRA    464
    
                                                                                           
    
            Aln.water  
    
    	GLUQ_ECOLI         9 RFAPSPSGELHFGSLIAALGSYLQARARQGRWLVRIEDIDPPREVPGAAE     58
    	                     ||||||:|.||.|.:..||.|:..||..:|.:|:||||.|..|....:..
    	SYE_NEIM0          6 RFAPSPTGYLHIGGVRTALFSWAFARHHKGEFLLRIEDTDLARSTAESVN     55
    
    	GLUQ_ECOLI        59 TILRQLEHYGLHWD--GDVLWQSQRHDAYREALAWLHEQGLSYYCTCTRA    106
    	                     .||..::..||.:|  |:|::|::|.|.|:|.:|.|.|:|.:|||.|::.
    	SYE_NEIM0         56 IILDGMKWVGLDYDNAGNVVYQTRRFDRYKEVIAELLEKGDAYYCYCSKE    105
    
    	GLUQ_ECOLI       107 RIQSI--------GGIYDGHCR-----VLHHGPDNAAVRIRQQHP---VT    140
    	                     .::::        ...||...|     .|...|......:|.:.|   ||
    	SYE_NEIM0        106 ELEAMREKAEKEGTATYDRRWRPEAGKTLPEIPAGVQPVVRFKTPLDGVT    155
    
    	GLUQ_ECOLI       141 QFTDQLRGIIHADEKLAREDFIIHRRDGLFAYNLAVVVDDHFQGVTEIVR    190
    	                     ::||.::|.|....: |.:|.||.|.||...||..|||||:..|||.::|
    	SYE_NEIM0        156 KWTDLVKGEISIPNE-ALDDLIIARADGTPTYNFCVVVDDYDMGVTHVIR    204
    
    	GLUQ_ECOLI       191 GADLIEPTVRQISLYQLFGWKVPDYIHLPLALNPQGAKLSKQNHAPALPK    240
    	                     |.|.:..|.:||::.:..|..:|:|.|||:.||.||.|:||::       
    	SYE_NEIM0        205 GDDHVNNTPKQINILKAIGATLPEYGHLPMILNEQGKKISKRS-------    247
    
    	GLUQ_ECOLI       241 GDPRPVLI-----------AALQFLGQQAEAHWQD--FSVEQILQ    272
    	                     ||  .|.|           |.|.:|.:...||..|  |::||.::
    	SYE_NEIM0        248 GD--TVAITDFGAMGILPEAMLNYLARLGWAHGDDEFFTMEQFIE    290
                                                    
    
    
            Aln1.needle
    
    	GLUQ_ECOLI         1 MTDTQYIGRFAPSPSGELHFGSLIAALGSYLQARARQGRWLVRIEDIDPP     50
    	                        .....||||||:|.||.|.:..||.|:..||..:|.:|:||||.|..
    	SYE_NEIM0          1 ---MTVKTRFAPSPTGYLHIGGVRTALFSWAFARHHKGEFLLRIEDTDLA     47
    
    	GLUQ_ECOLI        51 REVPGAAETILRQLEHYGLHWD--GDVLWQSQRHDAYREALAWLHEQGLS     98
    	                     |....:...||..::..||.:|  |:|::|::|.|.|:|.:|.|.|:|.:
    	SYE_NEIM0         48 RSTAESVNIILDGMKWVGLDYDNAGNVVYQTRRFDRYKEVIAELLEKGDA     97
    
    	GLUQ_ECOLI        99 YYCTCTRARIQSI--------GGIYDGHCR-----VLHHGPDNAAVRIRQ    135
    	                     |||.|::..::::        ...||...|     .|...|......:|.
    	SYE_NEIM0         98 YYCYCSKEELEAMREKAEKEGTATYDRRWRPEAGKTLPEIPAGVQPVVRF    147
    
    	GLUQ_ECOLI       136 QHP---VTQFTDQLRGIIHADEKLAREDFIIHRRDGLFAYNLAVVVDDHF    182
    	                     :.|   ||::||.::|.|....: |.:|.||.|.||...||..|||||:.
    	SYE_NEIM0        148 KTPLDGVTKWTDLVKGEISIPNE-ALDDLIIARADGTPTYNFCVVVDDYD    196
    
    	GLUQ_ECOLI       183 QGVTEIVRGADLIEPTVRQISLYQLFGWKVPDYIHLPLALNPQGAKLSKQ    232
    	                     .|||.::||.|.:..|.:||::.:..|..:|:|.|||:.||.||.|:||:
    	SYE_NEIM0        197 MGVTHVIRGDDHVNNTPKQINILKAIGATLPEYGHLPMILNEQGKKISKR    246
    
    	GLUQ_ECOLI       233 --NHAPALPKGDPRPVLIAALQFLGQQAEAHWQD--FSVEQILQSAVKNW    278
    	                       :.......|....:..|.|.:|.:...||..|  |::||.::......
    	SYE_NEIM0        247 SGDTVAITDFGAMGILPEAMLNYLARLGWAHGDDEFFTMEQFIEWFDLKD    296
    
    	GLUQ_ECOLI       279 RLTAVPESAIVNSTFSNASC------------------------------    298
    	                     ...:.....:....:.|...                              
    	SYE_NEIM0        297 VSPSPSRMDLKKLYWINGEHIKITPNGKLAELVKPRLALRDIHETEKPAL    346
    
    	GLUQ_ECOLI       298 --------------------------------------------------    298
    	                                                                       
    	SYE_NEIM0        347 EDVLALVKDRAQDLNTLADECLYFYVKQTPTEADVQKHWDDEAAARMLRF    396
    	
    	GLUQ_ECOLI       298 --------------------------------------------------    298
    	                                                                       
    	SYE_NEIM0        397 AERLEGLEDWNTEAIHDLFKPFCDEEGIKMGKLGMPLRLAVCGTAKTPSV    446
    	
    	GLUQ_ECOLI       298 ------------------    298
                                           
    	SYE_NEIM0        447 DAVLALIGKEEVLKRIRA    464
    
    
            Aln1.water
    
    	GLUQ_ECOLI         9 RFAPSPSGELHFGSLIAALGSYLQARARQGRWLVRIEDIDPPREVPGAAE     58
    	                     ||||||:|.||.|.:..||.|:..||..:|.:|:||||.|..|....:..
    	SYE_NEIM0          6 RFAPSPTGYLHIGGVRTALFSWAFARHHKGEFLLRIEDTDLARSTAESVN     55
    
    	GLUQ_ECOLI        59 TILRQLEHYGLHWD--GDVLWQSQRHDAYREALAWLHEQGLSYYCTCTRA    106
    	                     .||..::..||.:|  |:|::|::|.|.|:|.:|.|.|:|.:|||.|::.
    	SYE_NEIM0         56 IILDGMKWVGLDYDNAGNVVYQTRRFDRYKEVIAELLEKGDAYYCYCSKE    105
    
    	GLUQ_ECOLI       107 RIQSI--------GGIYDGHCR-----VLHHGPDNAAVRIRQQHP---VT    140
    	                     .::::        ...||...|     .|...|......:|.:.|   ||
    	SYE_NEIM0        106 ELEAMREKAEKEGTATYDRRWRPEAGKTLPEIPAGVQPVVRFKTPLDGVT    155
    
    	GLUQ_ECOLI       141 QFTDQLRGIIHADEKLAREDFIIHRRDGLFAYNLAVVVDDHFQGVTEIVR    190
    	                     ::||.::|.|....: |.:|.||.|.||...||..|||||:..|||.::|
    	SYE_NEIM0        156 KWTDLVKGEISIPNE-ALDDLIIARADGTPTYNFCVVVDDYDMGVTHVIR    204
    
    	GLUQ_ECOLI       191 GADLIEPTVRQISLYQLFGWKVPDYIHLPLALNPQGAKLSKQN    233
    	                     |.|.:..|.:||::.:..|..:|:|.|||:.||.||.|:||::
    	SYE_NEIM0        205 GDDHVNNTPKQINILKAIGATLPEYGHLPMILNEQGKKISKRS    247
    
    
            



© Smirnova Victoriya, 2008