Выравнивание последовательностей

Главная

1. Построение вручную выравнивания фрагментов последовательности двух родственных белков


Скопировала пару коротких последовательностей из таблицы в файл shortseqs.fasta.
Запустила программу GeneDoc и импортировала этот файл.
Выровняла последовательности.
Сохранила выравнивание под именем alignment.msf.


Посчтала процент идентичности:
Число колонок, в которых стоят одинаковые буквы - 15.
Общее число колонок выравнивания - 22.
Процент идентичности=одинаковые колонки*100%/общее число колонок выравнивания=15*100/22=68,18%.
Посчтала процент сходства:
Процентом сходства считается процент колонок либо с одинаковыми буквами, либо с буквами, отвечающими похожим остаткам. Сходными остатками считаются такие, для которых значение элемента матрицы сходства BLOSUM62 положительно.
Процент сходства=сходные колонки*100%/общее число колонок выравнивания=18*100/22=81,8%.

2. Пользуясь возможностями Excel построила карту локального сходства последовательностей из задания 1


Для отметки совпадающих букв цифрой "1" воспользовалась формулой.
Бирюзовым цветом закрасила ячейки, соответствующие оптимальному выравниванию.


Excel-таблица

3. Пользуясь программой bl2seq выровнила первый фрагмент из задания 1 (LSKLFVPFMKLSNNGHAEVL) с последовательностью моего белка(P39844)


Программа bl2seq строит частичные выравнивания; ее следует применять для выравнивания одинаковых или очень сходных последовательностей.
Нашла внизу страницы гиперссылку Align и перешла по ней.
Выбрала вкладку blastp (это вариант для выравнивания белковых последовательностей)
Определила с помощью этого сервиса координаты (начало и конец) последовательности фрагмента в полной последовательности белка:
317-336.
Cохранила и присоединила к отчёту выравнивание, которое строит сервис bl2seq:

>lcl|59277 unnamed protein product
Length=20
Score = 45.4 bits (106), Expect = 5e-12, Method: Composition-based stats.
Identities = 20/20 (100%), Positives = 20/20 (100%), Gaps = 0/20 (0%)
Query 317 LSKLFVPFMKLSNNGHAEVL 336
LSKLFVPFMKLSNNGHAEVL
Sbjct 1 LSKLFVPFMKLSNNGHAEVL 20

4. Пользуясь сервисом bl2seq выровнила последовательность моего белка (P39844) с последовательностью гомологичного (P39045) белка


>sp|P39045.1|DAC_ACTSP RecName: Full=D-alanyl-D-alanine carboxypeptidase; Short=DD-carboxypeptidase;
Short=DD-peptidase; AltName: Full=Penicillin-binding
protein; Short=PBP; Flags: Precursor
emb|CAA46023.1| D-alanyl-D-alanine carboxypeptidase [Actinomadura sp.]
Length=538
Sort alignments for this subject sequence by:
E value Score Percent identity
Query start position Subject start position
Score = 347 bits (890), Expect = 4e-117, Method: Compositional matrix adjust.
Identities = 209/456 (46%), Positives = 268/456 (59%), Gaps = 13/456 (3%)
сQuery 40 IDKILADHPALEGAMAGITVRSAETGAVLYEHSGDTRMRPASSLKLLTAAAALSVLGENY 99
ID IL D PALEGA++G+ V TG LY G ++ PAS++KL TAAAAL VLG ++
Sbjct 58 IDAILED-PALEGAVSGVVVVDTATGEELYSRDGGEQLLPASNMKLFTAAAALEVLGADH 116

Query 100 SFTTEVRTDGTLKGKKLNGNLYLKGKGDPTLLPSDFDKMAEILKHSGVKVIKGNLIGDDT 159
SF TEV + + +LYL G+GDPTL D D MA + SGV+ ++G+L DDT
Sbjct 117 SFGTEVAAESAPGRRGEVQDLYLVGRGDPTLSAEDLDAMAAEVAASGVRTVRGDLYADDT 176

Query 160 WHDDMRLSPDMPWSDEYTYYGAPISALTASPNEDYDAGTVIVEVTPNQKEGEEPAVSVSP 219
W D RL D DE Y A ISALT + E +D G V VTP EGE V +
Sbjct 177 WFDSERLVDDWWPEDEPYAYSAQISALTVAHGERFDTGVTEVSVTP-AAEGEPADVDLGA 235

Query 220 KTDYITIKNDAKTTAAGSEKDLTIEREHGTNTITIEGSVPVDANKTKEWISVWEPAGYAL 279
Y + N A T AAGS L I+R GTNTI + GS+P DA +V EPA A
Sbjct 236 AEGYAELDNRAVTGAAGSANTLVIDRPVGTNTIAVTGSLPADAAPVTALRTVDEPAALAG 295

Query 280 DLFKQSLKKQGITVKGDIKTGEAPSS---SDVLLSHRSMPLSKLFVPFMKLSNNGHAEVL 336
LF+++L+ G+TVKGD+ G P+ ++VL H S LS++ VPFMK SNNGHAE+L
Sbjct 296 HLFEEALESNGVTVKGDVGLGGVPADWQDAEVLADHTSAELSEILVPFMKFSNNGHAEML 355

Query 337 VKEMGKVKKGEGSWEKGLEVLNSTLPEFGVDSKSLVLRDGSGISHIDAVSSDQLSQLLYD 396
VK +G+ G G+W+ GL + L GVD+ LVL DGSG+S + V++D + LL
Sbjct 356 VKSIGQETAGAGTWDAGLVGVEEALSGLGVDTAGLVLNDGSGLSRGNLVTADTVVDLLGQ 415

Query 397 IQDQSWFSAYLNSLPVAGNPDRMVGGTLRNRMKGTPAQGKVRAKTGSLSTVSSLSGYAET 456
W + SLPVAG D VGGTL NRM+GT A+G V AKTG++S VS+LSGY
Sbjct 416 AGSAPWAQTWSASLPVAGESDPFVGGTLANRMRGTAAEGVVEAKTGTMSGVSALSGYVPG 475

Query 457 KSGKKLVFSILLNGLIDEEDGK---DIEDQIAVILA 489
G +L FSI+ NG G ++D IAV LA
Sbjct 476 PEG-ELAFSIVNNG----HSGPAPLAVQDAIAVRLA 506
Score = 15.0 bits (27), Expect = 6.6, Method: Compositional matrix adjust.
Identities = 9/21 (43%), Positives = 14/21 (67%), Gaps = 1/21 (5%)
Query 33 QDALSGQIDKILADHPALEGA 53
QDA++ ++ + A H A EGA
Sbjct 498 QDAIAVRLAE-YAGHQAPEGA 517
ID DACC_BACSU DAC_ACTSP
Организм Bacillus subtilis Actinomadura sp. R39
Процент идентичности (Identities) 43%
Процент сходства (Positives) 67%
Число гэпов 13
Число идущих подряд гэпов 3,3 4
Суммарное число гэповых колонок 0
Координаты выровненных участков
40-489

58-506

Для второго варианта выравнивания другие значения:
Identities 43%
Positives 67%
Gaps 5% (1)
Координаты 33-53
498-517

Карта локального сходства



©Eliseeva Julia