C:\Users\E784~1\AppData\Local\Temp\F3TF62C.tmp\pr12.html Поиск по сходству

Поиск по сходству. BLAST, E-value

Задание 1. Проверка гомологичности белков, найденных поиском по сходству.

Я искала белки, сходные с моим белком из первого семестра: CRISPR-ассоциированного белка Csn1, всятого из Mycoplasma gallisepticum S6. Поиск только по базе данных SwissProt не дал необходимого разнообразия значений e-value (чтобы увидеть этот запрос загрузите в BLAST файл GHJD7RTG015_search_strategy.asn). Поэтому в дальнейших запросах я не ограничивала базу данных. Для выполнения задания я пользовалась белками, данные которых есть в таблице 1 (это автоматическая таблица, полученная при поиске в BLAST - Hit table. Правда, я убрала из нее первый столбец - query id, поскольку он везде одинаков: gi|564750085|gb|AHB99924.1| и пронумеровала находки).

Некоторые столбцы, вероятно, нуждаются в пояснении. Positives % - число позиций с положительным весом, mismatches - число замен аминокислот (не инделей, а именно замен), q. start и q.end - координаты выравнивания в изначальном белке, s. start и s. end - в сравниваемых белках.

ID сеанса поиска, для которого приведена эта таблица - GGYDV109015 (чтобы посмотреть параметры загрузите в BLAST следующий файл). Поиск проводился при следующих параметрах:

Длина слова - 6.
Порог e-value - 2.
Максимальное число выдаваемых последовательностей - 5000.
Остальные параметры - по умолчанию.

№ subject ids % identity % positives alignment length mismatches gap opens q. start q. end s. start s. end e-value bit score

1 gi|652844792|ref|WP_027123033.1| 41,29 60,65 310 143 6 8 291 6 302 8,46E-058 229

2 gi|491504038|ref|WP_005361708.1|;gi|149736675|gb|EDM52561.1| 26,708 46,48 966 522 37 12 931 4 829 9,82E-048 197

3.1 gi|1181744525|ref|WP_084829479.1|;gi|585225656|gb|EWM57058.1| 30,751 52,3 413 234 14 536 936 466 838 1,59E-033 152

3.2 gi|1181744525|ref|WP_084829479.1|;gi|585225656|gb|EWM57058.1| 26,91 43,19 301 164 9 10 279 3 278 4,46E-013 85,5

4 gi|919262384|ref|WP_052796772.1|;gi|950687566|gb|KRS61385.1|;
gi|950715890|gb|KRS87309.1|;gi|950719788|gb|KRS90916.1| 32,132 48,05 333 167 12 538 852 438 729 1,41E-022 116

5 gi|517844287|ref|WP_019014495.1| 23,512 46,13 336 209 13 550 874 475 773 3,39E-011 79,3

6 gi|550259504|ref|WP_022599516.1|;gi|548785101|gb|ERM89468.1| 25,284 44,03 352 185 16 545 862 696 1003 4,04E-005 59,7

7 gi|488758052|ref|WP_002681289.1|;gi|42525843|ref|NP_970941.1|;
gi|41815893|gb|AAS10822.1|;gi|448955571|gb|EMB36337.1|;
gi|448960365|gb|EMB41078.1| 27,187 41,56 320 187 13 534 842 744 1028 0,005 52,8

8 gi|1183711884|ref|WP_084938764.1|;gi|1181878277|gb|ORO40105.1| 24,415 41,14 299 175 12 549 833 778 1039 1,1 45,1

9 gi|496371126|ref|WP_009080116.1|;gi|400372753|gb|EJP25691.1| 48,78 63,41 41 16 1 13 48 8 48 1,4 44,7

№	subject ids	% identity	% positives	alignment length	mismatches	gap opens	q. start	q. end	s. start	s. end	e-value	bit score
1	gi\|652844792\|ref\|WP_027123033.1\|	41,29	60,65	310	143	6	8	291	6	302	8,46E-058	229
2	gi\|491504038\|ref\|WP_005361708.1\|;gi\|149736675\|gb\|EDM52561.1\|	26,708	46,48	966	522	37	12	931	4	829	9,82E-048	197
3.1	gi\|1181744525\|ref\|WP_084829479.1\|;gi\|585225656\|gb\|EWM57058.1\|	30,751	52,3	413	234	14	536	936	466	838	1,59E-033	152
3.2	gi\|1181744525\|ref\|WP_084829479.1\|;gi\|585225656\|gb\|EWM57058.1\|	26,91	43,19	301	164	9	10	279	3	278	4,46E-013	85,5
4	gi\|919262384\|ref\|WP_052796772.1\|;gi\|950687566\|gb\|KRS61385.1\|; gi\|950715890\|gb\|KRS87309.1\|;gi\|950719788\|gb\|KRS90916.1\|	32,132	48,05	333	167	12	538	852	438	729	1,41E-022	116
5	gi\|517844287\|ref\|WP_019014495.1\|	23,512	46,13	336	209	13	550	874	475	773	3,39E-011	79,3
6	gi\|550259504\|ref\|WP_022599516.1\|;gi\|548785101\|gb\|ERM89468.1\|	25,284	44,03	352	185	16	545	862	696	1003	4,04E-005	59,7
7	gi\|488758052\|ref\|WP_002681289.1\|;gi\|42525843\|ref\|NP_970941.1\|; gi\|41815893\|gb\|AAS10822.1\|;gi\|448955571\|gb\|EMB36337.1\|; gi\|448960365\|gb\|EMB41078.1\|	27,187	41,56	320	187	13	534	842	744	1028	0,005	52,8
8	gi\|1183711884\|ref\|WP_084938764.1\|;gi\|1181878277\|gb\|ORO40105.1\|	24,415	41,14	299	175	12	549	833	778	1039	1,1	45,1
9	gi\|496371126\|ref\|WP_009080116.1\|;gi\|400372753\|gb\|EJP25691.1\|	48,78	63,41	41	16	1	13	48	8	48	1,4	44,7

Таблица 1.Hit table (автоматическая таблица).

Рисунок 1. Множественное выравнивание.

Можно заметить, что третья последовательность - с ID WP_084829479.1 - имеет 2 выравнивания с разными координатами выравнивыемых фрагментов. То есть программа нашла 2 изначальных шестибуквенных соответствия, вокруг которых начала выравнивание.

Проверка по блокам.

На рисунках 2-17 представлены блоки - отрезки выравнивания нескольких последовательностей с достаточным числом абсолютно консервативных позиций (или функционально консервативных - как на рис. 11). Подпись содержит номер рисунка и последовательности, входящие в блок (причем последовательность изначального белка - 0, дальше по порядку, см таблицу 1). Блоки также выделены рамкой. Рамка может содержать строку символов гэпа, однако, очевидно, они не входят в данный блок (я просто решила не делить рамку из-за столь очевидного случая). Толщина рамки большая, если в блок не входят какие-то сосдение последовательности (просто чтобы зрительно было проще отличить, где блок, в где нет). Иногда на одном рисунке можно выделить несколько блоков (как на рис. 4, 10 и 17).

Рисунок 2. 1 Рисунок 3. 1, 2, 3.2 Рисунок 4. 1 и 1, 2, 3.2 Рисунок 5. 1, 3.2, 9 Рисунок 6. 1, 2, 3.2, 9 Рисунок 7. 2, 3.1, 4

Рисунок 8. 2, 3.1, 4, 5, 8. Рисунок 9. 2-3.1, 4-8. Рисунок 10. 2, 4, 7-8 и 7-8. Рисунок 11. 2, 3.1, 4-5. Рисунок 12. 2, 3.1, 4, 6-8. Рисунок 13. 2, 3.1, 4-7.

Рисунок 14. 2, 3.1, 4-7. Рисунок 15. 2, 3.1, 4, 6, 8. Рисунок 16. 5. Рисунок 17. 1, 3.1-4, 8 и 1-8.

Задача состояла в том, чтобы определить, гомологичны ли белки или хотя бы их части. Сначала хотелось бы отметить, что все они имеют одинаковое название (см. таблицу 2). Дальше пойдем по порядку.
Понятно, что чем меньше e-value и нейтральный вес, тем более вероятна гомология. Поэтому первые 6 последовательностей, обладающие e-value меньше 1Е-05 и довольно высоким весом, скорее всего гомологичны. Но по этим параметрам локального выравнивания сложно понять, гомологична ли вся последоватлеьность или лишь ее часть. Для этого нужен параметр coverage. Если посмотреть на него, то видно, что лишь у второй последовательности он достаточно высок (то есть можно говорить о гомологии именно последовательности, а не домена). Чтобы сделать вывод про остальные последовательности, полезно посмотреть на третью (3.1 и 3.2). Третья последовательность, к которой BLAST построил 2 выравнивания, очевидна гомологична лишь этими двумя доменами (иначе было бы одно выравнивание). Причем если посмотреть на координаты выравнивания в изначальной последовательности (таблица 1), то видно, что все остальные последовательности тоже гомологичны примерно этим же доменам (фрагменту примерно от 530 до 800-900 соответствуют выровненные фрагменты п-тей 3.1, 4, 5, 6, 7, 8; от примерно 10 до 200 п-ти 1, 3.2, начало 9-ой). Потому логично сделать вывод о том, что у всех последовательностей кроме 2 гомологичны лишь домены (домен 1: ≈ 500 - ≈ 850; домен 2: ≈ 10 - ≈ 300).

Интересное наблюдение. Последняя (9-я) находка обладает самым низким весом и самым высоким e-value, однако при этом обладает самым высоким процентом идентичности. Объясняется это тем, что у нее гомологичен малая часть домена 1, и покрытие составляет всего около 3%, однако на этом маленьком фрагменте консервативность последовательности очень велика.

№ ID Name Coverage % Identity E-value Homology

S. start S. end AlignLength/SeqLength %

1 WP_027123033.1 type II CRISPR RNA-guided endonuclease Cas9 [Mycoplasma spumans] 6 302 297/1076 27,6 41,29 8,46E-058 да,
домен 1

2 WP_005361708.1 type II CRISPR RNA-guided endonuclease Cas9 [Eubacterium ventriosum] 4 829 826/1107 74,62 26,708 9,82E-048 да,
п-ть

3.1 WP_084829479.1 type II CRISPR RNA-guided endonuclease Cas9 [Streptococcus thermophilus] 466 838 373/1121 33,27 30,751 1,59E-033 да,
домен 2

3.2 WP_084829479.1 type II CRISPR RNA-guided endonuclease Cas9 [Streptococcus thermophilus] 3 278 276/1121 24,62 26,91 4,46E-013 да,
домен 1

4 WP_052796772.1 MULTISPECIES: type II CRISPR RNA-guided endonuclease Cas9 [Campylobacter] 438 729 292/984 29,67 32,132 1,41E-022 да,
домен 2

5 WP_019014495.1 type II CRISPR RNA-guided endonuclease Cas9 [Elioraea tepidiphila] 475 773 299/1034 28,92 23,512 3,39E-011 да,
домен 2

6 WP_022599516.1 type II CRISPR RNA-guided endonuclease Cas9 [Coprobacter fastidiosus] 696 1003 308/1432 21,51 25,284 4,04E-005 да,
домен 2

7 WP_002681289.1 type II CRISPR RNA-guided endonuclease Cas9 [Treponema denticola] 744 1028 285/1395 20,43 27,187 0,005 да,
домен 2

8 WP_084938764.1 type II CRISPR RNA-guided endonuclease Cas9 [Streptococcus oralis] 778 1039 262/1420 18,45 24,415 1,1 да,
домен 2

9 WP_009080116.1 type II CRISPR RNA-guided endonuclease Cas9 [Peptostreptococcaceae bacterium AS15] 8 48 41/1391 2,95 48,78 1,4 да,
часть домена 1

№	ID	Name	Coverage	% Identity	E-value	Homology
S. start	S. end	AlignLength/SeqLength	%
1	WP_027123033.1	type II CRISPR RNA-guided endonuclease Cas9 [Mycoplasma spumans]	6	302	297/1076	27,6	41,29	8,46E-058	да, домен 1
2	WP_005361708.1	type II CRISPR RNA-guided endonuclease Cas9 [Eubacterium ventriosum]	4	829	826/1107	74,62	26,708	9,82E-048	да, п-ть
3.1	WP_084829479.1	type II CRISPR RNA-guided endonuclease Cas9 [Streptococcus thermophilus]	466	838	373/1121	33,27	30,751	1,59E-033	да, домен 2
3.2	WP_084829479.1	type II CRISPR RNA-guided endonuclease Cas9 [Streptococcus thermophilus]	3	278	276/1121	24,62	26,91	4,46E-013	да, домен 1
4	WP_052796772.1	MULTISPECIES: type II CRISPR RNA-guided endonuclease Cas9 [Campylobacter]	438	729	292/984	29,67	32,132	1,41E-022	да, домен 2
5	WP_019014495.1	type II CRISPR RNA-guided endonuclease Cas9 [Elioraea tepidiphila]	475	773	299/1034	28,92	23,512	3,39E-011	да, домен 2
6	WP_022599516.1	type II CRISPR RNA-guided endonuclease Cas9 [Coprobacter fastidiosus]	696	1003	308/1432	21,51	25,284	4,04E-005	да, домен 2
7	WP_002681289.1	type II CRISPR RNA-guided endonuclease Cas9 [Treponema denticola]	744	1028	285/1395	20,43	27,187	0,005	да, домен 2
8	WP_084938764.1	type II CRISPR RNA-guided endonuclease Cas9 [Streptococcus oralis]	778	1039	262/1420	18,45	24,415	1,1	да, домен 2
9	WP_009080116.1	type II CRISPR RNA-guided endonuclease Cas9 [Peptostreptococcaceae bacterium AS15]	8	48	41/1391	2,95	48,78	1,4	да, часть домена 1

Таблица 2. Параметры и вывод.

Скачать проект можно по ссылке.

Задание 2

Для задания 2, в котором надо было найти 2 белка и интерпретировать карту их выравнивания, я выбрала следующие белки:

ID Query ID Description Length Organism

V8N5V2_OPHHA (V8N5V2) Query_197297 белок главного комплекса гистосовместимости, класс I-related 474 Ophiophagus hannah (королевская кобра)

A0A0F8BNJ7_LARCR (A0A0F8BNJ7) Query_197295 AAA домен-содрержащий белок 2 из семейства ATP-аз 2081 Larimichthys crocea (желтый горбыль, отр. окунеобразные)

ID	Query ID	Description	Length	Organism
V8N5V2_OPHHA (V8N5V2)	Query_197297	белок главного комплекса гистосовместимости, класс I-related	474	Ophiophagus hannah (королевская кобра)
A0A0F8BNJ7_LARCR (A0A0F8BNJ7)	Query_197295	AAA домен-содрержащий белок 2 из семейства ATP-аз	2081	Larimichthys crocea (желтый горбыль, отр. окунеобразные)

Таблица 3. Белки для второго задания.

Почему именно ти белки? Я хотела найти инвертированную последовательность, на соответствующей странице в википедии нашла название каких-то групп белков, у которых встречаются повторы (VNTR) и вбила их в Pfam, где по доменной организации выбрала интересный случай. Далее я воспользоваласась BLAST, чтобы выровнять эти 2 последовательности. Ниже приведены параметры, при которых производилось выравнивание.

Длина слова - 2.
Порог для e-value - 1 (утанавливать меньший порог не пришлось, потому что все полученные выравнивания и так не превосходили значения e-value 1Е-05).
Остальные параметры - по умолчанию.
ID сеанса поиска: GGXMCN08114 (чтобы посмотреть параметры поиска введите в BLAST следующий файл).

Рисунок 18. Карта выравнивания.

Каждый участок последователньостей я обозначила буквой и цифрой. Вертикалной последовательности соответствуют большие буквы и цифра 1, горизонтальной - маленькие и цифра 2. После этого горизонтальная последовательность была размечена в соответствии с гомологией участков (вторая строка подписей - это гомологичные участки, причем гомологичны те участки, которые обозначенные одной большой буквой). Например, первый и предпоследний участки горизонтальной последовательности соответствуют одному и тому же участку вертикальной, что значит, что все они примерно одинаковы. То есть:

a2 ≈ F1 и g2 ≈ F1 => a2 ≈ a2 ≈ F1, обозначаем a2 и g2 как F2.
b2 ≈ G1 и h2 ≈ G1 => b2 ≈ h2 ≈ G1, обозначаем b2 и h2 как G2.
c2 ≈ H1, обозначаем c2 как H2.
d2 ≈ A1, обозначаем d2 как A2.
e2 ≈ B1, обозначаем e2 как B2.
f2 не имеет похожего участка в другой последовательности. Ставим прочерк.

Итого получилось 2 последовательности:

A1 B1 C1 D1 E1 F1 G1 H1

F2 G2 H2 A2 B2 - F2 G2

Что можно про них сказать?
Во-первых, начало второй последовательности соответствует концу первой, а началу первой соответствует продолжение второй. То есть 2 домена поменялись местами (то есть произошла транслокация).
Во-вторых, видна дупликация куска FG во второй последовательности, причем интересно, что в двух белках совпадают фрагменты FGH, однако дупликация не включила в себя H.

НАЗАД ➜


Рисунок 2. 1	Рисунок 3. 1, 2, 3.2	Рисунок 4. 1 и 1, 2, 3.2	Рисунок 5. 1, 3.2, 9	Рисунок 6. 1, 2, 3.2, 9	Рисунок 7. 2, 3.1, 4

Рисунок 8. 2, 3.1, 4, 5, 8.	Рисунок 9. 2-3.1, 4-8.	Рисунок 10. 2, 4, 7-8 и 7-8.	Рисунок 11. 2, 3.1, 4-5.	Рисунок 12. 2, 3.1, 4, 6-8.	Рисунок 13. 2, 3.1, 4-7.

	Рисунок 14. 2, 3.1, 4-7.	Рисунок 15. 2, 3.1, 4, 6, 8.	Рисунок 16. 5.	Рисунок 17. 1, 3.1-4, 8 и 1-8.