C:\Users\E784~1\AppData\Local\Temp\F3TF62C.tmp\pr12.html Поиск по сходству

Поиск по сходству. BLAST, E-value

Задание 1. Проверка гомологичности белков, найденных поиском по сходству.

Я искала белки, сходные с моим белком из первого семестра: CRISPR-ассоциированного белка Csn1, всятого из Mycoplasma gallisepticum S6. Поиск только по базе данных SwissProt не дал необходимого разнообразия значений e-value (чтобы увидеть этот запрос загрузите в BLAST файл GHJD7RTG015_search_strategy.asn). Поэтому в дальнейших запросах я не ограничивала базу данных. Для выполнения задания я пользовалась белками, данные которых есть в таблице 1 (это автоматическая таблица, полученная при поиске в BLAST - Hit table. Правда, я убрала из нее первый столбец - query id, поскольку он везде одинаков: gi|564750085|gb|AHB99924.1| и пронумеровала находки).

Некоторые столбцы, вероятно, нуждаются в пояснении. Positives % - число позиций с положительным весом, mismatches - число замен аминокислот (не инделей, а именно замен), q. start и q.end - координаты выравнивания в изначальном белке, s. start и s. end - в сравниваемых белках.

ID сеанса поиска, для которого приведена эта таблица - GGYDV109015 (чтобы посмотреть параметры загрузите в BLAST следующий файл). Поиск проводился при следующих параметрах:

subject ids% identity% positivesalignment lengthmismatchesgap opensq. startq. ends. starts. ende-valuebit score
1gi|652844792|ref|WP_027123033.1|41,2960,653101436829163028,46E-058229
2gi|491504038|ref|WP_005361708.1|;gi|149736675|gb|EDM52561.1|26,70846,48966522371293148299,82E-048197
3.1gi|1181744525|ref|WP_084829479.1|;gi|585225656|gb|EWM57058.1|30,75152,3413234145369364668381,59E-033152
3.2gi|1181744525|ref|WP_084829479.1|;gi|585225656|gb|EWM57058.1|26,9143,1930116491027932784,46E-01385,5
4gi|919262384|ref|WP_052796772.1|;gi|950687566|gb|KRS61385.1|;
gi|950715890|gb|KRS87309.1|;gi|950719788|gb|KRS90916.1|
32,13248,05333167125388524387291,41E-022116
5gi|517844287|ref|WP_019014495.1|23,51246,13336209135508744757733,39E-01179,3
6gi|550259504|ref|WP_022599516.1|;gi|548785101|gb|ERM89468.1|25,28444,033521851654586269610034,04E-00559,7
7gi|488758052|ref|WP_002681289.1|;gi|42525843|ref|NP_970941.1|;
gi|41815893|gb|AAS10822.1|;gi|448955571|gb|EMB36337.1|;
gi|448960365|gb|EMB41078.1|
27,18741,563201871353484274410280,00552,8
8gi|1183711884|ref|WP_084938764.1|;gi|1181878277|gb|ORO40105.1|24,41541,142991751254983377810391,145,1
9gi|496371126|ref|WP_009080116.1|;gi|400372753|gb|EJP25691.1|48,7863,414116113488481,444,7

Таблица 1.Hit table (автоматическая таблица).

Рисунок 1. Множественное выравнивание.

Можно заметить, что третья последовательность - с ID WP_084829479.1 - имеет 2 выравнивания с разными координатами выравнивыемых фрагментов. То есть программа нашла 2 изначальных шестибуквенных соответствия, вокруг которых начала выравнивание.

Проверка по блокам.

На рисунках 2-17 представлены блоки - отрезки выравнивания нескольких последовательностей с достаточным числом абсолютно консервативных позиций (или функционально консервативных - как на рис. 11). Подпись содержит номер рисунка и последовательности, входящие в блок (причем последовательность изначального белка - 0, дальше по порядку, см таблицу 1). Блоки также выделены рамкой. Рамка может содержать строку символов гэпа, однако, очевидно, они не входят в данный блок (я просто решила не делить рамку из-за столь очевидного случая). Толщина рамки большая, если в блок не входят какие-то сосдение последовательности (просто чтобы зрительно было проще отличить, где блок, в где нет). Иногда на одном рисунке можно выделить несколько блоков (как на рис. 4, 10 и 17).

Рисунок 2. 1Рисунок 3. 1, 2, 3.2Рисунок 4. 1 и 1, 2, 3.2Рисунок 5. 1, 3.2, 9Рисунок 6. 1, 2, 3.2, 9Рисунок 7. 2, 3.1, 4
Рисунок 8. 2, 3.1, 4, 5, 8.Рисунок 9. 2-3.1, 4-8.Рисунок 10. 2, 4, 7-8 и 7-8.Рисунок 11. 2, 3.1, 4-5.Рисунок 12. 2, 3.1, 4, 6-8.Рисунок 13. 2, 3.1, 4-7.
Рисунок 14. 2, 3.1, 4-7.Рисунок 15. 2, 3.1, 4, 6, 8.Рисунок 16. 5.Рисунок 17. 1, 3.1-4, 8 и 1-8.

Задача состояла в том, чтобы определить, гомологичны ли белки или хотя бы их части. Сначала хотелось бы отметить, что все они имеют одинаковое название (см. таблицу 2). Дальше пойдем по порядку.
Понятно, что чем меньше e-value и нейтральный вес, тем более вероятна гомология. Поэтому первые 6 последовательностей, обладающие e-value меньше 1Е-05 и довольно высоким весом, скорее всего гомологичны. Но по этим параметрам локального выравнивания сложно понять, гомологична ли вся последоватлеьность или лишь ее часть. Для этого нужен параметр coverage. Если посмотреть на него, то видно, что лишь у второй последовательности он достаточно высок (то есть можно говорить о гомологии именно последовательности, а не домена). Чтобы сделать вывод про остальные последовательности, полезно посмотреть на третью (3.1 и 3.2). Третья последовательность, к которой BLAST построил 2 выравнивания, очевидна гомологична лишь этими двумя доменами (иначе было бы одно выравнивание). Причем если посмотреть на координаты выравнивания в изначальной последовательности (таблица 1), то видно, что все остальные последовательности тоже гомологичны примерно этим же доменам (фрагменту примерно от 530 до 800-900 соответствуют выровненные фрагменты п-тей 3.1, 4, 5, 6, 7, 8; от примерно 10 до 200 п-ти 1, 3.2, начало 9-ой). Потому логично сделать вывод о том, что у всех последовательностей кроме 2 гомологичны лишь домены (домен 1: ≈ 500 - ≈ 850; домен 2: ≈ 10 - ≈ 300).

Интересное наблюдение. Последняя (9-я) находка обладает самым низким весом и самым высоким e-value, однако при этом обладает самым высоким процентом идентичности. Объясняется это тем, что у нее гомологичен малая часть домена 1, и покрытие составляет всего около 3%, однако на этом маленьком фрагменте консервативность последовательности очень велика.

IDNameCoverage% IdentityE-valueHomology
S. startS. endAlignLength/SeqLength%
1WP_027123033.1type II CRISPR RNA-guided endonuclease Cas9 [Mycoplasma spumans]6302297/107627,641,298,46E-058да,
домен 1
2WP_005361708.1type II CRISPR RNA-guided endonuclease Cas9 [Eubacterium ventriosum]4829826/110774,6226,7089,82E-048да,
п-ть
3.1WP_084829479.1type II CRISPR RNA-guided endonuclease Cas9 [Streptococcus thermophilus]466838373/112133,2730,7511,59E-033да,
домен 2
3.2WP_084829479.1type II CRISPR RNA-guided endonuclease Cas9 [Streptococcus thermophilus]3278276/112124,6226,914,46E-013да,
домен 1
4WP_052796772.1MULTISPECIES: type II CRISPR RNA-guided endonuclease Cas9 [Campylobacter]438729292/98429,6732,1321,41E-022да,
домен 2
5WP_019014495.1type II CRISPR RNA-guided endonuclease Cas9 [Elioraea tepidiphila]475773299/103428,9223,5123,39E-011да,
домен 2
6WP_022599516.1type II CRISPR RNA-guided endonuclease Cas9 [Coprobacter fastidiosus]6961003308/143221,5125,2844,04E-005да,
домен 2
7WP_002681289.1type II CRISPR RNA-guided endonuclease Cas9 [Treponema denticola]7441028285/139520,4327,1870,005да,
домен 2
8WP_084938764.1type II CRISPR RNA-guided endonuclease Cas9 [Streptococcus oralis]7781039262/142018,4524,4151,1да,
домен 2
9WP_009080116.1type II CRISPR RNA-guided endonuclease Cas9 [Peptostreptococcaceae bacterium AS15]84841/13912,9548,781,4да,
часть домена 1

Таблица 2. Параметры и вывод.

Скачать проект можно по ссылке.

Задание 2

Для задания 2, в котором надо было найти 2 белка и интерпретировать карту их выравнивания, я выбрала следующие белки:

IDQuery IDDescriptionLengthOrganism
V8N5V2_OPHHA (V8N5V2)Query_197297белок главного комплекса гистосовместимости, класс I-related474Ophiophagus hannah (королевская кобра)
A0A0F8BNJ7_LARCR (A0A0F8BNJ7)Query_197295AAA домен-содрержащий белок 2 из семейства ATP-аз2081Larimichthys crocea (желтый горбыль, отр. окунеобразные)

Таблица 3. Белки для второго задания.

Почему именно ти белки? Я хотела найти инвертированную последовательность, на соответствующей странице в википедии нашла название каких-то групп белков, у которых встречаются повторы (VNTR) и вбила их в Pfam, где по доменной организации выбрала интересный случай. Далее я воспользоваласась BLAST, чтобы выровнять эти 2 последовательности. Ниже приведены параметры, при которых производилось выравнивание.

Рисунок 18. Карта выравнивания.

Каждый участок последователньостей я обозначила буквой и цифрой. Вертикалной последовательности соответствуют большие буквы и цифра 1, горизонтальной - маленькие и цифра 2. После этого горизонтальная последовательность была размечена в соответствии с гомологией участков (вторая строка подписей - это гомологичные участки, причем гомологичны те участки, которые обозначенные одной большой буквой). Например, первый и предпоследний участки горизонтальной последовательности соответствуют одному и тому же участку вертикальной, что значит, что все они примерно одинаковы. То есть:

Итого получилось 2 последовательности:
A1B1C1D1E1F1G1H1
F2G2H2A2B2 - F2G2

Что можно про них сказать?
Во-первых, начало второй последовательности соответствует концу первой, а началу первой соответствует продолжение второй. То есть 2 домена поменялись местами (то есть произошла транслокация).
Во-вторых, видна дупликация куска FG во второй последовательности, причем интересно, что в двух белках совпадают фрагменты FGH, однако дупликация не включила в себя H.



НАЗАД ➜
© <Рюмина Екатерина>, 2017