Для парного глобального и локального выравниваний я использовала соответственно программы needle и water пакета EMBOSS. Эти программы получают на вход последовательности в формате fasta и выдают (по умолчанию) файлы формата .needle или .water. Чтобы загрузить выравнивания в программу JalView (которая их визуализирует) файл должен иметь, например, формат fasta. Поэтому в программах needle и water используется опция -aformat fasta, и выходной файл пишется в формате .fasta. Cравнение выравниваний проводилось на следующих гомологичных белках (взятых из предыдущего практикума):
Entry | Entry name | Protein names | Length | Organism | Superkingdom |
O65719 | HSP7C_ARATH | Heat shock 70 kDa protein 3 | 649 | Arabidopsis thaliana (Mouse-ear cress) | Eukaryota |
P27541 | HSP70_BRUMA | Heat shock 70 kDa protein | 644 | Brugia malayi (Filarial nematode worm) | Eukaryota |
Таблица 1. Белки, используемые в задании 1.
В таблицах 1 и 2 предствалены данные выравниваний - глобального, полученного с помощью программы needle, и локального, полученного с помощью программы water (как и в предыдущем практикуме для того, чтобы увидеть выравнивание целиком, надо нажать на картинку с его фрагментом). Последняя строчка - общие параметры выравнивания, где приведены средние значения (по последовательностям).
Следует отметить, что в материалах курса имеется путаница со словами "гэп" и "индель". В словаре терминов написано, что гэп - это весь отсутствующий промежуток. Там же написано, что это способ изображения инделя (то есть в выравнивании индель равнозначен гэпу). Однако в презентации к 10 практикуму написано:"Гэп = "-". Но и там признается, что индель тоже часто называют гэпом. В итоге, я решила считать инделем число гэпов в значении словаря (кусков), длиной же гэпов - число символов гэпа. То есть числу инделей соответствует столбец "Gaps", а числу символов гэпа - "Gap Length".
Name | Sequence Length | Aligned Length | Gaps | Gap Length | % | Identity | |||||
---|---|---|---|---|---|---|---|---|---|---|---|
identity 100% | Similar | % | plurality 100% | Similar | % | ||||||
HSP7C_ARATH | 649 | 654 | 2 | 5 | 0,77 | 490 | 0 | 74,92 | 556 | 0 | 85,02 |
HSP70_BRUMA | 644 | 650 | 4 | 6 | 0,92 | 0 | 75,39 | 490 | <66 | 85,54 | |
644 | 654 | 5 | 10 | 0,92 | 0 | 74,92 | 490 | 66 | 85,02 | ||
Выравнивание | 654 | 3,5 | 7,5 | 0,85 | 490 | 0 | 74,92 | 556 | 85,02 |
Таблица 2. Глобальное парное выравнивание (needle)
Рисунок 1. Глобальное парное выравнивание.
Последовательности HSP70_BRUMA соответствует 2 строки, потому что программа выдает длину выравнивания 650 - что на 4 меньше длины выравнивания у другой последовательности. Однако понятно, что эти длины должны совпадать. Скорее всего, дело в том, что программа почему-то игнорирует первые 4 гэпа в HSP70_BRUMA (см рисунок 1), из-за чего длина становится на 4 меньше. Я исправила этот недочет и пересчитала параметры. В сводных данных я использовала исправленные параметры.
Name | Sequence Length | % | Aligned Length | % | Gaps | Gap Length | % | Identity | |||||
---|---|---|---|---|---|---|---|---|---|---|---|---|---|
identity 100% | Similar | % | plurality 100% | Similar | % | ||||||||
HSP7C_ARATH | 641 | 98,77 | 646 | 99,54 | 2 | 5 | 0,77 | 490 | 0 | 75,85 | 556 | 0 | 86,07 |
HSP70_BRUMA | 640 | 99,38 | 100,31 | 4 | 6 | 0,93 | 0 | 490 | 66 | ||||
Выравнивание | 654 | 99,08 | 646 | 99,93 | 3 | 5,5 | 0,85 | 490 | 0 | 75,85 | 556 | 86,07 |
Таблица 3. Локальное выравнивание (water)
Рисунок 2. Локальное парное выравнивание.
Локальное выравнивание отличается от глобального тем, что из первой позиции в любую другую и из любой другой в последнюю можно попасть с нулевым штрафом (штраф за гэп равен нулю). Это позволяет отрезать от начала и с конца куски, которые плохо выравниваются. То есть мы получаем только ту часть выравнивания, где имеется ярко выраженное сходство последовательностей - консервативную часть. Поэтому я ввела еще 2 параметра, по которым удобно сравнивать, насколько велика эта консервативная часть, - процент длины последовательности и длины выравнивания от изначальной длины последовательности.
По рисункам 1 и 2 видно, что в локальном выравнивании у последовательностей отрезано начало - все до AIGID... (соответственно у HSP7C_ARATH отрезано 8 аминокислот, у HSP70_BRUMA - 4). Конец же не изменился.
По умолчанию програмы needle [1] и water [2] используют следующие параметры :
Needle | Water | |
---|---|---|
Матрица весов (для а.к. последовательности) | EBLOSUM62 | EBLOSUM62 |
Штраф за открытие инделя | 10.0 | 10.0 |
Штраф за удлинение инделя | 0.5 | 0.5 |
Штраф за концевой гэп | не задан | не задан |
Таблица 4. Параметры по умолчанию.
В этом задании использовались негомологичные белки из первого семестра - мой и моих однокурсников (на их страницу можно перейти нажав на идентификатор белка в таблице 5). В предыдущих таблицах параметров выравниваний в таблице был столбец similar, но при консервативности 100% значения этого столбца равны нулю, а при функциональной консервативности 100% сумма этого столбца и столбца plurality всегда равна макимальному значению в столбце plurality. Поэтому в таблице 6 столбец similar отсутствует, но он учитывается.
ID | Protein names | Length |
AHB99924.1 | CRISPR-associated protein Csn1 | 1269 |
AML53752.1 | mercuric reductase | 477 |
ALV01889.1 | polyketide synthase | 2094 |
ALX07041.1 | Formate-tetrahydrofolate ligase | 556 |
ANE87960.1 | DNA alkylation repair protein | 237 |
AFH91336.1 | 4-alpha-glucanotransferase | 729 |
Таблица 5. Используемые белки.
Таблица 6. Выравнивания негомологичных белков.
Первое отличие от выравнивания гомологичных белков, которое бросается в глаза - это куда меньший процент длины укороченных последовательностей и выравниванийотносительно изначальной последовательности.
При выравнивании гомологичных белков средняя длина получившейся последовательности была 99,08%, а у негомологичных - 38,35%. Разница аж в 60%!
Средняя длина выравнивания гомологичных белков была 99,93%, а у негомологичных - 45,80. Также очень сильно увеличилась разница длин между двумя выравниваемыми последовательностями.
Все это крайне логично - ведь у негомологичных белков ожидаемо будет меньше сходства, чем у гомологичных, а эти проценты и показывают длину схожих фрагментов.
Число гэпов также резко увеличивается - у гомологичных белков их было меньше процента, во втором же случае около 20%. Что опять-таки понятно, раз сходство меньше, в куда большем числе случаев штраф за гэп окажется меньше веса ребра (веса замены аминокислоты).
На рисунке 3 придставлены 3 выравнивания: глобальное парное, локальное парное, и выравнивание этой пары последовательностей, взятое из множественного выравнивания (из предыдущего практикума).
Рисунок 3. Разные выравнивания пары белков
Видно, что эти выравнивания различаются.
Во-первых, у локального выравнивания отрезано начало (о чем уже говорилось).
Во-вторых, во множественном выравнивании на позициях 38-41 - гэпы. В парных выравниваниях их нет. Появляются они (в очень многих местах, не только в этих позициях) опять-таки из-за сравнения с другими гомологичными последовательностями. То есть выравнивание этих двух друг относительно друга не меняется, но меняется из-за выравнивания с остальными последовательностями множественного выравнивания. И поэтому (из-за учета других последовательностей) скорее всего действительно имеют место.
В-третьих, первые три аминокислоты HSP70_BRUMA в парном выравнивании стоят на позициях 5,6,7, а в множественном - 1,2,3. То есть тут как раз разница в выравнивании одной последовательности относительно другой. Скорее всего, верен второй вариант - ведь множественное выравнивание сравнивало эту последовательность и с другими гомологичными. Видимо, в некоторых из них эти аминокислоты были именно на этих позициях. А значит, скорее всего, и тут они тоже должны идти сначала.
Еще один пример расхождения именно в выравнивании двух последовательностей друг относительно друга - позиции 636-642 во множественном выравнивании и 619-621 в парных (чтобы увидеть - щелкните на картинку). В этом случае, мне кажется, правы парные выравнивания, потому что там получается довольно хороший блок (поз.622-630), если проставить гэпы на поз. 619-620 во второй последовательности. Во множественном выравнивании этих гэпов не стоит (они должны были бы быть на поз.636-637), и блок не образуется. Правда, возможно он образовывался с другими последовательностями.
Для начала рассмотрим такую аналогию. Вальжан тащит раненного Мариуса по Парижу. Для простоты представим себе интересующие нас районы Парижа (его карту) как квадрат из клеток, где каждое ребро клетки - дорога (с севера на юг или запада на восток), а каждая вершина - перекресток. Также в каждой клетке есть диагональ - дорога с северо-запада на юго-восток. Соответственно, с двух сторон этой карты напротив каждого квартала написаны улицы, ограничивающие этот квадрат. Вальжану надо как можно быстрее и с минимальными усилиями унести Мариуса подальше от Жавера - а именно, из северо-западного угла карты в юго-восточный угол. Поэтому он движется только на восток, юг или по диагонали на юго-восток.
Он может идти по улицам Парижа, но из-за волнений все дороги, идущие с севера на юг или с запада на восток либо наглухо перекрыты баррикадами, либо полицейскими заставами - всяко по ним нельзя пройти, только по диагональным. Но зато можно пройти по каналам канализации, которые проложены в точности под дорогами, идущими с севера на юг или с запада на восток. Вход в канализацию есть на каждом перекрестке.
Для того, чтобы расчитывать оптимальный путь, Вальжан ползуется условными баллами: если он теряет время или много сил, он теряет баллы (потому что силы ему еще точно понадобятся), и наоборот. Если идти по улице - то где-то можно наткнуться на патруль и потерять время (минус баллы), однако можно встретить сочувствующих парижан, которые тебе помогут (а значит, ты сэкономишь силы - плюс баллы). Причем пока Вальжан шел на баррикаду к Мариусу, он изучил все эти улицы, так что он знает, где сколько баллов теперь потеряет или приобретет. И используя эти знания ему надо построить оптимальный маршрут, то есть получить две выровненные последовательности улиц (где 2 названия стоят друг под другом если он шел по диагонали, а если же он шел по канализации - стоит пропуск в той последовательности улиц, по которой он не продвинулся, идя по этому каналу, - перепендикулярной последовательности). Канал назвается так же, как улица над ним.
По канализации же путь однообразен, там нет ни дозоров, ни парижан, но он отнимает больше сил, потому что ходьба в жиже по колено сложнее, чем по булыжной мостовой, поэтому за каждый пройденный канал Вальжан теряет баллы (но обычно не так много, как если натыкается на улице на патруль). Но с канализацией все не так просто. Дело в том, что спуститься в нее с Мариусом на плечах - дело очень энергозатратное (как и подняться, но для простоты потерю сил, и, следовательно, баллов при подъеме можно сразу приплюсовать к штрафу за спуск, так что большой штраф будет налогаться только на него). Кроме того, в канализации Вальжан ориентируется куда хуже, поэтому каждый раз перед тем, как поменять направление движения по канализации ему приходится вылезать наверх и осматриваться. Делать он это может без Мариуса, но все равно он тратит довольно много времени. Для просто можно считать, что потери баллов за спуск в канализацию и за смену направления в канализации - равнозначны.
Итого. По улицам можно идти только по диагонали, по канализации в двух других направлениях. Идя по улице, можно получить или потерять баллы, путь по канализации всегда отнимает баллы, но обычно меньше, чем может отнять путь по улице. Больше баллов тратится при спуске в нее и при смене направления. Надо добраться из северо-западного угла карты в противоположный, сохранив макимальную сумму баллов, то есть построить соответствующее выравнивание двух последовательностей улиц.
Это и есть суть глобального выравнивания.
Баллы за путь по улице (то есть когда значение одной последовательности соответствует значению другой) - это вес этого ребра, взятый из матрицы (в аналогии матрица - это знание Вальжана о том, сколько баллов он приобретет или потеряет пройдя по этой диагонали; в биологии - вес замены, которые тем больше, чем вероятнее такая замена).
Баллы за путь по канализации - это штраф за продолжающийся гэп (путь по канализации означает гэп, то есть позицию, в которой значению в одной последовательности ничего не соответствует в другой, в аналогии так получается потому, что продвигаясь параллельно одной стороне карты, он не продвигается по другой - в ней пропуск; в биологии так полчается, когда замена одной аминокислоты на другую менее вероятна,то есть имеет меньший вес, чем отсутствие аминокислоты в одной из последовательностей).
Смена улицы на канализацию и смена направления в канализации - штраф за начало гэпа, который больше, чем за продолжение гэпа (в биологии так получается, потому что зачастую один длинный гэп более вероятен, чем несколько меньших).
Девочка Элли опять попадает в Вошебную страну. Карта этой страны идентична карте из предыдущего задания, вот только канализации там нет. Элли надо попасть в Изумрудный город, который находится в правом нижнем углу карты. Поэтому чтобы укоротить путь, Элли может продвигаться только вправо и вниз. Элли может выбирать, по каким дорогам ей идти (вертикальным, горизонтальным или диагональным), однако не все дороги равноценны. Все горизонтальные и вертикальные дороги одинаковы и однообразны (их "цена" - штраф за гэп), в то время как диагональные отличаются от них и различаются между собой: на каких-то из них ее ждут большие неприятности и потери, на других же наоборот - новые друзья и прочие радости (цена этих дорог - это вес соответствующей пары дорог из матрицы). Элли не хочет неприятностей, но очень хочет подружиться и порадоваться, поэтому и путь она выбирает соответствуйщий.
Изначально ураган может забросить ее в любую вершину карты (точнее Элли может выбрать, куда ее забросит ураган). Этот путь считается нейтральным - ничего особо приятного не произошло, но и неприятного тоже (то есть штраф за начальные гэпы равен 0). Кроме того, она уже знает, как пользоваться серебрянными башмачками, однако, как известно, после полета они куда-то пропадают, поэтому воспользоваться ими можно только один раз - чтобы попасть в Изумрудный город (правый нижний угол). За это перемещение Элли опять-таки ничего не теряет, но и ничего не приобретает (то есть штраф за концевые гэпы тоже равен нулю). Получается, что она может попасть из Канзаса на любой перекресток, и из любого перекрестка в Изумрудный город. Но Элли не будет этого делать, если приятнее будет пройти этот путь по дорогам (то есть если сумма весов соответствующих дорог будет больше нуля).
Если вкратце и без аналогий: по сравнению с предыдущим заданием изменилось то, что есть возможность срезать начало и конец за 0 очков, по карте в одной плоскости можно идти в трех наприавлениях (а не в одном или двух), а штраф за гэпы линеен, то есть любое ребро квадрата имеет одинаковые вес. Пример такого выравнивания можно увидеть на рисунке 4 (красным нарисован ее путь - стрелочки изогнуты, чтобы были видны надписи, которые означают вес ребер, то есть они сооответствуют диагоналям, над которыми изгибаются - все, кроме первой дуги, которая соответствует перелету с нулевым штрафом.
Рисунок 4. Пусть Элли в волшебной стране.
Как это работает? Из некой базы даных (матрицы) нам известно, на диагоналях каких квадратов кто находится (например, в квадрате 2-2' стоит Людоед). Элли не хочет встречаться ни с Саблезубым тигром, ни с Людоедом. Поэтому она их перелетит. Из дальнейших персонажей она хочет избежать только встречи с Бастиндой, поэтому обойдет ее по вертикальной дороге.
В итоге из 2 последовательностей (1 2 3 4 5 и 1' 2' 3' 4' 5' 6') мы получим следующее выравнивание:
3 | 4 | - | 5 |
3' | 4' | 5' | 6' |
В пятницу 21 апреля состоялся концерт Национального филармонического оркестра, дирижировал В.Т. Спиваков. на рисунке 4 показана рассадка людей в части зала (светло-желтым покрашены места сбоку). Из-за того, что часть описанных мной мест - это боковые перепендикулярные остальным ряды, для удобства я перенесла их позади нормальных мест партера - это отражено на рисунок 5. На нем же снизу посчитано число пар мужчина-мужчина, мужчина-женщина, женщина-мужчина и женщина женщина. Всего пар 87. Мужчин всего 30, женщин всего 70 (забавно, что получились круглые числа). Вероятность того, что на каком-то месте сидит мужчина - 0,3, женщина - 0,7 (это параметр Q). Перемножением соответствующих Q получаем вероятность получить на каких-то двух местах пару мм, мж или жж (Q'). Уножив ее на число пар можно получить распределением по типам пар при условии, что люди рассаживаются рандомно. Поделив же получившееся число пар какого-то типа на общее число пар, можно получить параметр, аналогичный Q' - вероятность получить на каком-то месте пару какого-то типа, назовем этот параметр P (это отношение правдоподобия). Для пар мж и жм он усредняется. Далее считается отношение P к Q', берется от него двоичный логарифм и умножается на 100 (для удобства) - это и есть вес.
Рисунок 5. Схема зала | |
Рисунок 6. Схема с развернутыми боковыми сидениями и посчитанными парами |
Q | Вероятность пары такого типа (Q') | Число пар при рандомном распределении | Получившееся число пар | Получившаяся вероятность такого типа (P) | Отношение P/Q' | 100*log | ||
---|---|---|---|---|---|---|---|---|
м | 0,3 | мм | 0,09 | 7,83 | 9 | 0,10 | 1,15 | 20,2 |
ж | 0,7 | жж | 0,49 | 42,63 | 41 | 0,47 | 0,96 | -5,9 |
мж | 0,21 | 18,27 | 19 | 0,21 | 1,01 | 1,4 | ||
жм | 0,21 | 18,27 | 18 |
М | Ж | Сумма | |
М | 20 | 1 | 21 |
Ж | 1 | -6 | -5 |
Сумма | 21 | -5 |
Источники:
НАЗАД ➜ |
© <Рюмина Екатерина>, 2017 |