Имена всех файлов для проверки должны начинаться так: XXXXXXX…. ,
где XXXXXXX – фамилия автора работы, написанная латинскими
буквами.
Все файлы для проверки должны лежать в директории H:\Term2\Cr_2. Лишних
файлов в этой директории быть не должно.
Можно (но не обязательно!)
выложить файлы на свой сайт и поместить на них ссылки со страницы
второго семестра.
Данные:
Примечание. Нумерация остатков в PDB файле соответствует порядковым номерам букв в последовательностях (такое, увы, бывает не всегда :)
(a) Построить выравнивание двух данных фрагментов последовательностей какой-либо из программ полного парного выравнивания. Результат сохранить в файле XXXXXXX_auto.msf
(b) Построить биологически обоснованное выравнивание тех же двух фрагментов последовательностей (такое выравнивание включает разметку!). Обоснованием выравнивания должно служить совмещение полипептидных цепей, приведённе в файле Porins_6.ent. Результат сохранить в файле XXXXXXX_bio.msf
(с) В отчете XXXXXXX_cr2.doc (или XXXXXXX_cr2.html):
(i) указать суммарную длину биологически обоснованных участков выравнивания и процент от общего числа позиций выравнивания;
(ii) указать число и процент совпадающих остатков и функционально сходных остатков на биологически обоснованных участках выравнивания;
(iii) прокомментировать расхождения между выравниваниями auto и bio (или указать, что они полностью совпадают) + краткое описание основных этапов работы
Указания.
Как добыть фрагменты последовательностей
В файле Porins_6.fasta последовательности имеют имена A, B, …, F, соответствующие именам цепочек в PDB-файле. Пусть, например, ваши фрагменты такие: 1-37:A, 11-52:F. Тогда команда пакета EMBOSS
seqret porins_6.fasta:A[1:37] region_1.fastaвырежет и положит в файл region_1.fasta нужный фрагмент.
Как построить выравнивание двух последовательностей автоматически
Как умеете :)
Как визуализировать совмещение двух указанных фрагментов совмещенных структур
Я сочинил простенький скрипт ini.spt
для Rasmol, который поможет это сделать
(минус 1 балл от всех в мою пользу :) ААл).
Прежде чем его запускать, вы должны определить командой define
четыре подмножества, а именно:
chain_1 (первая указанная вам цепочка)
chain_2 (вторая)
region_1 (указанный участок от–до
в первой цепочке)
region_2 (во второй)
Например,
define chain_1 *:A define chain_2 *:F define region_1 1-37 define region_2 11-52Дополнительно скрипт изобразит шариками Cα-атомы двух фрагментов, сближенные менее чем на 2 ангстрема.
Как отредактировать выравнивание, чтобы получить биологически обоснованное
Близкие друг другу Cα-атомы из разных цепей должны соответствовать буквам, стоящим друг под другом в биологически обоснованном участке выравнивания. Гэпы могут находиться только против тех остатков, чьи Cα-атомы не имеют близкого Cα-атома из другой цепи. Если в выравнивании «auto» это не так, то редактором GeneDoc отредактируйте выравнивание (см. инструкции по GeneDoc).
Порог близости Cα-атомов в совмещенных структурах, равный 2 ангстрема, не является мировой константой, но б.м. приемлем.
Совмещение данных участков может не быть самым лучшим совмещением. Если глазами видите, что немножко переместив один фрагмент, вы получите лучшее совмещение Cα-атомов, то можете это обстоятельство учитывать при редактировании выравнивания последовательностей. Другой вариант — можно попробовать немножко увеличить порог в ангстремах в скрипте. В любом случае, здравый смысл не помешает :).
“Случайные” совпадения Cα-атомов в пространстве можно игнорировать.
Как разметить выравнивание.
Добавьте в выравнивание фиктивную последовательность с именем Aligned.
В строчке Aligned поставьте букву A (от “aligned”) в тех колонках, где Cα-атомы сопоставлены на основании совмещения структур.
Отметьте буквой A также колонки, слева и справа от которых уже стоят буквы A — скорее всего, расстояние между соответствующими Cα-атомами немножко превысило порог 2 ангстрема.
Уберите букву A из колонок, по соседству с которыми и справа, и слева буква
A не стоит — скорее всего, это “случайное” совпадение
Cα-атомов в пространстве.
Дополнительные задания можно делать только после выполнения обязательного задания.
Дополнительные
задания 2 и 3 можно выполнять в любом порядке.
Для
одного, двух или трех функционально консервативных или консервативных
остатков в последовательности вашего белка (из первого семестра)
выскажите предположение о том, почему они консервативны, в чем их
функциональная роль. Основания для предположения можно найти,
анализируя пространственную структуру того же белка.
Указания
Найдите
в последовательности участок, структура которого имеется в данном вам
файле PDB.
Как найти консервативные позиции в последовательности белка?
Найдите несколько сходных последовательностей, постройте
множественное выравнивание XXXXXXX_cons.msf и в нем найдите консервативные
позиции.
Подробнее:
Как найти сходные последовательности?
Используйте BLASTP чтобы найти несколько (3-5) белков со сходной
последовательностью. Не берите находки с почти такой же
последовательностью, как на входе; очень далекие находки, особенно с
коротким выравниванием, тоже не берите.
Рекомендуемое сходство: Identities ≈ 3060%
при e-value не более 10 4.
Получите
последовательности найденных белков в fasta формате (как
сумеете :).
Не забудьте добавить исходную последовательность в тот же файл!
Как построить выравнивание сразу нескольких последовательностей?
Выполните команду emma пакета EMBOSS. Пример:
Как найти участки предполагаемого биологически обоснованного выравнивания?
Это участки, почти не включающие колонки с разрывами (колонки, содержащие
хотя бы одну черточку) и с относительно большим числом
функционально консервативных позиций. “Почти” —
это ≤ одна-две колонки на 10 позиций.
Как можно объяснить консервативность или функциональную консервативность
остатка?
Входит в активный центр,
контактирует с лигандом или ионом.
Можно ли использовать другую информацию для нахождения консервативных остатков
в последовательности и объяснения их роли?
Да. Найдите
последовательность белка, сходную с одним из данных вам фрагментов
поринов, но не совпадающую с последовательностями из файла
Porins_6.fasta. Постройте выравниваний соответствующего фрагмента
найденной последовательности и двух данных вам фрагментов так, чтобы
предположительно, выравнивание всех трех фрагментов соответствовало
биологически обоснованному.
Результат:
(i) в файле XXXXXXX_cr.doc — по картинке из RasMol на каждый
консервативный остаток и одна-две фразы подписи к каждой картинке;
(ii) выравнивание XXXXXXX_cons.msf.
Дело в том, что
структура из PDB может включать лишь часть белка. Поэтому для анализа
вам может понадобиться из данной последовательности вырезать
фрагмент, соответствующий структуре (плюс-минус несколько остатков
не в счет).
emma my_sequnces_4.fasta msf::ivanov_cons.msf ivanov_cons.dnd
(где my_sequnces_4.fasta –
файл с вашими последовательностями). Формат
msf выходного файла определяется приставкой «msf::».
Смысл второго выходного файла (*.dnd)
будет объяснен в следующем блоке.
Участвует в
белок-белковом взаимодействии, во взаимодействии с ДНК или РНК и т.п.
Боковая цепь участвует в поддержании конформации глобулы.
Например, образует водородную связь между двумя элементами вторичной структуры;
способствует резкому повороту полипептидной цепи (глицин) или ее
особой жесткости (пролин); входит в гидрофобное ядро белка (большие
гидрофобные остатки – триптофан, фенилаланин, тирозин, лейцин,
изолейцин,… — не выходящие на поверхность белка).
3* (дополнительное).
Результат – файл XXXXXXX_bio_3.msf и одна-две фразы в отчете XXXXXXX_cr2.doc
Как это делать
Используйте
BLAST чтобы найти третью последовательность. На вход – один из
фрагментов. Выберите одну из находок. Критерии выбора могут быть
такими, как в задании 2, но строгих ограничений нет.
Проверьте,
как сумеете, что находка не совпадает ни с одной из
последовательностей Porins_6.fasta
Сохраните выравнивание из выдачи BLAST в любом формате.
Вырежьте фрагмент находки и сохраните в fasta формате.
Скопируйте
XXXXXXX_bio.msf в XXXXXXX_bio_3.msf. Откройте XXXXXXX_bio_3.msf с
помощью GenDoc. Импортируйте в это выравнивание полученный фрагмент.
Подравняйте его вручную, ориентируясь на выравнивание из выдачи BLAST
и на здравый смысл. Сохраните файл.
Можно ли это (и другие) задания выполнять как-нибудь иначе?
Да. Важен результат.