Обязательные задания
Ответы (если не указано иное) храните в файле XXXXXXX_protocol.doc. Здесь XXXXXXX – ваша фамилия латинскими буквами, например Ivanov (чтобы у нас не перепутались файлы). В протоколе обязательны ссылки на файлы (при проверке откроем ваш протокол, и будем смотреть на то, что в нем указано).
Базы данных
1. Сохраните в одном файле в формате fasta последовательности всех белков, закодированных в одном из вирусов (бактериофагов) с расшифрованным полным геномом.
Выбор вируса – за вами. Лучше выбирайте вирусы с небольшим геномом – менее 15 000 нукл, менее 15 белков. Идеальный выбор – тот вирус, про который вас спросят на экзамене
Название файла – XXXXXXX_AAAAAAA_prot.fasta, AAAAAAA – код доступа записи БД EMBL с геномом вируса, например, JX453331.
2. Кратко опишите в протоколе геном вируса (название вируса, таксономия, число генов и белков) и всю понятную вам информацию из записи одного из белков этого вируса. Саму запись сохраните в файле XXXXXXX_AAAAA.uniprot, AAAAA – код доступа записи БД Uniprot.
Выбор белка – за вами. Выбирайте белок, про который хоть что-то известно (есть название, отличное от “unknown protein”).
SRS
Задания выполняются с помощью SRS.
3. Найдите и сохраните запись EMBL с полным геномом выбранного вами ранее вируса. Имя файла - XXXXXXX_AAAAAAA.embl.
4. Найдите и сохраните в файле в формате fasta последовательности из Uniprot 10–15 белков, имеющих такое же название, что и выбранный вами белок (см. 2.) и принадлежащий вирусам из того же семейства, что и выбранный вами вирус (см. 1.). Уровень родства и название белка можно, при необходимости, разумно варьировать.
Имя файла - XXXXXXX_TTTTTTT_prot.fasta, где TTTTTT – краткое название семейства.
Выравнивания и филогения
5. Создайте выравнивание белков из пункта 4. Если среди белков есть явные фрагменты, удалите их (отметив это в протоколе). Сохраните проект JalView выравнивания с раскраской по Blosum62. Опишите в протоколе степень сходства последовательностей (высокая, средняя, низкая); отметьте, если есть плохо выровненные участки и/или, наоборот, участки, выделяющиеся высокой консервативностью.
6. Создайте филогенетическое дерево тех же белков. Сохраните файл в формате Newick и графическое изображение дерева. Сравните реконструкцию филогении белков и таксономию вирусов, из которых они взяты, выводы опишите в протоколе.
Поиск по сходству
Задания выполняются с помощью BLAST на NCBI или EBI.
7. Для каких-нибудь трёх белков из отобранных в п. 1 укажите (для каждого):
- есть ли этот белок в банке Swiss-Prot?
сколько гомологов с E-value < 0.01 находит BLASTP в банке Swiss-Prot? Одинакова ли мнемоника функции (первая часть ID, например HEMA для гемагглютининов) для этих гомологов? Если нет, то какие мнемоники встречаются? Как описаны (поле DE/Definition) эти белки в банке?
сколько гомологов с E-value < 0.01 находит BLASTP в банке PDB? Если гомологи (или сам белок) в PDB есть, то каков процент сходства и каковы координаты начала и конца выравнивания с лучшей находкой? Для какой части белка известна 3D-структура или возможно моделирование по гомологии (процент длины последовательности белка, вошедшей в выравнивания с достоверными гомологами из PDB)?
Пространственные структуры
8. Найдите в PDB структуру какого-нибудь вирусного белка. Сохраните PDB файл в своей рабочей папке. Внесите в протокол:
- Название белка и PDB code структуры.
- Авторов и год расшифровки.
- В какой статье это описано?
- Экспериментальный метод, примененный для расшифровки.
- Разрешение структуры.
- Сколько цепочек в PDB файле?
- Все ли цепочки относятся к вирусным белкам?
- Есть ли участки полипептидной цепи, структуру которых не удалось расшифровать (“missed residues”)?
Сравнение структур белков
9. Найдите белок со структурой, сходной с EXAMPLE.PDB, закристаллизованный в комплексе с ДНК. Внесите в протокол
- PDB ID находки
- Цепочку, сходную с EXAMPLE.PDB
- RMSD совмещения и длину выравнивания