Рекомендуемая структура директорий
Term_4
Credit_1 (файл ReadMe с названием семейства и, если нужно, комментариями о том что где лежит)
Texts (содержит Protocol, Referat и др. собственные тексты)
InTexts (содержит тексты статей, информацию из интернета и т.п.)
Sequences (все последовательности выборки)
Fasta (полная выборка посл-й в fasta формате и ничего больше)
msf (выравнивания полных посл-й семейства, отдельных доменов, подсемейств)
Detectors (детекторы семейств и подсемейств)
Pattern (файлы *.pat с паттернами, *.fuzzpro с результатами их применений)
HMM (файлы *.hmm с профилями, *.hmmscan с результатами)
Pftools (*.pf, *.pfscan)
3D (трехмерные структуры белков семейства)
Data (xls таблицы и др. файлы со сводными результатами)
Temp (для промежуточных файлов на сеанс работы; мое правило: садясь за компьютер, из этой моей директории могу удалить все файлы не разбираясь. А.Ал.)
Обязательная практическая работа с семейством
Рассчитано на 6 занятий.
Последовательность действий может отличаться от описанной ниже!
Дано: определение семейства FFFF, его "суперсемейства" (более широкого), подсемейства.
№ |
Работа |
Файл (-ы) |
Директория |
Примечания |
1 |
Описать распространенность суперсемейства и семейства по таксонам |
Referat.doc |
Texts |
|
2 |
Описать варианты доменного состава белков суперсемейства и семейства |
Referat.doc |
Texts |
|
3 |
Составить выборку полноразмерных последовательностей семейства |
FFFF.xls *.fasta |
Data Sequences |
На первом этапе: все последовательности из UniProt (sw+trembl), кроме содержащих в поле DE слово "Fragment" |
4 |
Классифицировать белки семейства по аннотированной доменной структуре с указанием положения доменов в каждой последовательности |
FFFF.xls |
Data |
Excel-таблица должна содержать: строки — белки, столбцы — домены, ячейки — от–до |
5 |
Построить правдоподобное выравнивание полноразмерных последовательностей (*) |
FFFF.msf |
MSF |
Используя GeneDoc. В качестве первого приближения разумно взять выдачу Clustal (emma); улучшения — ориентируясь на выравнивания доменов (из Pfam или того же Clustal) |
6 |
Разметить выравнивание "по вертикали" (аннотированнные домены; участки достоверного выравнивания; консервативные участки) |
FFFF.msf |
MSF |
Посредством специальных строк в GeneDoc. |
7 |
Выделить подсемейство |
FFFF.msf FFFF.xls |
MSF Data |
Покраска в GeneDoc. |
8 |
Отметить в выравнивании консервативные позиции подсемейства |
FFFF.msf |
MSF |
Как п.6 |
9 |
Найти и описать диагностические позиции подсемейства |
FFFF.msf |
MSF |
Как п. 8 |
10 |
Составить детекторы семейства – паттерн(ы), HMM-профиль, pftools-профиль. Протестировать их на SwissProt и на выборке представителей семейства |
FFFF.pat, FFFF_sw.fuzzpro, FFFF_fam.fuzzpro Referat.doc |
Patterns |
Для каждого метода: файл с паттерном (профилем), результаты сканирования SwissProt, рез-ты сканирования членов семейства. В реферате привести показатели качества детектора. |
11 |
Составить детектор(ы) подсемейства в семействе. Протестировать его (их) на выборке представителей семейства. |
Логичные названия, указанные в реферате. Referat.doc |
Patterns, HMM, Pftools |
Аналогично п. 10. В реферате ясно написать, насколько детектор способен выделить подсемейство из семейства. |
12 |
Создать изображение 3D-структуры домена одного из представителей семейства (или суперсемейства) с покрашенным консервативным участком (желательно — активным центром фермента). |
FFFF.gif |
3D |
RasMol |
13 |
Перечислить функциональные группы а.о., использованные в работе |
Referat.doc |
Texts |