Эволюционные домены(практикум 9)

Главная

Выор домена


Таблица 1. Описание выбранного домена из Pfam

AC ID Функция домена Ссылка на страницу домена в Pfam
PF07908
D-aminoacyl_C
D-aminoacylase, C-terminal region. Гидролизует большое число N-ацильных произодных D-аминокислот.
D-aminoacyl_C (PF07908)

23 архитектуы, для которых дступны 859 последовательностей.
Загрузила с помощью JalView выравнивание из Pfam (File > Fetch Sequences по идентификатору PF07908).
Раскрасила по консервативности (ClustalX и By conservation с порогом консервативности 15%).
К последовательности Q9AGH8 добавила 3D структуру (PDB ID 1M7J).
проект JalView.
выравнивание в fasta-формате

Выбор архитектур


С использованием скрипта swisspfam_to_xls.py и файла, содержащего информацию об архитектуре всех последовательностей UniProt (/srv/databases/pfam/swisspfam-2011.gz), была получена таблица с информацией об архитектуре последовательностей, содержащих домен PK, на основе которой в Excel была составлена сводная таблица:
may.xlsx
python swisspfam-to-xls.py -p PF07908 -i /srv/databases/pfam/swisspfam-2011.gz -z -o swisspfam_to_xls_out.txt
В список последовательностей добавила колонки с информацией о таксономической принадлежности(лист "Taxonomy"). Для этого:
Получила AC по идентификаторам отобранных последовательностей: Uniprot => ID mapping.
Вводила список ID и выбирала: "From: UniprotKB AC/ID"; "To: UniprotKB AC".
Получила таблицу перекодировок mapping table. Затем "Uniprot => Retrieve".
Вводила список AC и сохранила flat text.
Затем запустила скрипт: python uniprot-to-taxonomy.py -i uniprot.txt -o uniprot_taxonomy.txt
Дальше соответственно выбрала таксон Bacteria .
Выбрала 2 архитектуры: "Amidohydro_3, D-aminoacyl_C" и "Amidohydro_5, D-aminoacyl_C".
Для каждой архитектуры отобрала больше 20 последовательностей(лист "architectures").
Чтобы оставить в выравнивании нужные последовательности использовала скрипт:
python filter-alignment.py -i may.fa -m ids.txt -o may_out.fa Также получила файл sw.xls (он совпадает с полученным ранее(проверила с помощью "ВПР")):
python swisspfam-to-xls.py -p PF07908 -i /srv/databases/D-aminoacyl_C/swisspfam.gz -z -o sw.xlxs
Открыла may_out.fa в JalView.
Отредактировала: удалила пустые колонки (Edit => Remove Empty columns),создала группы, по одной на всех представителей архитектуры (выделить имена, курсор - на выделенные последовательности, правая кнопка => Selection => Group => Edit name and description), задала раскраску в каждой группе (Group => Color => ClustalX; затем Group => Color => By conservation и подобрала порог 10%).
Проект в JalView: получилось 42 последователности.
Файл с выравниваниями.


©Eliseeva Julia