Подсказки к занятию 10, 2009

Проект "Эволюция белков митохондриальных рибосом"

Подсказки (номер подсказки соответствует номеру упражнения)

При поиске эукариотических белков не используйте в запросе упоминание органеллы, т.к. у большинства животных (как, впрочем, и у многих других эукариот) гены рибосомных белков митохондрий "перешли" в ядерный геном и закодированы в различных хромосомах!
Найти белок из митохондрий эукариот можно используя запрос с упоминанием субчастиц - 28S или 39S. Можно также искать слово "mitochondrial" в поле Description. В последнем случае будут пропущены рибосомальные белки некоторых растений, закодированные в митохондриальных геномах.
Можно попробовать также сочетание ключевых слов "Mitochondrion" и "Ribosomal protein". Попробуйте и выберите наиболее эффективный вариант!
Выбрать нужные последовательности из выравнивания Pfam удобно с помощью команды grep. Так как количество строк для каждого белка одно и тоже (выравнивание!), то удобно выводить саму находку и заданное количество (x) строк после.
Пример скрипта на bash: #!/bin/bash for i in `cat list_p1`; do grep -A x ${i} pfam.fasta >> pfam_filtered.ali done
Программу muscle на kodomo-count надо запускать следующим образом:
muscle -in in.fasta -out out.ali,
добавить веса в выравнивание можно с помощью pwf из пакета PFTOOLs:
pfw -m out.ali > out.weighted.ali
Подсказку к программе можно вызвать командой: man pfw

Использование mafft:
mafft-linsi --seed pfam.ali --seed out.weighted.ali /dev/null > output

Построить профиль можно следующим образом:
pfmake -m out.weighted.ali /usr/share/pftools23/blosum45.cmp > myprofile.prf
Проверьте профиль. Для этого откройте его редактором Far. На этом этапе возможна его ручная корректировка в известных вам функционально значимых позициях.
Нормировать профиль относительно случайной базы можно следующим образом:
autoscale -m myprofile.prf > myprofile.scaled.prf
Редактировать вручную нормированный профиль уже нельзя - нормировка "собьётся". Если есть желание, выполните нормировку относительно большой базы 'случайных' последовательностей (SwissProt, в котором перемешаны буквы во всех последовательностях) - так же, но опустив параметр -m. Нормировка по большой базе занимает несколько десятков минут.
Поиск по профилю в выборке последовательностей, где X значение порога (обязательно указывать в виде с десятичным значением, 10.0 ): pfsearch -C X -f myprofile.scaled.prf Gammaproteobacteria.fasta > gamma.search pfsearch -C X -f myprofile.scaled.prf Alphaproteobacteria.fasta > alpha.search

Выбрать из результатов поиска последовательности с заданным GO идентификатором удобно написав небольшой скрипт на perl, прототип кода приведен ниже:

#!/usr/bin/perl

$mygo=111111;

foreach $line (LIST1){

$ac=column 3 from $line;

$wieght=column 1 from $line;

$swrec=`entret sw:$ac stdout`;

foreach (split <\n>, $swrec){

print <$ac\t$weight\n> if $_ =~ /GO:$mygo/;

}
}