|
Проект "Эволюция белков митохондриальных рибосом"
Подсказки (номер подсказки соответствует номеру упражнения)
- При поиске эукариотических белков не используйте в запросе упоминание
органеллы, т.к. у большинства животных (как, впрочем, и у многих других эукариот) гены рибосомных белков митохондрий
"перешли" в ядерный геном и закодированы в различных хромосомах!
Найти белок из митохондрий эукариот можно используя запрос с упоминанием субчастиц - 28S или
39S. Можно также искать слово "mitochondrial" в поле Description. В последнем случае будут пропущены рибосомальные
белки некоторых растений, закодированные в митохондриальных геномах.
Можно попробовать также сочетание ключевых слов "Mitochondrion" и "Ribosomal protein".
Попробуйте и выберите наиболее эффективный вариант!
- Выбрать нужные последовательности из выравнивания Pfam удобно с помощью команды grep.
Так как количество строк для каждого белка одно и тоже (выравнивание!), то удобно выводить саму находку
и заданное количество (x) строк после.
Пример скрипта на bash:
#!/bin/bash
for i in `cat list_p1`; do
grep -A x ${i} pfam.fasta >> pfam_filtered.ali
done
|
- Программу muscle на kodomo-count надо запускать следующим образом:
muscle -in in.fasta -out out.ali,
добавить веса в выравнивание можно с помощью pwf из пакета PFTOOLs:
pfw -m out.ali > out.weighted.ali
Подсказку к программе можно вызвать командой:
man pfw
- Использование mafft:
mafft-linsi --seed pfam.ali --seed out.weighted.ali /dev/null > output
- Построить профиль можно следующим образом:
pfmake -m out.weighted.ali /usr/share/pftools23/blosum45.cmp > myprofile.prf
Проверьте профиль. Для этого откройте его редактором Far. На этом этапе возможна его ручная корректировка
в известных вам функционально значимых позициях.
Нормировать профиль относительно случайной базы можно следующим образом:
autoscale -m myprofile.prf > myprofile.scaled.prf
Редактировать вручную нормированный профиль уже нельзя - нормировка "собьётся".
Если есть желание, выполните нормировку относительно большой базы 'случайных' последовательностей (SwissProt,
в котором перемешаны буквы во всех последовательностях) - так же, но опустив параметр -m. Нормировка по большой
базе занимает несколько десятков минут.
- Поиск по профилю в выборке последовательностей, где X значение порога (обязательно указывать в виде с десятичным значением, 10.0 ):
pfsearch -C X -f myprofile.scaled.prf Gammaproteobacteria.fasta > gamma.search
pfsearch -C X -f myprofile.scaled.prf Alphaproteobacteria.fasta > alpha.search
- Выбрать из результатов поиска последовательности с заданным GO идентификатором удобно написав небольшой скрипт на perl, прототип кода приведен ниже:
#!/usr/bin/perl
$mygo=111111;
foreach $line (LIST1){
$ac=column 3 from $line;
$wieght=column 1 from $line;
$swrec=`entret sw:$ac stdout`;
foreach (split <\n>, $swrec){
print <$ac\t$weight\n> if $_ =~ /GO:$mygo/;
}
}
|
|