Проект "Эволюция белков митохондриальных рибосом"

Подсказки (номер подсказки соответствует номеру упражнения)

  1. При поиске эукариотических белков не используйте в запросе упоминание органеллы, т.к. у большинства животных (как, впрочем, и у многих других эукариот) гены рибосомных белков митохондрий "перешли" в ядерный геном и закодированы в различных хромосомах!
    Найти белок из митохондрий эукариот можно используя запрос с упоминанием субчастиц - 28S или 39S. Можно также искать слово "mitochondrial" в поле Description. В последнем случае будут пропущены рибосомальные белки некоторых растений, закодированные в митохондриальных геномах.
    Можно попробовать также сочетание ключевых слов "Mitochondrion" и "Ribosomal protein". Попробуйте и выберите наиболее эффективный вариант!

  2. Выбрать нужные последовательности из выравнивания Pfam удобно с помощью команды grep. Так как количество строк для каждого белка одно и тоже (выравнивание!), то удобно выводить саму находку и заданное количество (x) строк после.
    Пример скрипта на bash:
    
    #!/bin/bash
    
    for i in `cat list_p1`; do
    
    grep -A x ${i} pfam.fasta >> pfam_filtered.ali
    
    done
    
  3. Программу muscle на kodomo-count надо запускать следующим образом:
    muscle -in in.fasta -out out.ali,
    добавить веса в выравнивание можно с помощью pwf из пакета PFTOOLs:
    pfw -m out.ali > out.weighted.ali
    Подсказку к программе можно вызвать командой:
    man pfw
  4. Использование mafft:
     mafft-linsi --seed pfam.ali --seed out.weighted.ali /dev/null > output 
  5. Построить профиль можно следующим образом:
    pfmake -m out.weighted.ali /usr/share/pftools23/blosum45.cmp > myprofile.prf 
    Проверьте профиль. Для этого откройте его редактором Far. На этом этапе возможна его ручная корректировка в известных вам функционально значимых позициях.
    Нормировать профиль относительно случайной базы можно следующим образом:
    autoscale -m myprofile.prf > myprofile.scaled.prf
    Редактировать вручную нормированный профиль уже нельзя - нормировка "собьётся". Если есть желание, выполните нормировку относительно большой базы 'случайных' последовательностей (SwissProt, в котором перемешаны буквы во всех последовательностях) - так же, но опустив параметр -m. Нормировка по большой базе занимает несколько десятков минут.

  6. Поиск по профилю в выборке последовательностей, где X значение порога (обязательно указывать в виде с десятичным значением, 10.0 ):
    pfsearch -C X -f myprofile.scaled.prf Gammaproteobacteria.fasta > gamma.search
    
    pfsearch -C X -f myprofile.scaled.prf Alphaproteobacteria.fasta > alpha.search 
  7. Выбрать из результатов поиска последовательности с заданным GO идентификатором удобно написав небольшой скрипт на perl, прототип кода приведен ниже:
    #!/usr/bin/perl
    
    $mygo=111111;
    
    foreach $line (LIST1){
    
    $ac=column 3 from $line;
    
    $wieght=column 1 from $line;
    
    $swrec=`entret sw:$ac stdout`;
    
    foreach (split <\n>, $swrec){
    
    print <$ac\t$weight\n> if $_ =~ /GO:$mygo/;
    
    }
    }