Программа getorf. Поиск гомологов некодирующих последовательностей.

1. Работа с программой getorf пакета EMBOSS.


Последовательность команд:

entret embl:d89965 d89965.entret
tfm getorf > getorf_hepl.txt
getorf -sequence d89965.entret -outseq d89965.orf -minsize 30 -find 1 -methionine
entret sw:P0A7B8 hslv_ecoli.entret

Полученные файлы:
d89965.entret
getorf_help.txt
d89965.orf
hslv_ecoli.entret

Комментарии к некоторым опциям getorf.

Последовательность действий:

  1. Запись embl D89965 является описанием мРНК, выделенной из желудка самца Rattus norvegicus (эукариотический организм - Норвежская Крыса). Поле FT содержит информацию о транслируемой последовательности (белок, родственный серотониновому рецептору):

    UniProtKB/Swiss-Prot:P0A7B8
    
    MALMHFQFTFKQFEQRKSIRSTARKARDDFVVVQTADLFHVAFHY
    GIAQRGLTITSDDHMAVTAYAYYSCHELTPWLRIQSTNPVQKYGA
    
    
  2. Запускаю по файлу записи getorf с параметрами, чтобы длина рамки была более 30 нуклеотидов (-minsize 30), открытая рамка - последовательность триплетов со старт и до стоп-кодона (-find 1), используя стартный кодон (-methionine).
    Пятая последовательность в выдаче соответствует транслированной последовательности из файла:

    >D89965_5 [163 - 432] Rattus norvegicus mRNA for RSS, complete cds.
    MALMHFQFTFKQFEQRKSIRSTARKARDDFVVVQTADLFHVAFHY
    GIAQRGLTITSDDHMAVTAYAYYSCHELTPWLRIQSTNPVQKYGA
    
  3. Извлекаю запись sw:P0A7B8 - является описанием белка теплового шока HslV (субъединица HslV АТФ-зависимой протеазы) Escherichia coli strain K12 (прокариотический организм).
    Его последовательность:

    MTTIVSVRRNGHVVIAGDGQATLGNTVMKGNVKKVRRLYNDKVIA
    GFAGGTADAFTLFELFERKLEMHQGHLVKAAVELAKDWRTDRMLR
    KLEALLAVADETASLIITGNGDVVQPENDLIAIGSGGPYAQAAA
    RALLENTELSAREIAEKALDIAGDICIYTNHFHTIEELSYKA
    
  4. Запускаю blastp по полученной выдаче getorf c запросом последовательностью P0A7B8. Получаю такой результат:

    > D89965_9 [294 - 1] (REVERSE SENSE) Rattus norvegicus mRNA for 
    RSS, complete cds.
    Length=98
    
     Score =  200 bits (509),  Expect = 1e-56, Method: Compositional matrix adjust.
     Identities = 98/98 (100%), Positives = 98/98 (100%), Gaps = 0/98 (0%)
    
    Query  28   MKGNVKKVRRLYNDKVIAGFAGGTADAFTLFELFERKLEMHQGHLVKAAVELAKDWRTDR  87
                MKGNVKKVRRLYNDKVIAGFAGGTADAFTLFELFERKLEMHQGHLVKAAVELAKDWRTDR
    Sbjct  1    MKGNVKKVRRLYNDKVIAGFAGGTADAFTLFELFERKLEMHQGHLVKAAVELAKDWRTDR  60
    
    Query  88   MLRKLEALLAVADETASLIITGNGDVVQPENDLIAIGS  125
                MLRKLEALLAVADETASLIITGNGDVVQPENDLIAIGS
    Sbjct  61   MLRKLEALLAVADETASLIITGNGDVVQPENDLIAIGS  98
    

    То есть, девятая открытая рамка в выдаче совпадает с фрагментом последвоательности белка HslV_ECOLI.

Выводы.
Суммарная картина получается довольно необычная: одна из открытых рамок матричной РНК крысы соответствует фрагменту белка прокариота E.coli.
Внимательно читаю комментарии к записям и референсные статьи. Авторы, получившие данную мРНК из желудка, подробно исследовали её в организме крысы, даже сделали Нозерн-блоттинг всех тканей и нашли распространение RSS мРНК повсеместным (см. "Molecular cloning of a novel gene involved in serotonin receptor-mediated signal transduction in rat stomach" ). О последовательности транслируемого белка авторы заключили по самой длинной открытой рамке считывания. По ней же судили о возможных функциях белка.

Всё же, точное совпадение одной из рамок мРНК крысы и фрагмента бактериального белка настораживают.
HslV_ecoli кодирует белок теплового шока(БТШ), входящий в состав протеосом. Схожесть последовательностей с какими-нибудь БТШ низших эукариот (доказано сущестование у них похожей протеосомы) кажется возможной, но не до полного совпадения последовательностей.

Нахожу в комментариях к описанию HslV_ecoli, что в исследовании с крысами предполагается бактериальное загрязнение E.coli.

Делаю выводы о цене ошибки в научном мире. Огромный труд, применение биоинженерных и биоинформатических инстументов, написание статьи - фактически оказывается исследованием концентрации фрагмента нуклеиновой кислоты кишечной палочки в тканях зараженных крыс...

2. Поиск гомологов некодирующих последовательностей программой BLASTN


Задача: определить, сколько гомологов каждой тРНК, проаннотированной в полном геноме Bacillus subtilis BSn5, находит программа blasn в геноме Geobacillus thermodenitrificans.

Ход работы.

  1. Запустила blastn с запросом trna_bacsu.fasta по банку генома Geobacillus thermodenitrificans (см. предыдущее занятие):

    blastn -query trna_bacsu.fasta -db gt -out result.txt -outfmt 7 -evalue 0.01 -task blastn
    

    Полученный файл: result.txt

  2. Команда, которая проводит поиск количество совпадений для тРНК с названием BSn5_t20894 tRNA-Gln по result.txt:

    grep 'BSn5_t20894' result.txt | grep 'BSn5_t20894 tRNA-Gln' -c -v
    

    Конвеерный счетчик нужен для того, чтобы считать только совпадение названий в таблице, но не в шапке. Результат - 2 находки (а не 3, если подсчитать все совпадения 'BSn5_t20894').

  3. Создаю колонку из названий входных последовательностей и импортирую в Exel:

    grep ">" trna_bacsu.fasta 
    
  4. Для получения скрипта провожу несколько действий. Результат предыдущего этапа редактирую в FAR так, чтобы экспортировать в Exel и получить колонку с полными и короткимии названиями последовательностей. Создаю колонку с верхней ячейкой:

     
    =СЦЕПИТЬ("grep '"; B2; "' result.txt | grep '"; A2; "' -v -c >> count.txt")
    

    где B2 - короткое название последовательности, A2 - полное название последовательности. Распространяю формулу на все строки в колонке. Результат в первой ячейке:

     
    grep 'BSn5_t20894' result.txt | grep 'BSn5_t20894 tRNA-Gln' -v -c >> count.txt
    

    Копирую полученную колонку в отдельный файл "wordcount.sh". Выполняю команду "chmod +x wordcount.sh" и запускаю команду: "./wordcount.sh". Копирую столбец полученных значений в Exel, форматирую до требуемой таблицы.
    Результат: result.xls

3. Поиск гомологов при изменённых параметрах программы BLASTN.


Задача: повторить предыдущее задание ещё два раза с измененными параметрами blastn.
Таким образом, в таблице Exel появятся два новых столбца.
Первый - для blastn c измененной весовой матрицей:

-reward 5 -penalty -4  -gapopen 8 -gapextend 6    #новые параметры для упомянутой команде к blastn

Второй - для измененной весовой матрицы и минимального размера слова (4)

-reward 5 -penalty -4 -gapopen 8 -gapextend 6 -word_size 4

Для интереса провожу ту же работу для стандартных установок и минимальной длины слова:

-word_size 4

Получаю такую таблицу Exel.

Все полученные blastn файлы:

reward penalty gapopen gapextend word_size File
1 -3 5 2 11 result.txt
5 -4 8 6 11 result1.txt
5 -4 8 6 4 result2.txt
1 -3 5 2 4 result3.txt

Небольшая работа по сравнению времени работы blastn: создать скрипт timecout.sh, который будет выводит время работы каждой команды в виде:

real %e 
user %U 
sys %S 

где %e - затраченное реальное время, %U - процессорное время в пользовательстком режиме, %S - процессорное время в режиме ядра.

Формирую таблицу:

reward penalty gapopen gapextend word_size time: real time: user time: sys
1 -3 5 2 11 0.444s 0.224s 0.196s
5 -4 8 6 11 0.485s 0.292s 0.192s
5 -4 8 6 4 8.490s 8.265s 0.204s
1 -3 5 2 4 6.386s 6.232s 0.152s

Изменение только весовой матрицы незначительно замедляет работу;
уменьшение только длины слова замедляет сильно;
изменение и весовой матрицы, и длины слова дает максимальное время.

4. Анализ результатов


(!Выводы об изменении количества находок в зависимости от параметров blastn описаны в п.3!)

Задача: исследовать какую-нибудь пару, находящуюся при одних параметрах и не находящуюся при других параметрах blastn.

Ссылки:
Полный геном Geobacillus thermodenitrificans (GEOTN)
Файл с тРНК Bacillus subtilis BSn5

Совпадение для BLASTN default Совпадение для измененной весовой матрицы Для измененной весовой матрицы и длины слова тРНК BACSU Отрезок в полном геноме GEOTN Аннотация в геноме GEOTN
1--+- --
2-+----
3-++Met 20952 87116-87176 tRNA Pro (87110-87183)
4+--Ser 20956 87032-87105tRNA Arg
5+-+- - -
6++----

Команды и их результаты:



3. Met BACSU и Pro GEOTN 
seqret embl:CP000557 Pro_trna_bacsu.fasta -sask   #87110-87183
needle Pro_trna_bacsu.fasta trna_bacsu.fasta:BSn5_t20952
Pro_trna_bacsu.fasta 

Identity:      49/82 (59.8%)
Similarity:    49/82 (59.8%)
Gaps:          13/82 (15.9%)

 1 cggg-aagtagctcagcttggtagagcaca----tggtttgggaccatggggtcgcaggttcaaatcctgtcttcccga---  74
    ||| ..|||||||||||.|.||||||.||    ||.|    .|.|.||.|||||..|||||.|.|||..||...||.|       
 1 -gggcctgtagctcagctggttagagcgcacgcctgat----aagcgtgaggtcggtggttcgagtccactcaggcccacca  77


4. Ser BACSU и Arg GEOTN
seqret embl:CP000557 Arg_trna_bacsu.fasta -sask   #87032-87105
needle Arg_trna_bacsu.fasta trna_bacsu.fasta:BSn5_t20956
Arg_trna_bacsu.fasta 

Identity:      59/83 (71.1%)
Similarity:    59/83 (71.1%)
Gaps:          16/83 (19.3%)

 1 gcgctcgtagctcaattggatagagc------atctg--actacggatcagaaggttaggggttcgaatcctct-cgagcgcg  74 
   ||||||||||||||.|||||||||||      .||.|  ||.|||..|      ||..||||||||||||| || ||||||||    
 1 gcgctcgtagctcagttggatagagcggtggtttccggtaccacgtct------gtcgggggttcgaatcc-ctccgagcgcg  76 


Проанализировав таблицу с помощью элементарных действий в Exel и находки, выясняю:

1. Изменение весовой матрицы ведет к увеличению числа находок. Объяснение - увеличен reward за совпадение. даже при одинаковой длины выравнивания

2. Изменение к тому же длины слова (уменьшение до минимального) ведет к ещё большему увеличению числа находок.

3. Изменение только длины слова позволяет найти большее число хитов.

4. Выравнивание находки 4 имеет большое число гэпов, из-за чего она не попадает в выдачу blastn c параметрами, когда штрафы за открытие и продолжение гэпов увеличены.

Главная страница
Страница семестра
© Галицына Александра, 2012