EMBOSS

Программа getorf пакета EMBOSS

Для изучения программы getorf пакета EMBOSS была взята запись банка EMBL с ID D89965. Полная запись была получена с помощью команды:

entret embl:D89965

Сама запись представлена в файле d89965.entret.

Получим набор трансляций всех открытых рамок данной последовательности, которые определены при использовании стандартного кода и одновременно удовлетворяют следующим условиям:

  • длина не менее 30 аминокислотных остатков;
  • начинаются со старт-кодона (или начала последовательности) и заканчиваются стоп-кодоном (или концом последовательности).

    Используем код:

    getorf d89965.entret -table 0 -minsize 90 -find 1 -outseq d89965_orfs.fasta

    Где -table 0 - стандартный генетический код, -minsize 90 - минимальная длина orf 90 нуклеотидов, -find 1 - нужный тип поиска: orf начинается со старт-кодона и заканчивается стоп-кодоном.
    В результате был получен следующий файл d89965_orfs.fasta:

    >D89965_1 [66 - 155] Rattus norvegicus mRNA for RSS, complete cds.
    MQFHPRLPAVLQVCAACDRYASLLPAQRRL
    >D89965_2 [56 - 169] Rattus norvegicus mRNA for RSS, complete cds.
    MISDAVSSATASSASSLRSMRSVRQSFASSTAALTRWP
    >D89965_3 [163 - 432] Rattus norvegicus mRNA for RSS, complete cds.
    MALMHFQFTFKQFEQRKSIRSTARKARDDFVVVQTADLFHVAFHYGIAQRGLTITSDDHM
    AVTAYAYYSCHELTPWLRIQSTNPVQKYGA
    >D89965_4 [218 - 3] (REVERSE SENSE) Rattus norvegicus mRNA for RSS, complete cds.
    MLLRCSNCLNVNWKCIRAIWSKPPLSWQKTGVPIACCANLKHCWQSRMKLHRLSSPVTVT
    WCSQKTILLLSA
    >D89965_5 [294 - 1] (REVERSE SENSE) Rattus norvegicus mRNA for RSS, complete cds.
    MKGNVKKVRRLYNDKVIAGFAGGTADAFTLFELFERKLEMHQGHLVKAAVELAKDWRTDR
    MLRKLEALLAVADETASLIITGNGDVVQPENDLIAIGS
    

    Определим, какая из найденных открытых рамок соответствует (полностью или частично) приведённой в поле FT кодирующей последовательности (CDS).
    Кодирующая последовательность приведена ниже:

    			MALMHFQFTFKQFEQRKSIRSTARKARDDFVVVQTADLFHVAFHY
    			GIAQRGLTITSDDHMAVTAYAYYSCHELTPWLRIQSTNPVQKYGA
    			

    Этой последовательности полностью соответствует третья найденная ORF (D89965_3).

    Теперь создадим файл с последовательностью записи Swiss-Prot, на которую ссылается данная запись EMBL.

    seqret sw:P0A7B8 sw_prot.fasta

    Теперь выясним, какой из полученных открытых рамок соответствует эта последовательность. Нетрудно заметить, что последовательность соответствует пятой ORF D89965_5 (можно скопировать небольшой кусок из файла sw_prot.fasta и найти его при помощи ctr+F в файле d89965_orfs.fasta). Для подтверждения соответствия приведем выравнивание ORF с последовательностью (для удобства полное выравнивание со всеми ORF приведено в файле - algn_all.fasta, а ниже представлено только выравнивание с D89965_5):

    needle sw_prot.fasta d89965_orfs.fasta -out algn.fasta

    			
    ########################################
    # Program: needle
    # Rundate: Sat 14 Dec 2013 20:02:26
    # Commandline: needle
    #    [-asequence] sw_prot.fasta
    #    [-bsequence] d89965_orfs.fasta
    #    -outfile algn.fasta
    # Align_format: srspair
    # Report_file: algn.fasta
    ########################################
    
    #=======================================
    #
    # Aligned_sequences: 2
    # 1: HSLV_ECOLI
    # 2: D89965_5
    # Matrix: EBLOSUM62
    # Gap_penalty: 10.0
    # Extend_penalty: 0.5
    #
    # Length: 176
    # Identity:      98/176 (55.7%)
    # Similarity:    98/176 (55.7%)
    # Gaps:          78/176 (44.3%)
    # Score: 490.0
    # 
    #
    #=======================================
    
    HSLV_ECOLI         1 MTTIVSVRRNGHVVIAGDGQATLGNTVMKGNVKKVRRLYNDKVIAGFAGG     50
                                                    |||||||||||||||||||||||
    D89965_5           1 ---------------------------MKGNVKKVRRLYNDKVIAGFAGG     23
    
    HSLV_ECOLI        51 TADAFTLFELFERKLEMHQGHLVKAAVELAKDWRTDRMLRKLEALLAVAD    100
                         ||||||||||||||||||||||||||||||||||||||||||||||||||
    D89965_5          24 TADAFTLFELFERKLEMHQGHLVKAAVELAKDWRTDRMLRKLEALLAVAD     73
    
    HSLV_ECOLI       101 ETASLIITGNGDVVQPENDLIAIGSGGPYAQAAARALLENTELSAREIAE    150
                         |||||||||||||||||||||||||                         
    D89965_5          74 ETASLIITGNGDVVQPENDLIAIGS-------------------------     98
    
    HSLV_ECOLI       151 KALDIAGDICIYTNHFHTIEELSYKA    176
                                                   
    D89965_5          98 --------------------------     98
    
    
    #---------------------------------------
    #---------------------------------------
    

    Как видно из результатов, найденный белок отностся к E.coli, в то время как данные ORF относятся к Rattus norvegicus. Это можно объяснить тем, что в процессе пробоподготовки к секвенированию скорее всего произошло загрязнеие образца посторонними мРНК (так секвенировались мРНК эпителия желудка, то вероятность попадания кишечной палочке довольно велика). А потом в автоматическом режиме аннотировали эту запись.


    Файлы-списки

    Теперь скачаем в файл adh.fasta в fasta-формате все доступные в Swissprot последовательности алкогольдегидрогеназ (их идентификаторы описываются выражением adh*_*) при помощи команды:

    seqret sw:adh*_* adh.fasta

    Получим файл с универсальными адресами (USA) этих последовательностей. То, что получится – пример файла-списка ("листфайла").
    Используем программу infoseq с параметрами -only и -usa:

    infoseq adh.fasta -only -usa -out usa.fasta

    Получим из этого файла-списка другой, меньший, с адресами только тех последовательностей, которые взяты из организмов:

    DROMO, PAPHA, STAAM, SULSR, ECOLI, ARATH, METVS, OCTVU, ARATH, ORYSI, STAAR, BACSU, CERCA, STRCA, RABIT, KLUMA, HORSE, YEAST, STAAC, STRCA

    Для этого используем программу grep с параметром -f, чтобы подать ей на вход список слов для поиска:

    grep -f organisms.txt usa.fasta > organisms_list.txt

    Получили файл с адресами последовательностей из нужных организмов.
    На основе этого файла-списка получим fasta-файл с последовательностями дегидрогеназ наших организмов, используя программу seqret:

    seqret @organisms_list.txt org_seq.fasta

    Итого полученные файлы:

  • adh.fasta в fasta-формате все доступные в Swissprot последовательности алкогольдегидрогеназ.
  • usa.fasta с универсальными адресами (USA) этих последовательностей.
  • organisms_list.txt с адресами последовательностей из нужных организмов.
  • org_seq.fasta с последовательностями дегидрогеназ наших организмов.


    EnsEMBL

    Портал EnsEMBL предназначен для визуализации известной информации о геномах человека и животных.

    Получим последовательность всего гена, кодирующего белок NINJ2_HUMAN. При помощи сервера srs мы нашли какая мРНК соответствует нашему белку (AF205633).

    seqret embl:AF205633 NINJ2_1.fasta
    			
    >AF205633 AF205633.1 Homo sapiens ninjurin2 (NINJ2) mRNA, complete cds.
    cccacgcagtctgttcccggcacccggtgcgtgtgaagggacttgagggcagcgagatgg
    aatcagcaagagaaaacatcgaccttcaacctggaagctccgaccccaggagccagccca
    tcaacctgaaccattacgccaccaagaagagcgtggcggagagcatgctggacgtggccc
    tgttcatgtccaacgccatgcggctgaaggcggtgctggagcagggaccatcctctcatt
    actacaccaccctggtcaccctcatcagcctctctctgctcctgcaggtggtcatcggtg
    tcctgctcgtggtcattgcacggctgaacctgaatgaggtagaaaagcagtggcgactca
    accagctcaacaacgcagccaccatcttggtcttcttcactgtggtcatcaatgttttca
    ttacagccttcggggcacataaaacagggttcctggctgccagggcctcaaggaatcctc
    tctgaatgcagcctgggacccaggttctgggcctggaacttctgcctccttcctccgtga
    tctgccaggctcgtgggcactttccacagcccaggagagcttctgaaaggacagtatagc
    tgcccttgctccctacccacagcacctgagttaaaaagtgatttttatgttattggtcta
    agggacttccatcttggtctgaagtcctgagctcagacgcaggtactgccagccatacct
    tcctggtagcatctgctggacctaagtaaggcatgtctgtctaaggccaagtctgcccgg
    cttaaggatgctggttctgactctaccccactgcttccttctgctccaggcctcaatttt
    cccttcttgtaaaatggaatctatatctataaaggtttcttcaaatccaaaaaaaaaaaa
    aaaaaaa
    

    При помощи портала EnsEMBL найдем информацию о гене человека NINJ2_HUMAN, который мы выбрали ранее (см. семестр 3--> online BLAST). Для этого в строку на главной странице "for" впишем NINJ2_HUMAN. Перейдем по ссылке, найденной после ввода. На странице мы найдем основную информацию о гене, кодирующем белок.

    Рис.1 Основна информацию о гене, кодирующем белок на портале EnseMBL

    И print screen сайта видно, что у гена есть 4 транскрипта (т.е. варианта трансляции), 4 экзона, длина транслируюнмой области 188 остатка.


    Далее определим при помощи сервиса BLAST/BLAT (гиперссылка вверху заглавной страницы) местоположение гена в геноме человека. Результаты представлены на рис.2.

    Рис.2 Кариотип полученный с помощью BLAT

    Из рисунка видно, что ген NINJ2_HUMAN локализован в 12 хромосоме (местоположение выделено рамкой).

    Рис.3 Выравнивание хитов против последовательности кодирующей NINJ2_HUMAN



    На странице результата в самом низу дана информация о найденнных совпадениях гена в геноме человека.

    Таблица 1. Лучший хит, найденный при помощи BLAT

    Query

    Chromosome

    Stats

    Start

    End

    Ori

    Name

    Start

    End

    Ori

    Score

    E-val

    %ID

    Length

    504

    889

    -

    Chr:12

    673462

    673847

    +

    1939

    0.0e+00

    100.00

    386

    Осталось не очень понятным, что означает пункт %ID, так как даже у хитов, в которых совпало всего 7-13 нуклеотидов %ID тоже равно 100.00.

    Далее пройдем по гиперссылке Contig view, обозначенной "[C]" левее первой находки (в таблице находок "Alignment Summary" внизу страницы). Откроется страница "Region in detail", посвящённая участку человеческого генома. На ней есть несколько полностью интерактивных картинки: мы можем рассмотреть детальное расположение хита в хромосоме (Рис. 3), в контиге (Рис. 4) и детальное окружение хита (Рис. 5).
    К сожалению, непосредственный эспорт изображений хита в хромосоме через сайт убирает рамочку, показывающую его местоположение. Поэтому следующее изображение получено просто print screen.

    Рис.4 Расположение лучшего хита для гена NINJ2 на 12-ой хромосоме человека

    Красной рамкой выделен участок 673 462-772 945, который кодирует белок NINJ2_HUMAN.

    Рис.5 Расположение хита в контиге

    Красной рамочкой выделен участок 623720-822687

    Рис.6 Детальное окружение хита



    На странице можно настроить разрешение картинки, приблизить или отдалить, прокрутить или экспортировать ее как файл в широком выборе форматов.

    Сам сервис EnsEMBL довольно информативен.

  • © Nuzhdina Ekaterina, 2013