Posted Saturday, November 5, 2016. Renewed Sunday, November 6, 2016 by Marina Gladkova

Поиск по сходству (нуклеотидный BLAST).

Задание 1. Определение таксономии и функции прочтенной нуклеотидной последовательности.


В данном практикуме использовалась последовательность WS2966_aligned.fasta, полученная в практикуме 6. По ней был запущен алгоритм blastn (Somewhat similar sequences) с описанными ниже параметрами.
    База данных (Database): Nucleotide collection (nr/nt)
    Максимально возможное число находок (Max target sequences): 20 000
    Порог ожидания (Expect threshold): 10
    Длина слова (Word size): 10
    Баллы за совпадения и мисматчи (Match/Mismatch scores): 2, -3
    Штрафы за гэпы (Gap costs): открытие (Existence) 5; длина (Extension) 2
    P.S. Параметры алгоритма заданы по умолчанию
Результаты выдачи blastn
Скриншот результатов blastn

Исходя из полученных результатов, можно сделать вывод, что изучаемая последовательность - митохондриальный ген, кодирующий субъединицу 1 цитохром-С оксидазы дыхательного комплекса IV (терминального каталитического комплекса митохондриального окислительного фосфорилирования). Цитохром С играет ключевую роль в аэробном метаболизме. У человека MT-CO1 (COX1) кодируется геном MT-CO1, а у других эукариот генами COX1, CO1 или COI. [1], [2]

Цитохром-C оксидаза бычьего сердцa
Раскраска по цепямAssymetric unit Трансмембранный видTransmembrane surface view
Для определения возможной таксономии прочитанной последовательности я решила использовать первые 9 находок с лучшими параметрами E-value, Query cover и Ident и построила их выравнивание вместе с исходной последовательностью (первая сверху).

Выравнивание последовательностей

Скриншот выравнивания


После анализа выравнивания, я могу предположить, что данная мне последовательность может принадлежть морскому червю Polycyrrus medusa (так как при сравнении первых двух последовательностей была выявления только одна замена в 474 позиции (C->T)). Количество замен в последовательностях других находок резко отличаются. Например, у Polycymus sp. только на первую сотню нуклеотидов приходится 4 замены, а всего их порядка 40. Вообще говоря, в данных последовательностях достаточно хорошо прослеживается гомология, что подтверждает родственность таксонов, к которым относятся представители, а именно: [3]
  • Amphitrite cirrata, Neoamphitrite - подсемейство Terebellinae семейства Terebellidae;
  • Polycirrus carolinensis, Polycirrus medusa, Polycirrus phosphoreus - подсемейство Polycirrinae семейства Terebellidae
  • Таким образом. определена таксономия (до рода): Eukaryota; Animalia; Metazoa; Bilateria; Protostomia; Lophotrochozoa; Annelida; Polychaeta; Sedentaria; Canalipalpata; Terebellida; Terebellomorpha; Terebellidae; Polycirrinae; Polycirrus; Polycirrus medusa (?).

    Polycirrus medusa [4]
    © BIO Photography Group, Biodiversity Institute of Ontario

    Фотография червя



    Задание 2. Сравнение списков находок нуклеотидной последовательности 3-я разными алгоритмами BLAST.


    При помощи параметров запуска (в таблице ниже), был проведен анализ результатов работы трех алгоритмов - blastn (Somewhat similar sequences), discontiguous megablast (More dissimilar sequences) и megablast (Highly similar sequences) с ограничением по таксону Terebellidae.

    Параметры алгоритмов BLAST
    blastndiscontiguous megablastmegablast
    DatabaseNucleotide collection (nr/nt)Nucleotide collection (nr/nt)Nucleotide collection (nr/nt)
    Max target sequence100010001000
    Expect threshold101010
    Word size71120
    Max matches in a query gap000
    Match/Mismatch scores2, -32, -31, -2
    Gap costsExistence:5 Extension:2Existence:5 Extension:2Linear

    Результаты выдачи алгоритмов
    blastn
    discontigous megablast
    megablast

    Сравнение алгоритмов
    blastndiscontiguous megablastmegablast
    Число находок11711772
    Max score лучшей находки109210921116
    Max score худшей находки203203248
    E-value лучшей находки0.00.00.0
    E-value худшей находки7e-547e-542e-67
    Identity лучшей находки (%)999999
    Identity худшей находки (%)676775
    Лучшее Query cover100100100
    Худшее Query cover757575



    P.S. Из таблицы были удалены находки со значениями E-value >0.001 и Query cover <60%, так как они не учитывались при анализе.

    Как можно видеть из данных таблицы, результаты работы blastn и discontiguous megablast по случайному совпадению оказались идентичными, поэтому адекватную оценку при сравнении данных алгоритмов получить было сложно. Зато очевидна их разница в работе относительно megablast. 41 находка, которая была найдена с помощью blastn и discontiguous megablast не найдена в megablast. Соответственно все находки из выдачи megablast, были найдены в каждом случае.
    Первые 5 находок (самые лучшие) одинаковы во всех алгоритмах. В выдаче blastn и discontiguous megablast были негомологичные находки, не подходящие по рангу E-value, Query или Identity cover, что говорит о меньшей точности алгоритмов. К примеру, E-value худшей находки blastn составляет 7e-54, в то время как у megablast 2e-67. Но также megablast отсеивает и "подозрительно хорошие" находки, оставляя, вероятно, наиболее гомологичные, что возможно благодаря большой длине Word size, которая по умолчанию составляет 28 (я выбрала 20).
    Пример находки, которая была обнаружена только blastn и discontiguous blast: Terebellidae sp. BOLD:AAG2978 voucher BIOUG:WS0087 cytochrome oxidase subunit 1 (COI) gene, partial cds; mitochondria. Ee Max score=Total score - 601; Query cover - 100,00%; E-value - 7,00E-174; Ident - 82,00%. На схеме отсутствуют участки длиной 20, что и объясняет отсутствие соответствующей ей последовательности в результатах выдачи megablst.
    Sequence ID: HM417788.1 Length: 660 Number of Matches: 1 Range 1: 29 to 639 
    Score    	Expect	Identities	Gaps    	Strand
    601 bits(666) 	7e-174 	499/611(82%) 	0/611(0%) 	Plus/Plus
    
    Query  1    GAGGAGGATTATTAGGAACCTCTATAAGACTACTCATCCGAATTGAACTTGGCCAACCTG  60
                |||||||  |  | || || ||||||||||| || || ||| | ||| | |||||||| |
    Sbjct  29   GAGGAGGCCTTCTTGGTACTTCTATAAGACTTCTAATTCGAGTAGAATTAGGCCAACCAG  88
    
    Query  61   GTGCTTTTCTTGGAAGAGACCAATTATATAACACTATTGTAACTGCTCACGGGCTACTTA  120
                | || ||  | || |||||||||||||| || |||||||| || || ||||| ||||| |
    Sbjct  89   GAGCCTTCTTAGGCAGAGACCAATTATACAATACTATTGTTACCGCCCACGGCCTACTAA  148
    
    Query  121  TAATCTTTTTTCTTGTTATACCTGTACTTATTGGAGGTTTTGGAAACTGATTAATCCCAC  180
                |||| || ||| | || ||||||||  | || || || || |||||||||||||||||  
    Sbjct  149  TAATTTTCTTTTTAGTAATACCTGTTTTAATCGGGGGGTTCGGAAACTGATTAATCCCTT  208
    
    Query  181  TTATATTAGGCGCACCAGACATAGCCTTCCCACGAATAAACAATATAAGGTTTTGACTAC  240
                | |||||||| |||||||| ||||| ||||| || ||||||||| |||| ||||| ||||
    Sbjct  209  TAATATTAGGAGCACCAGATATAGCTTTCCCGCGTATAAACAATTTAAGATTTTGGCTAC  268
    
    Query  241  TCCCTCCTGCACTACTTYTYCTCCTCGCTTCCGCAGCAGTTGAAAAAGGAGTAGGAACTG  300
                |||| ||||| || ||| | || ||    || |||||||| ||||||||||| || || |
    Sbjct  269  TCCCGCCTGCTCTTCTTCTTCTTCTTAGCTCTGCAGCAGTAGAAAAAGGAGTTGGGACAG  328
    
    Query  301  GTTGGACTCTTTACCCCCCTTTAGCAAGAAATCTAGCACATGCTGGACCCTCAGTAGACC  360
                |||||||| ||||||| |||||||| |||||| |||| |||||||| || ||||||||||
    Sbjct  329  GTTGGACTGTTTACCCTCCTTTAGCTAGAAATATAGCCCATGCTGGCCCATCAGTAGACC  388
    
    Query  361  TTGCTATTTTTTCACTACATTTAGCTGGTATTTCCTCAATTTTAGGAGCTATTAACTTTA  420
                |||| ||||||||  |||||||||| ||||| || |||||| | ||||| ||||| ||||
    Sbjct  389  TTGCAATTTTTTCTTTACATTTAGCAGGTATCTCTTCAATTCTTGGAGCCATTAATTTTA  448
    
    Query  421  TCACAACAGTAGCAAATATACGATGAAAAGGACTACGTCTAGAACGAGTTCCTCTATTTG  480
                | ||||| || || |||||||||||||||||| ||||||| || ||| ||||| ||||||
    Sbjct  449  TTACAACTGTTGCTAATATACGATGAAAAGGATTACGTCTTGAGCGAATTCCTTTATTTG  508
    
    Query  481  TTTGAGCTGTAGATATCACTGTTGTTCTACTACTTTTATCCCTCCCTGTATTAGCCGGAG  540
                ||||||||||  ||||||| ||| |||| || ||||||||| | || || ||||| || |
    Sbjct  509  TTTGAGCTGTTAATATCACAGTTATTCTCCTTCTTTTATCCTTACCCGTTTTAGCAGGGG  568
    
    Query  541  CAATTACTATATTATTAACAGACCGAAATGTTAACACATCATTCTTTGACCCTAGAGGAG  600
                |||| || ||| | ||||||||||| ||||||||||| ||||| |||||||| |||||||
    Sbjct  569  CAATCACAATACTTTTAACAGACCGTAATGTTAACACCTCATTTTTTGACCCAAGAGGAG  628
    
    Query  601  GAGGAGACCCA  611
                |||||||||||
    Sbjct  629  GAGGAGACCCA  639

    Выводы:
    1) blastn выдает достаточно большое количество последовательностей (достаточно коротких), однако далеко не все из них могут являться гомологами изучаемой, удобно использовать при идентификации конкретной нуклеотидной последовательности, сравнивания с уже имеющимися последовательностями в базах данных;
    2) discontiguous megablast может быть использован при изучении дивергировавших гомологов во время межвидового анализа;
    3) megablast удобен при внутривидовом анализе, подходит для выравнивания длинных последовательностей.


    Задание 3. Проверка наличия гомологов трех белков у Amoboaphelidium protococarum.


    Благодаря использованию локального BLAST в этом задании были проверены на наличие гомологов в геноме организма X5 (Amoeboaphelidium protococarum) следующие белки: HSP7C_HUMAN, CISY_HUMAN, RPB2_HUMAN.
    Указанный организм относится к афелидам, родственному настоящим грибам таксону. Все описанные виды - внутриклеточные паразиты водорослей с фаготрофной амебоидной вегетативной стадией, инвазивная циста с короткой инфекционной трубкой аппарата проникновения, зооспоры с псевдоподиями и/или направленным назад функционирующим (возможно, рудиментарным) жгутиком. [5]

    Amoeboaphelidium protococarum

    Сначала я создала локальную базу данных генома Amoeboaphelidium protococarum:
    makeblastdb -in X5.fasta -dbtype nucl
    Программа makeblastdb принимает файл с последовательностями в fasta-формате (параметр "-in") и создаёт локальную базу данных. Параметр "-dbtype" указывает на тип последовательности (в случае нуклеотидной последовательности нужно указать "-dbtype nucl"). [6]
    После этого для каждого белка был запущен алгоритм tblastn, находящий гомологи белка в трансляции нуклеотидного банка (т.е. данного нам генома):
    tblastn -query xxx.fasta -db X5.fasta -out xxx.out -outfmt 7


    Описание результатов выдачи алгоритма

    HSP7C_HUMAN

    Белок HSP7C - белок теплового шока. Выступает репрессором активации транскрипции. Ингибирует транскрипционную активность CITED1 Smad-опосредованной транскрипции. Консервативный шаперон HSP70. Компонент комплекса PRP19-CDC5L, формирующий концевую часть сплайсосомы, необходим для активации сплайсинга pre-mRNA. Контактирует со всеми ее компонентами, поэтому может выполнять структурную функцию. Связывается с бактериальными LPS, выступает посредником в LPS-индуцированной воспалительной реакции, включая секрецию моноцитами фактора некроза опухолей TNF. [7]
    Белки Hsp70 имеют 3 главных функциональных домена. На N-конце — АТФ-связывающий домен, гидролизует ее до АДФ. Между N- и С- концами находится консервативный домен (петля), связывающий субстрат. Домен на C-концевом участке с выраженной альфа-спиральной структурой выступает в качестве лида для субстрат-связывающего домена. [8]
    По результатам алгоритма для данного белка было получено 22 находки. Лучшая из них (scaffold-199) с большой вероятностью гомологична. Ее параметры таковы:
    > scaffold-199
    Length=1112851
    Score =  917 bits (2369),  Expect = 0.0, Method: Compositional matrix adjust.
    Identities = 474/607 (78%), Positives = 538/607 (89%), Gaps = 0/607 (0%)
    Frame = -2
    Кроме того, среди полученных выравниваний встречались и те, куда вошли определенные участки изучаемого белка, что говорит о гомологии доменов. В качестве примера можно рассмотреть unplaced-999, возможно, являющегося частью более крупного домена-гомолога (его точное расположение не определено):
    > unplaced-999
    Length=6853
    Score =  549 bits (1414),  Expect = 5e-174, Method: Compositional matrix adjust.
    Identities = 261/313 (83%), Positives = 288/313 (92%), Gaps = 0/313 (0%)
    Frame = -2
    По данным Uniprot участку с 1 по 386 позицию на N-терминальном конце соответствует домен АТФазы, следовательно, в протеоме Amoeboaphelidium protococarum есть гомологичный данному домену.

    Выдача tblastn по HSP7C Выдача tblastn по HSP7C c комментариями

    CISY_HUMAN

    Белок CISY_HUMAN - митохондриальная цитрат-синтаза. Проявляет каталитическую активность в реакции: Acetyl-CoA + H2O + oxaloacetate = citrate + CoA. Участвует в цикле Кребса (трикарбоновых кислот). Располагается в митохондриальном матриксе эукариот, но закодирован в ядре. Синтезируется на цитоплазматических рибосомах, затем транспортируется в митохондрии. [9], [10]
    Из 6 полученных находок (в двух скэффолдах их получилось по 2) лучшей оказалась scaffold-693:
    > scaffold-693
    Length=1268102
    Score =  565 bits (1457),  Expect = 2e-180, Method: Compositional matrix adjust.
    Identities = 262/377 (69%), Positives = 315/377 (84%), Gaps = 3/377 (1%)
    Frame = +1
    Следует отметить ее фактическую идентичность со scaffold-157 (с разницей 1 в BitScore, E-value немного больше — 5e-180 сравнительно с 2e-180 у scaffold-693). За исключением различий рамки считвыания выравнивания из этих двух скэффолодов с последовательностью CISY_HUMAN были практически одинаковым. Параметры выравниваний говорят о его хорошем качестве, а также о гомологии исследуемого белка без изменения функций.

    Выдача tblastn по CISY Выдача tblastn по CISY c комментариями

    RPB2_HUMAN

    Белок RPB2_HUMAN - ДНК-зависимая РНК-полимераза, катализирует транскрипцию ДНК в РНК с использованием в качестве субстрата рибонуклеозидтрифосфаты. Синтезирует предшественники мРНК и множество некодирующих РНК. [11] Фермент, который кодируется геном POLR2B у человека. Данный ген кодирует вторую по величине субъединицу РНК-полимеразы II, ответственной за синтез РНК у эукариот. [12]
    Из 13 находок параметры первых двух очень схожи:
    > scaffold-463
    Length=442349
    Score = 1341 bits (3470),  Expect = 0.0, Method: Compositional matrix adjust.
    Identities = 690/1177 (59%), Positives = 879/1177 (75%), Gaps = 32/1177 (3%)
    Frame = +1
    > scaffold-359 Length=583372 Score = 1336 bits (3457), Expect = 0.0, Method: Compositional matrix adjust. Identities = 687/1177 (58%), Positives = 877/1177 (75%), Gaps = 32/1177 (3%) Frame = -3
    Остальные же, на мой взгляд, вряд ли можно назвать гомологичными белку исследуемого организма ввиду слишком низких параметров. Качество покрытия двух лучших выравниваний позволяет говорить об условно положительной гомологии (вероятно, только один из доменов консервативен, остальные же у человека и Amoeboaphelidium protococarum могут различаться).

    Выдача tblastn по RPB2 Выдача tblastn по RPB2 c комментариями


    Задание 4. Поиск гена белка, закодированного в одном скэффолде Amoeboaphelidium.


    Для выполнения задания в геноме Amoeboaphelidium protococarum был выбран scaffold-17. С помощью следующей команды я получила информацию о длине скэффолдов:
    infoseq X5.fasta -only -name -length
    Далее была извелечена последовательность scaffold-17 длиной в 2125590 нуклеотида (достаточной длинная, чтобы в ней наверняка нашелся хотя бы один ген):
    seqret X5.fasta:scaffold-17 -out scaf17.fasta
    По выбранной последовательности был запущен алгоритм megablast с ограничением по таксонам Opisthokonta (taxid:33154) и Fungi, так как для данного рода кроме A. protococarum больше нет представителей с отсеквенированным геномом.

    Выдача megablast с ограничением Opisthokonta

    Выдача megablast с ограничением Fungi

    Как можно видеть, процент идентичности последовательностей достаточно высок, а E-value равен 0.0. Нулевой процент покрытия объясняется малой длиной гена в сравнении с двухмиллионным скэффолдом. Исходя из результатов работы алгоритма, предполагаю, что в scaffold-17 закодирован ген актина.


    Источники