Учебный сайт Николаевой Дарьи

Главная Первый семестр Второй семестр Ссылки Обо мне Заметки

BLAST


Для выполнения заданий данного практикума была взята аминокислотная последовательность белка аспартатаминотрансферазы из организма бактерии Aquifex aeolicus VF5 (идентификатор в базе данных RefSeq NP_214350). Данная последовательность доступна в формате fasta.

Задание 1.
В данном задании было необходимо найти последовательности из базы данных RefSeq Proteins, сходные с исходной последовательностью белка. Однако в этой базе данных было найдено слишком большое число "хороших" находок и отсутствовали "плохие" (данные термины будут объяснены позднее), что не подходит для выполнения этого задания. Поэтому поиск выполнялся по базе данных Swiss-Prot.

Для этого на сайте NCBI я выбрала программу BLAST, которая ищет схожие с искомой последовательности, затем выбрала protein blast, так как нужно найти сходные аминокислотные последовательности белков. В окно для искомой последовательности (Query Sequence) я скопировала последовательность моего белка в fasta-формате, затем в окне Database выбрала базу данных UniProtKB/Swiss-Prot, в поле Algorithms выбрала blastp (protein-protein BLAST), так как мы ведем поиск по последовательности белка.
Далее я внесла изменения в параметры алгоритма. Я изменила количество выводимых на экран находок (Max target sequences 20000 - чтобы получить максимальное число находок), остальные парметры были оставлены по умолчанию (штрафы за гэпы, ожидаемый порог по E-value, матрица и др.).

Здесь можно ознакомиться с параметрами поиска.
В результате такого запроса было получено 936 находок (Sbjct): 730 белки из организма бактерий, 55 - из организма архей, 151 принадлежат эукариотам. Для того, чтобы определить, какое число находок какой группе организмов принадлежит, я перешла по ссылке Formatting options, там в поле Organisms выбирала нужную группу, затем нажимала кнопку Reformat.

В Таблице 1 для лучшей, худшей находок и находки из середины списка были сравнены важнейшие показатели выравнивания:
  • длину выравнивания
  • bit score - характеристика, показывающая, насколько выравнивание "хорошее" (т. е. насколько сильно совпадает с Query), и нормированная на особенности матрицы. Чем выше bit score, тем лучше выравнивание.
  • процент идентичных остатков
  • процент сходных остатков
  • E-value - число находок с таким же или лучшим Score в случайном банке (чем оно меньше, тем лучше выравнивание)

    В качестве лучшей находки была выбрана вторая с начала списка (так как первая непосредственно является последовательностью искомого белка): Aspartate aminotransferase [Bacillus sp. YM-2], в качестве худшей - последняя: Deoxyribose-phosphate aldolase [Corynebacterium glutamicum ATCC 13032], из середины списка: Histidinol-phosphate aminotransferase [Campylobacter curvus 525.92].

    Таблица 1. Сравнение находок программы BLAST - последовательностей, похожих на последовательность белка NP_214350, по их характеристикам.
    Находка Название белка Организм Длина выравнивания Bit score Процент идентичных колонок, % Процент сходных колонок, % E_value
    Лучшая Aspartate aminotransferase Bacillus sp. YM-2 392 412 52 69 3e-140
    Из середины списка Histidinol-phosphate aminotransferase Campylobacter curvus 525.92 294 52.8 24 42 2е-06
    Худшая Deoxyribose-phosphate aldolase Corynebacterium glutamicum ATCC 13032 73 30.4 32 50 9.7

    Ниже приведены сами выравнивания выбранных последовательностей с исходной (Рис.1-3).

    Изображение не загрузилось
    Рис. 1. Выравнивание последовательности белка Aspartate aminotransferase из организма Bacillus sp. YM-2 с исходной.


    Изображение не загрузилось
    Рис. 2. Выравнивание последовательности белка Histidinol-phosphate aminotransferase из организма Campylobacter curvus 525.92 с исходной.


    Изображение не загрузилось
    Рис. 3. Выравнивание последовательности белка Deoxyribose-phosphate aldolase из организма Corynebacterium glutamicum ATCC 13032 с исходной.


    Из всех полученных находок гомологами исходной последовательности можно считать 394. По условному критерию последовательность можно считать гомологичной, если E-value < 1e-3 и не менее 70% запроса вошло в полученное выравнивание (Query cover). Для того, чтобы найти находки-гомологи, я задала максимальный E-value 0.001 в Formatting options, отсортировала находки по убыванию Query cover и вручную отобрала нужные.
    На Рис. 4 изображено графическое представление находок-гомологов (несмотря на то, что бы выбран режим графического отображения 1000 последовательностей, и последовательности были отсортированы по Query cover, графическое отображение максимально дает находки до 89% Query cover).

    Изображение не загрузилось
    Рис. 4. Графическое представление находок-гомологов.


    Однако вышеупомянутый критерий не всегда является истинным. Может быть так, что происходят довольно обширные индели при дивергенции организмов, поэтому значение Query cover будет ниже 70%, но гомологичность нельзя будет отрицать (особенно если организмы принадлежат к родственным группам). Поэтому с высокой вероятностью можно говорить о гомологичности последовательностей, если это один и тот же белок у родственных организмов, практически не взирая на значение Query cover. К сожалению, такой ситуации у меня не наблюдается, но очень интересное дело обстоит с белком Histidinol-phosphate aminotransferase из различных организмов. По условному критерию большая часть последовательностей этого белка считаются гомологами, а меньшая - нет. Но, вероятно, всю эту группу нужно рассматривать в целом и либо целиком не считать гомологами, либо целиком считать гомологами. Если причислить эти последовательности к числу гомологов, то придется считать "верными" Query cover 40% и E-value 0.33 (еще вариант - считать гомологами последовательности этого белка из организмов только бактерий).

    Задание 2.
    В этом задании я искала схожие с исходной последовательности в организме человека. Для этого я вернулась на страницу с параметрами запроса и в поле Organisms указала Human (Условия поиска). Там среди находок я выбрала последовательность Tyrosine aminotransferase, которая была также найдена в первоначальном запуске (для первоначального результата с помощью окна Formatting options я отобрала находки, относящиеся к человеку (Organism: Human), там нашла Tyrosine aminotransferase). О том, что это та же самая находка, свитедельствуют одинаковые название, Sequence ID: sp|P17735.1|ATTY_HUMAN и длина найденной последовательности (Length: 454).
    У этих находок полностью совпадают выравнивание и Score, отличается только E-value: для последовательности из первоначального запуска 4е-32, для последовательности из второго запуска 2е-33. Такое изменение объяснимо: E-value показывает, насколько случайна полученная находка, и так как второй банк был меньше, то данная находка менее случайна.

    Также я выполнила поиск по нуклеотидной последовательности гена, кодирующего tblastn (Условия поиска).
    Было получено 15035 находок. Многим видам соответствовала не одна находка, а несколько (можно пронаблюдать в Taxonomy reports): Listeria monocytogenes - 16 находок, Bacillus anthracis (anthrax bacterium) - 22 находки, Bacillus subtilis - 9 находок, а также 127 находок соответствуют синтетически созданному гену, кодирующему данный белок. Помимо этого к одному виду могут относиться находки разных штаммов, а также последовательности отдельных участков генома.

    Задание 3.
    Для последовательности Arginine-pyruvate transaminase AruH из организма Pseudomonas aeruginosa PAO1 (идентификатор в UniProtKB - Q9HUI9) было выполнено выравнивание (Условия поиска) и получена локальная карта сходства (Рис. 5):

    Изображение не загрузилось
    Рис. 5. Локальная карта сходства последовательности Arginine-pyruvate transaminase AruH из организма Pseudomonas aeruginosa PAO1 и исходной последовательности.


    На Рис. 5 видны некоторые особенности полученного выравнивания (Рис. 6):

    1. Последовательности совпадают почти на всем протяжении от 30 остатка до конца последовательностей (Query cover 92%).
    2. Первая половина выравнивания "идеальна" (линия на рисунке сплошная) - содержит много консервативных и сходных позиций и не содержит гэпов.
    3. Во второй половине выравнивания присутствуют 4 маленьких гэпа и 2 более протяженных, соответствующие инделям (пробелы на графике).
    4. Нетипичный результат - выравниванию соответствуют не одна, а две находки (Рис. 7). Вторая находка (короткий отрезок под основным графиком) соответствует совпадению между началом последовательности Arginine-pyruvate transaminase AruH и участком из первой трети Query. Однако E-value этой находки 1.6, что свидетельствует о случайности полученного совпадения.

      Изображение не загрузилось
      Рис. 6. Выравнивание последовательности Arginine-pyruvate transaminase AruH из организма Pseudomonas aeruginosa PAO1 и исходной последовательности.


      Изображение не загрузилось
      Рис. 7. Выравнивание второго участка последовательности Arginine-pyruvate transaminase AruH из организма Pseudomonas aeruginosa PAO1 и исходной последовательности.


      Задание 4.
      ДЛя выполнения данного задания я создала свою базу данных, полученную из выравнивания последовательностей из файла align_07.fasta, предварительно удалив все гэпы (файл msa.fasta). Для этого на сервере kodomo я запустила команду makeblastdb с параметром -dbtype prot - так был получен банк, содержащий 9 последовательностей.
      Затем я совершила поиск последовательностей, схожих с моим белком (файл my.fasta) в полученной базе данных (команда blastp).
      Всего программа признала значимыми 4 находки: участки последовательностей MOOTA (2 находки), THETN, EUBR3, DESOD.
      Для лучшей находки (MOOTA 1 и 2) в Таблице 2 перечислены основные характеристики: длина выравнивания, % идентичных и сходных остатков, bit score и E-value, само выравнивание представлено на Рис. 8.

      Таблица 2. Данные о лучшем результате работы программы BLAST по поиску последовательностей, похожих на последовательность белка NP_214350, в банке из файла msa.fasta - находке MOOTA.
      Находка Длина выравнивания Bit score Процент идентичных колонок, % Процент сходных колонок, % E_value
      MOOTA (1 находка) 106 21.6 25 37 0.081
      MOOTA (2 находка) 6 16.2 100 100 5.9

      Изображение не загрузилось
      Рис. 8. Выравнивание последовательности белка аспартатаминотрансферазы из организма бактерии Aquifex aeolicus VF5 (идентификатор RefSeq NP_214350) с последовательностью MOOTA из нового банка.


      О параметрах выравнивания по новой базе данных можно сказать то, что матрица и штрафы за гэпы совпадают с предыдущими запусками, но появляется такой параметр, как Neighboring words threshold со значением 11, а также есть параметр, относящийся к окну выдачи результатов (Window for multiple hits: 40).
      Проанализировав в целом числовые данные и выраванивания, можно заключить, что длина выравниваний меньше, чем в предыдущих запусках программы (для большинства - значительно меньше), Bit score довольно небольшой, процент идентичных и сходных колонок примерно такой же (если длина выравнивания больше 20 остатков) или намного больше, чем в предыдущих выравниваниях, так как полученные выравнивания слишком маленькие. Что касается E-value, то его значение слишком большое для нового банка (при предыдущих запусках при уменьшении банка уменьшался и E-value), даже самое маленькое значение из имеющихся больше 0.001. Так как E-value большой, а Score маленький, то можно судить об отсутствии гомологии, так как полученные совпадения с высокой вероятностью случайны.

© 2014 Дарья Николаева