BLAST


Что было сделано:


Задание 1


Чтобы определить таксономию и функцию нуклеотидной последовыательности, полученной путем секвенирования по Сэнгеру, нужно найти наиболее близкого гомолога. Сделать это, по предположению, получится с помощью алгоритма megablast.

Параметры поиска брали по умолчанию.

Алгоритм показал 100 последовательностей.

Почти все результаты выдали ген первой субъединицы цитохром с-оксидазы, обозначаемой у организмов эукариот как СОХ1, СО1 или СОI. Были несколько результатов с полным митохондриальным геномом.

Все выданные записи принадлежат организмам семейства митилид - морским двустворчатым моллюскам, распространенным по всему Мировому океану.

Наиболее подходящим организмом, судя по Score (чем больше, тем лучше), E-value ~0.0, проценту идентичности (больше 99.0%), проценту покрытия (больше 90%), наиболее подходящим организмом является Modiolus modiolus vouscher.

Таким образом, с помощью алгоритма megablast можно выявить функцию последовательности и таксономию хозяина этой последовательности. В нашем случае последователльность кодирует цитохром с-оксидазу - оксидаза аэробной дыхательной цепи переноса электронов. Предполагаемая таксономия организма:

Примечание: Картинки с результатами работы с бластом приведены ниже:

Предполагаемые организмы:

NCBI_Blast_Nucleotide Sequence

Покрытие:

NCBI_graphics

Предполагаемая таксономия:

NCBI_taxonomy

Задание 2


Чтобы сравнить результаты выдачи трех вариантов blast, предлагается сравнить сначала по своей последовательности из предыдущего задания. Предложено было 3 варианта работы алгоритма: megablast, blastn (параметры по умолчанию), blastn ("чувствительные" параметры)

Начнем с первого - megablast. Просто вбиваем консенсусную последовательность и бластуем с параметрами по умолчанию. Получилось то же, что и в задании 1, разумеется, ведь использован был тот же самый алгоритм и та же самая последовательность. Число находок 100. Картинки можно посмотреть выше.

Теперь blastn с параметрами по умолчанию. Делаем то же самое, что и в предыдущем опыте, только изменяем алгоритм. Число находок, по-прежнему, 100. Длины последовательностей в выравнивании даже более схожи, чем при использовании megablast.

Предполагаемые организмы:

NCBI_Blast_Nucleotide Sequence_2

Покрытие:

NCBI_graphics_2

Предполагаемая таксономия:

NCBI_taxonomy_2

Дальше чуть поинтереснее, наверное: blastn с чувствительными параметрами. Чтобы сделать параметры алгоритма более чувствительными, уменьшим длину слова до 7 и выберем значение Match/Mismatch Scores на 1/-4. Все то же количество находок - 100, однако встретились последовательности, процент покрытия которых не внушает доверие. Думаю, были подобраны не самые чувствительные параметры.

Предполагаемые организмы:

NCBI_Blast_Nucleotide Sequence_3

Покрытие:

NCBI_graphics_3

Предполагаемая таксономия:

NCBI_taxonomy_3

Попробую сменить параметр Match/Mismatch Scores на 4/-5, остальное оставить неизменным. Результаты в разы лучше, и теперь они больше похожи на результаты работы предыдущих алгоритмов. Процент покрытия последовательностей в выравнивании стал чуть больше, число находок, по-прежнему, 100.

Предполагаемые организмы:

NCBI_Blast_Nucleotide Sequence_3'

Покрытие:

NCBI_graphics_3'

Предполагаемая таксономия:

NCBI_taxonomy_3'

Примечаниe: Скачать консенсусную последовательность из шестого практикума можно здесь

Далее предлагается проделать ту же работу, только с одним из CDS из 7 практикума. Я взяла самый первый CDS из этого файла.

megablast (параметры по умолчанию): алгоритм выдал 13 находок - среди них есть фаг из 7 практикума, остальные последовательности принадлежат, в основном, Спироплазмам. Процент покрытия и идентичности у болльшинства последовательностей достаточно большой - около 90%, но у некоторых довольно короткое покрытие (отмечено зеленым на картинке с покрытиями.)

Предполагаемые организмы:

NCBI_Blast_Nucleotide Sequence_4

Покрытие:

NCBI_graphics_4

Предполагаемая таксономия:

NCBI_taxonomy_4

blastn с параметрами по умолчанию: алгоритм выдал 100 находок - среди них есть те 2 последовательности, которые принадлежат разным организмам (Спироплазме и ее фагу), однако имеют 100% покрытие и идентичность (эти последовательности были выданы и при пользовании алгоритмом megablast). Большинство из представленных последовательностей с неприлично маленьким покрытием (менее 10%) и большим E-value. Если не брать такие последовательности в расчет, то остается всего 12 последовательностей, которые нам удовлетворяют. Почти у всех из удовлетворяющих последовательностей покрытие 100%, E-value~0, а идентичность около 100%, что очень даже неплохо. Как и в поиске мегабластом, хозяевами последовательностей в большинстве случаев является Спироплазма.

Предполагаемые организмы:

NCBI_Blast_Nucleotide Sequence_5

Покрытие:

NCBI_graphics_5

Предполагаемая таксономия:

NCBI_taxonomy_5

blastn c Match/Mismatch Scores 4/-5 и длиной слова 7: выдано 100 находок, они сравнительно лучше выданных предыдущим алгоритмом, по-прежнему удовлетворяют поиску по покрытию, идентичности и E-value почти те же 12 последовательностей.

Предполагаемые организмы:

NCBI_Blast_Nucleotide Sequence_6

Покрытие:

NCBI_graphics_6

Предполагаемая таксономия:

NCBI_taxonomy_6

В целом, megablast ищет наиболее близких гомологов и делает это достаточно быстро, а blastn находит больше последовательностей, но они не все могут называться гомологичными. Также были опытным путем установлены наиболее чувствительные параметры blastn: Match/Mismatch Scores 4/-5 и длина слова 7.

Задание 3


Требовалось проверить наличие гомологов трех белков в неаннотированном геноме Amoeboaphelidium protococcarum. Чтобы найти гомологи белков в формальной трансляции, нужно использовать алгоритм tblastn. Я выбрала три белка, которые, по предположению, должны быть распространены у всех эукариот:

Через терминал на кодомо были созданы три файла с результатами работы tblastn

elF2

tblastn -query elf2.fasta -db genome.fasta -out elf2.out -evalue 0.01 -outfmt 7
# TBLASTN 2.2.28+
# Query: XP_001383055.2 eIF2 [Scheffersomyces stipitis CBS 6054]
# Database: genome.fasta
# Fields: query id, subject id, % identity, alignment length, mismatches, gap opens, q. start, q. end, s. start, s. end, evalue, bit score
# 2 hits found
XP_001383055.2  scaffold-51     50.31   159     75      2       111     269     20325   20789   3e-41    154
XP_001383055.2  scaffold-104    50.31   159     75      2       111     269     357434  357898  9e-41    152
# BLAST processed 1 queries

Эти находки, скорее всего, можно назвать гомологами, так как процент идентичности >=50, покрытие хорошее за счет малого числа гэпов, E-value достаточно мало, чтобы рассматривать эти последовательности как гомологи искомой последовательности белка.

DNA ligase [Thermus thermophilus HB8]

tblastn -query dna_ligase.fasta -db genome.fasta -out dna_ligase.out -evalue 0.01 -outfmt 7
# TBLASTN 2.2.28+
# Query: AAA27486.1 DNA ligase [Thermus thermophilus HB8]
# Database: genome.fasta
# Fields: query id, subject id, % identity, alignment length, mismatches, gap opens, q. start, q. end, s. start, s. end, evalue, bit score
# 1 hits found
AAA27486.1      unplaced-982    46.91   81      40      3       569     646     18475   18717   8e-09   58.9
# BLAST processed 1 queries

Эту находку, я думаю, нельзя назвать гомологичной последовательности искомой ДНК-лигазы, потому что длина выравнивания ну уж очень мала по сравнению с последовательностью искомого белка.

RPB2

tblastn -query rpb2.fasta -db genome.fasta -out rpb2.out -evalue 0.01 -outfmt 7
# BLASTN 2.2.28+
# Query: AFV31136.1 RPB2 [Amoeboaphelidium protococcarum]
# Database: /home/students/y18/spyro/term3/block2/pr8/genome.fasta
# 0 hits found
# BLAST processed 1 queries

Гомолог не нашелся, что очень странно. Именно эта последовательность должна быть в геноме Amoeboaphelidium protococcarum. Вот ссылка в NCBI. Возможно, это связано с тем, что база данных на kodomo слегка устаревшая.

Задание 4


Возьмем какой-нибудь скэффолд, скажем, 0, взятый из файла Х5 из предыдущего задания. Используем blastx, который выравнивает транслированную последовательность нуклеотидов с базой данных белков. Будем искать в базе данных RefSeq.

Длина искомой последовательности 2822.

Алгоритм выдал 100 последовательностей с одним и тем же процентом покрытия (67%), но с немного разным E-value, у некоторых последовательностей оно настолько мало, что отображается просто как 0.0. Абсолютное большинство результатов выдало белок, участвующий в белковом транспорте. Имя этому белку Sec24C.

Результат работы алгоритма blastx можно увидеть на картинке ниже.

blastx
up

Правильный CSS!