Практикум №8

BLAST

В своем исследовании я использовала участок континга хромосомы номер 1 NC_080782.1

Участок содержит белок GCF_028018385.1 и мРНК

Координаты участка: 106079-111125

Длина участка: 5047

nucl
Изображение 1
nucl
Изображение 2

Описание изображения

Сверху мы можем наблюдать расположение генов в нашей последовательности

На изображении 2 мы видим только необходимый нам участок 105к-112к

На выбранном участке мы выделили:

Зеленым - наш ген

Фиолетовым - мРНК

Красным - кодирующую последовательность

Задание на разные варианты Blast

В качестве целевового таксона я выбрала костных рыб.

BlastN

В BlastN я сделала поиск с стандартной длиной слова, но получила более 100 практически идентичных последовательностей, поэтому я решила увеличить длину слова до 15, чтобы избежать 100 одинаковых находок, о чем было сказано в задании. На этот раз бласт выдал мне 40 находок. Среди них были похожие друг на друга, но большинство - разные. То есть, можно сделать вывод, что при увеличении длины слова, количество находок уменьшаеься, так как тперь сопадать должны более длинные участки.

Вообще Blastn используется для выполнения поиска сходства нуклеотид-нуклеотидных последовательностей с использованием алгоритма BLAST.

MegaBlast

Стандартная длина слова в MegaBlast - 28, но при поиске с такой длинной слова алгоритм не выдал ни одной находки. Поэтому я уменьшила этот параметр до минимального (16). Теперь программа нашла 12 последовательностей, но к сожалению, все с очень мальньким покрытием.

MegaBlast оптимизирован для выравнивания последовательностей, которые незначительно отличаются в результате секвенирования или других подобных "ошибок". При использовании большего размера слова это работает до 10 раз быстрее, чем более распространенные программы подобия последовательностей. Mega BLAST также способен эффективно обрабатывать гораздо более длинные последовательности ДНК, чем программа blastn с традиционным алгоритмом BLAST.

BlastX

При работе с BlastX я так же, как и с BlastN, решила увеличить длину слова. В данном случае до максимально возможного значения (с 5 до 6). Также я решила ограничить количество совпадений (HSP) в последовательности - 2. При таком запросе мы имеем ровно 9 разных находок.

BlastX осуществляет поиск переведенной нуклеотидной последовательности по белковым последовательностям.

TBlastX

При работе с TBlastX у меня возникли проблемы, тк постоянно выскакивало сообщение об ошибке, связанной с превышением лимита использования ЦП. При таких параметрах TBlastX выдал 6 находок с минимальным процентом покрытия, 5 из котрых - идентичны друг другу. Это плохой результат, но при любых других параметрах у меня выскакивала ошибка.

TBLASTX необходим для запроса переведенных нуклеотидных последовательностей по переведенным базам данных нуклеотидов для каждого образца.

Поиск в геноме эукариота генов основных рибосомальных РНК по далекому гомологу.

Сначала нам необходимо скачать нашу последовательность:

wget ftp://ftp.ncbi.nih.gov/genomes/refseq/vertebrate_mammalian/Neofelis_nebulosa/all_assembly_versions/

GCF_028018385.1_mNeoNeb1.pri/GCF_028018385.1_mNeoNeb1.pri_genomic.fna.gz

Теперь нам необходимо распаковать файл с нашей последовательностью:

gzip -d GCF_028018385.1_mNeoNeb1.pri_genomic.fna.gz

Индексируем последовательность генома нашего эукариота:

makeblastdb -in GCF_028018385.1_mNeoNeb1.pri_genomic.fna -dbtype nucl

Проводим локальный поиск BLAST отдельно для каждой рРНК:

blastn -task "blastn" -query "16S_ecoli.fasta" -db "GCF_028018385.1_mNeoNeb1.pri_genomic.fna" -out "16S.tsv" -outfmt 7

Результаты: 16S и 23S

16S - малая субъединица рибосомы, 23S - большая. Их функция - связывание большой и малой субъединицы хромосомы.

blastn был использован, так как мы искали близкие последовательности.

16S: 19 находок. Многие находки похожи друг на друга: у них одинаковые длины, % идентичности, кол-во мисматчей и гэпов. В таких находках отличается только их расположение. Получилось 6 гомологов. Расположение на 16 хромосоме. 13 генов аннотированы как 18s ribosomal rna, что ожидаемо, так как они являются гомологами.

23S: 35 находок. Найдено 11 гомологов. расположение на 8, 13 и 16 хромосомах. 20 генов аннотированы как 28s ribosomal rna и 5.8s ribosomal rna, что так же ожидалось.

Обе рРНК имеют сходство с участками на 16 хромосоме.

Все это говорит о гомологичности генов, и можно сделать вывод, что они входят в эукариотическую рибосому.