Практикум 8

Задание 1. Разные варианты BLAST для короткого контига.

Для Sus scrofa (кабан) я не нашел подходящего короткого контига, поэтому я выбрал контиг с идентификатором NW_018084991.1 и длиной 17924 п.н.

На картинке представлен контиг и содержащиеся на нем 3 участка гена, два из которых (отмечены фиолетовым) еще не охарактеризованы. Ген, отмеченный зеленым цветом, экспрессирует USP6 N-terminal-like protein.

Рис. 1 Контиг с тремя генами.

Ссылка на последовательность контига в формате fasta:

Последовательность контига

Так как я взял контиг кабана, то сначала сразу же исключил Хордовых

Задание 2. Нахождение в геноме эукариота генов основных рибосомальных РНК по далекому гомологу.

Сначала скачаем и проиндексируем геном Sus scrofa на локальном компьютере с помощью следующей программы:

makeblastdb -in GCF_000003025.6_Sscrofa11.1_genomic.fna -dbtype nucl -out db.fasta

Теперь можем работать с локального BLAST. Дальше файл с последовательностями рРНК Escherichia coli разделяем на файлы result16.fasta, result23.fasta:

blastn -task blastn -query 16srRNA_ecoli.txt -db db.fasta -out result16.fasta

blastn -task blastn -query 23srRNA_ecoli.txt -db db.fasta -out result23.fasta

Blastn использовался, так как ищем нетранслируемый ген, то есть по белковой базе данных мы не сможем искать. Также последовательности очень врядли схожи друг с другом, поэтому и megablast мы использовать не сможем.

На выходе для 23sRNK получилось 9 находок, из которых 6 более нормальные. Самая лучшая находка, находящаяся в 7 хромосоме имеет Evalue = 5e^-17.

Для 16sRNK было получено 9 последовательностей. Лишь 2 из них неплохие, Evalue = 8e^-5