Для Sus scrofa (кабан) я не нашел подходящего короткого контига, поэтому я выбрал контиг с идентификатором NW_018084991.1 и длиной 17924 п.н.
На картинке представлен контиг и содержащиеся на нем 3 участка гена, два из которых (отмечены фиолетовым) еще не охарактеризованы. Ген, отмеченный зеленым цветом, экспрессирует USP6 N-terminal-like protein.
Ссылка на последовательность контига в формате fasta:
Так как я взял контиг кабана, то сначала сразу же исключил Хордовых
В megablast (wordsize = 28) без Хордовых ничего не нашлось, также и для млекопитающих. Без семейства Свиньих нашлось 4 последовательности: 4 китообразных и 1 макака.
С помощью blastn (wordsize = 11) нашлось 157 находок.
Blastx с параметрами по умолчанию долго грузил и в итоге выдал ошибку. Поэтому я сделал wordsize = 3 и получил 76 находок.
От tblasx вообще ни при каких параметрах не получилось увидеть результат.
Сначала скачаем и проиндексируем геном Sus scrofa на локальном компьютере с помощью следующей программы:
makeblastdb -in GCF_000003025.6_Sscrofa11.1_genomic.fna -dbtype nucl -out db.fasta
Теперь можем работать с локального BLAST. Дальше файл с последовательностями рРНК Escherichia coli разделяем на файлы result16.fasta, result23.fasta:
blastn -task blastn -query 16srRNA_ecoli.txt -db db.fasta -out result16.fasta
blastn -task blastn -query 23srRNA_ecoli.txt -db db.fasta -out result23.fasta
Blastn использовался, так как ищем нетранслируемый ген, то есть по белковой базе данных мы не сможем искать. Также последовательности очень врядли схожи друг с другом, поэтому и megablast мы использовать не сможем.
На выходе для 23sRNK получилось 9 находок, из которых 6 более нормальные. Самая лучшая находка, находящаяся в 7 хромосоме имеет Evalue = 5e^-17.
Для 16sRNK было получено 9 последовательностей. Лишь 2 из них неплохие, Evalue = 8e^-5