BLAST+ и EMBOSS

0. Семь команд из EMBOSS/UNIX

Команды находятся в файле по ссылке. Предполагается, что в одной директории с ним будут файл: 4.fasta. Описание каждой команды представлено в комментариях, а структура текста устроена так, чтобы его можно было исполнить с помощью команды "bash pr9_emboss.txt".

Скрипт на bash, подсчитывающий среднее число находок с E-value меньшим 0.1 для случайной последовательности в геноме холерного вибриона (Vibrio cholerae)

В качестве базы данных был взят полный геном холерного вибриона с NCBI в формате fasta. Предварительно он был переименован как vcl.fasta и проиндексирован как база данных для BLAST+ с помощью команды:

makeblastdb -in vcl.fasta -dbtype nucl

Предполагается, что эта база данных находится в директории выполнения скрипта. Скачать ее можно по следующим ссылкам: vcl.fasta.nhr, vcl.fasta.nin, vcl.fasta.nsq, исходный fasta-файл - vcl.fasta.

Скрипт генерирует 100 случайных нуклеотидных последовательностей длины 100, производит выравнивание их и генома бактерии, в конечном итоге выдает количество находок с E-value меньшим 0.1. Текст скрипта представлен по ссылке.

Результат каждый раз случайный, обычно число в пределах 0.05-0.15 Выполнение скрипта и его вывод:

m74ovik@kodomo:~/public_html/term3/block2/pr4/$ bash 1.sh
0.15

P.S. скрипт использует временные файлы 1.fasta и 1.csv, они переписываются, но можно их удалить. Данная строка уже содержится в скрипте, она закомментирвана.

Cсылки на последние временные файлы случайных последовательностей и таблицы результатов: 1.fasta и 1.csv

Поиск гомологов белков в неаннотированном геноме

В качестве базы данных использовался неаннотироавнный геном Amoeboaphelidium protococcarum. Среди белков для запроса были выбраны: уридилат киназа из пекарских дрожжей (Uniprot AC P15700), ДНК-полимераза оттуда же (AC P13382) и гистон H3 опять же из пекарских дрожжей (AC P61830). Поисковые запросы: 'kinase taxonomy:"Fungi [4751]"', 'dna-polymerase taxonomy:"Fungi [4751]"' и 'histone taxonomy:"Fungi [4751]"' соответственно. Последовательности этих белков (f1.fasta, f2.fasta, f3.fasta) были получены с помощью команды seqret:

m74ovik@kodomo:~/public_html/term3/block2/pr4$ seqret sw:P15700 -out f1.fasta
Read and write (return) sequences
m74ovik@kodomo:~/public_html/term3/block2/pr4$ seqret sw:P13382 -out f2.fasta
Read and write (return) sequences
m74ovik@kodomo:~/public_html/term3/block2/pr4$ seqret sw:P61830 -out f3.fasta
Read and write (return) sequences

$

База данных была подготовлена из предложенного файла командой:

makeblastdb -in X5.fasta -dbtype nucl

При условии, что гомологичность можно предположить при значении E-value меньше 0.001 были проведены следующие команды для построения выравнивания:

tblastn -db X5.fasta -query f1.fasta  -evalue 0.001 -outfmt 8 -out a1
tblastn -db X5.fasta -query f2.fasta  -evalue 0.001 -outfmt 8 -out a2
tblastn -db X5.fasta -query f3.fasta  -evalue 0.001 -outfmt 8 -out a3

Была использовалана разновидность tBLASTn, так как необходимо было искать гомологи данных белков в данном геноме. Ссылки на результаты выравниваний в текстовом формате: a1, a2 и a3. Помимо этого были проведены выравнивания в субъективно более понятном формате таблиц с комментариями:

tblastn -db X5.fasta -query f1.fasta  -evalue 0.001 -outfmt 7 -out a1.7
tblastn -db X5.fasta -query f2.fasta  -evalue 0.001 -outfmt 7 -out a2.7
tblastn -db X5.fasta -query f3.fasta  -evalue 0.001 -outfmt 7 -out a3.7

Ссылки на таблицы: a1.7, a2.7 и a3.7. При условии на E-value, все эти участки генома можно назвать кодирующими гомологичные белки. В случае киназы были найдены 7 участков, в случае полимеразы - 5, в случае гистона - 8.