Команды находятся в файле по ссылке. Предполагается, что в одной директории с ним будут файл: 4.fasta. Описание каждой команды представлено в комментариях, а структура текста устроена так, чтобы его можно было исполнить с помощью команды "bash pr9_emboss.txt".
В качестве базы данных был взят полный геном холерного вибриона с NCBI в формате fasta. Предварительно он был переименован как vcl.fasta и проиндексирован как база данных для BLAST+ с помощью команды:
makeblastdb -in vcl.fasta -dbtype nucl
Предполагается, что эта база данных находится в директории выполнения скрипта. Скачать ее можно по следующим ссылкам: vcl.fasta.nhr, vcl.fasta.nin, vcl.fasta.nsq, исходный fasta-файл - vcl.fasta.
Скрипт генерирует 100 случайных нуклеотидных последовательностей длины 100, производит выравнивание их и генома бактерии, в конечном итоге выдает количество находок с E-value меньшим 0.1. Текст скрипта представлен по ссылке.
Результат каждый раз случайный, обычно число в пределах 0.05-0.15 Выполнение скрипта и его вывод:
m74ovik@kodomo:~/public_html/term3/block2/pr4/$ bash 1.sh 0.15
P.S. скрипт использует временные файлы 1.fasta и 1.csv, они переписываются, но можно их удалить. Данная строка уже содержится в скрипте, она закомментирвана.
Cсылки на последние временные файлы случайных последовательностей и таблицы результатов: 1.fasta и 1.csv
В качестве базы данных использовался неаннотироавнный геном Amoeboaphelidium protococcarum. Среди белков для запроса были выбраны: уридилат киназа из пекарских дрожжей (Uniprot AC P15700), ДНК-полимераза оттуда же (AC P13382) и гистон H3 опять же из пекарских дрожжей (AC P61830). Поисковые запросы: 'kinase taxonomy:"Fungi [4751]"', 'dna-polymerase taxonomy:"Fungi [4751]"' и 'histone taxonomy:"Fungi [4751]"' соответственно. Последовательности этих белков (f1.fasta, f2.fasta, f3.fasta) были получены с помощью команды seqret:
m74ovik@kodomo:~/public_html/term3/block2/pr4$ seqret sw:P15700 -out f1.fasta Read and write (return) sequences m74ovik@kodomo:~/public_html/term3/block2/pr4$ seqret sw:P13382 -out f2.fasta Read and write (return) sequences m74ovik@kodomo:~/public_html/term3/block2/pr4$ seqret sw:P61830 -out f3.fasta Read and write (return) sequences$
База данных была подготовлена из предложенного файла командой:
makeblastdb -in X5.fasta -dbtype nucl
При условии, что гомологичность можно предположить при значении E-value меньше 0.001 были проведены следующие команды для построения выравнивания:
tblastn -db X5.fasta -query f1.fasta -evalue 0.001 -outfmt 8 -out a1
tblastn -db X5.fasta -query f2.fasta -evalue 0.001 -outfmt 8 -out a2
tblastn -db X5.fasta -query f3.fasta -evalue 0.001 -outfmt 8 -out a3
Была использовалана разновидность tBLASTn, так как необходимо было искать гомологи данных белков в данном геноме. Ссылки на результаты выравниваний в текстовом формате: a1, a2 и a3. Помимо этого были проведены выравнивания в субъективно более понятном формате таблиц с комментариями:
tblastn -db X5.fasta -query f1.fasta -evalue 0.001 -outfmt 7 -out a1.7
tblastn -db X5.fasta -query f2.fasta -evalue 0.001 -outfmt 7 -out a2.7
tblastn -db X5.fasta -query f3.fasta -evalue 0.001 -outfmt 7 -out a3.7
Ссылки на таблицы: a1.7, a2.7 и a3.7. При условии на E-value, все эти участки генома можно назвать кодирующими гомологичные белки. В случае киназы были найдены 7 участков, в случае полимеразы - 5, в случае гистона - 8.