A picture of DNA should be here

Standalone BLAST

В задании 1 было необходимо найти гомологов misc_RNA штамма Bacillus_subtilis_168_uid57675 в геноме штамма Bacillus_subtilis_spizizenii_TU_B_10_uid73967. misc_RNA - это некодирующая рнк неизвестного происхождения. Для этого мной были выполненв следующие действия:

infoseq NC_000964.frn -only -usa -description | grep 'misc_RNA' | awk '{print $1}' > misc_RNA_find

awk всего выводит первую (n-ную) колонку из вывода предыдущей команды.

Получен файл с Uniform Sequence Address (USA) miscRNA организма Bacillus_subtilis_168_uid57675.

seqret @misc_RNA_find misc_RNA_find.fasta

Получены последовательности РНК из предыдущего файла организма Bacillus_subtilis_168_uid57675.

makeblastdb -in NC_016047.fna -dbtype nucl

Создание базы данных для работы BLAST.

blastn -task megablast -query misc_RNA_find.fasta -db NC_016047.fna -num_alignments 1 -outfmt 7 -out misc_RNA_blast

Нахождение гомологов нужных РНК первого штамма (Bacillus_subtilis_168_uid57675) в геноме второго (Bacillus_subtilis_spizizenii_TU_B_10_uid73967). Выходной файл: misc_RNA_blast.

Для полного выполнения задания необходимо было получить таблицу Excel, где для каждой misc_RNA указаны её номер, цепь (прямая или обратная относительно записи RefSeq) и координаты начала и конца лучшего найденного гомолога. Так как файл misc_RNA_blast содержит много лишней информации, затрудняющей ее интерперетирование в любом редакторе для построения таблиц, мной была выполнена команда, учитывающая особенности строк (строка с информацией для каждой misc_RNA в поле query содержит сочетание букв gi):

cat > table

query id, subject id, % identity, alignment length, mismatches, gap opens, q. start, q. end, s. start, s. end, evalue, bit score

grep 'gi' misc_RNA_blast >> table

Результатом данных команд является файл table . Таблица Excel (формат .xlsx) , таблица LibreOffice Calc (.ods).

В задании 2 было необходимо найти гомологи misc_RNA из первого задания в геноме любого штамма Bacillus cereus. Я выбрала Bacillus_cereus_FRI_35_uid173403. На ftp сервере NCBI содержится 5 последовательностей в формате .frn, содержащие последовательности хромосомы и четырех плазмид этого штамма, пожтому мной был создан файл B_cereus_complete.fasta, содержащий последовательность полного генома B.cereus FRI 35.

Дальше были проведены следующие действия:

makeblastdb -in B_cereus_complete.fasta -dbtype nucl

1) megablast blastn -task megablast -query misc_RNA_find.fasta -db B_cereus_complete.fasta -out B_cereus_megablast -outfmt 7 -num_alignments 1 -evalue 0.001

grep 'gi' B_cereus_megablast >> table_2_1

2) blasn со стандартными настройками

blastn -task blastn -query misc_RNA_find.fasta -db B_cereus_complete.fasta -out B_cereus_blastn_default -outfmt 7 -num_alignments 1 -evalue 0.001

grep 'gi' B_cereus_blastn_default >> table_2_2

3) blastn с параметрами длина слова = 4, награда за совпадение = 1, штраф за несовпадение = –1

blastn -task blastn -query misc_RNA_find.fasta -db B_cereus_complete.fasta -out B_cereus_blastn -outfmt 7 -num_alignments 1 -word_size 4 -reward 1 -penalty -1 -evalue 0.001

grep 'gi' B_cereus_blastn >> table_2_3

Вы можете скачать файлы: B_cereus_megablast, table_2_1, B_cereus_blastn_default , table_2_2, , table_2_3

Готовую таблицу с подсчитанными количествами находок с E-value > 0.001 для каждого алгоритма (см. лист 1, 2, 3) вы можете скачать здесь (формат: xlsx), здесь (формат: .ods).

Третьим заданием был поиск неправильно аннотированных генов программой blastx. Для этого с ftp сервера NCBI мной был скачан файл NC_016047.faa, и запущена программа blastx для поиск гомологов misc_RNA из предыдущих заданий в скачанных белковых последовательностях. Программа blastx используется для белковых последовательностей.

Выполнены следующие команды:

makeblastdb -in NC_016047.faa -dbtype prot

blastx -query misc_RNA_find.fasta -db NC_016047.faa -out blastx.out -outfmt 7 -num_alignments 1 -evalue 0.001

grep 'gi' blastx.out >> table_3_1

Выходной файл и таблицу с найденными соответствиями, вы можете найти здесь: blastx.out (выходной файл), таблица.

Из найденных соответствий misc_RNA в Bacillus_subtilis_168_uid57675 не гипотетическими белками в организме Bacillus_subtilis_spizizenii_TU_B_10_uid73967 оказались seryl-tRNA synthetase и aspartokinase. Это говорит о том, что они были аннотированы неправильно.