В задании 1 было необходимо найти гомологов misc_RNA штамма Bacillus_subtilis_168_uid57675 в геноме штамма Bacillus_subtilis_spizizenii_TU_B_10_uid73967. misc_RNA - это некодирующая рнк неизвестного происхождения. Для этого мной были выполненв следующие действия:
infoseq NC_000964.frn -only -usa -description | grep 'misc_RNA' | awk '{print $1}' > misc_RNA_find
awk всего выводит первую (n-ную) колонку из вывода предыдущей команды.
Получен файл с Uniform Sequence Address (USA) miscRNA организма Bacillus_subtilis_168_uid57675.
seqret @misc_RNA_find misc_RNA_find.fasta
Получены последовательности РНК из предыдущего файла организма Bacillus_subtilis_168_uid57675.
makeblastdb -in NC_016047.fna -dbtype nucl
Создание базы данных для работы BLAST.
blastn -task megablast -query misc_RNA_find.fasta -db NC_016047.fna -num_alignments 1 -outfmt 7 -out misc_RNA_blast
Нахождение гомологов нужных РНК первого штамма (Bacillus_subtilis_168_uid57675) в геноме второго (Bacillus_subtilis_spizizenii_TU_B_10_uid73967). Выходной файл: misc_RNA_blast.
Для полного выполнения задания необходимо было получить таблицу Excel, где для каждой misc_RNA указаны её номер, цепь (прямая или обратная относительно записи RefSeq) и координаты начала и конца лучшего найденного гомолога. Так как файл misc_RNA_blast содержит много лишней информации, затрудняющей ее интерперетирование в любом редакторе для построения таблиц, мной была выполнена команда, учитывающая особенности строк (строка с информацией для каждой misc_RNA в поле query содержит сочетание букв gi):
cat > table
query id, subject id, % identity, alignment length, mismatches, gap opens, q. start, q. end, s. start, s. end, evalue, bit score
grep 'gi' misc_RNA_blast >> table
Результатом данных команд является файл table . Таблица Excel (формат .xlsx) , таблица LibreOffice Calc (.ods).
В задании 2 было необходимо найти гомологи misc_RNA из первого задания в геноме любого штамма Bacillus cereus. Я выбрала Bacillus_cereus_FRI_35_uid173403. На ftp сервере NCBI содержится 5 последовательностей в формате .frn, содержащие последовательности хромосомы и четырех плазмид этого штамма, пожтому мной был создан файл B_cereus_complete.fasta, содержащий последовательность полного генома B.cereus FRI 35.
Дальше были проведены следующие действия:
makeblastdb -in B_cereus_complete.fasta -dbtype nucl
1) megablast blastn -task megablast -query misc_RNA_find.fasta -db B_cereus_complete.fasta -out B_cereus_megablast -outfmt 7 -num_alignments 1 -evalue 0.001
grep 'gi' B_cereus_megablast >> table_2_1
2) blasn со стандартными настройками
blastn -task blastn -query misc_RNA_find.fasta -db B_cereus_complete.fasta -out B_cereus_blastn_default -outfmt 7 -num_alignments 1 -evalue 0.001
grep 'gi' B_cereus_blastn_default >> table_2_2
3) blastn с параметрами длина слова = 4, награда за совпадение = 1, штраф за несовпадение = –1
blastn -task blastn -query misc_RNA_find.fasta -db B_cereus_complete.fasta -out B_cereus_blastn -outfmt 7 -num_alignments 1 -word_size 4 -reward 1 -penalty -1 -evalue 0.001
grep 'gi' B_cereus_blastn >> table_2_3
Вы можете скачать файлы: B_cereus_megablast, table_2_1, B_cereus_blastn_default , table_2_2, , table_2_3
Готовую таблицу с подсчитанными количествами находок с E-value > 0.001 для каждого алгоритма (см. лист 1, 2, 3) вы можете скачать здесь (формат: xlsx), здесь (формат: .ods).
Третьим заданием был поиск неправильно аннотированных генов программой blastx. Для этого с ftp сервера NCBI мной был скачан файл NC_016047.faa, и запущена программа blastx для поиск гомологов misc_RNA из предыдущих заданий в скачанных белковых последовательностях. Программа blastx используется для белковых последовательностей.
Выполнены следующие команды:
makeblastdb -in NC_016047.faa -dbtype prot
blastx -query misc_RNA_find.fasta -db NC_016047.faa -out blastx.out -outfmt 7 -num_alignments 1 -evalue 0.001
grep 'gi' blastx.out >> table_3_1
Выходной файл и таблицу с найденными соответствиями, вы можете найти здесь: blastx.out (выходной файл), таблица.
Из найденных соответствий misc_RNA в Bacillus_subtilis_168_uid57675 не гипотетическими белками в организме Bacillus_subtilis_spizizenii_TU_B_10_uid73967 оказались seryl-tRNA synthetase и aspartokinase. Это говорит о том, что они были аннотированы неправильно.