Учебный сайт Ксении Худяковой

Главная
Семестры
Обо мне
Ссылки

1. Поиск некодирующих РНК (misc_RNA), аннотированных в одном штамме, в геноме другого штамма
С FTP-сервера NCBI был скачан файл в расширении .frn, в котором лежат все аннотированные РНК штамма Bacillus_subtilis_168_uid57675. С помощью команды

"infoseq NC_000964.frn | grep 'misc_RNA' | awk '{ print $1 }' > usa.txt" 

были отобраны в отдельный файл универсальные адреса USA некодирующих РНК.
Далее, командой

seqret @usa.txt misc_rna.fasta" получен файл с последовательностями всех misc_RNA

получили файл, содержащий все misk_RNA..

Далее с того же сервера были скачены файлы с геномом Bacillus_subtilis_spizizenii_TU_B_10_uid73967 в форматах .fna и .gbk. Командой

makeblastdb -in NC_016047.fna -dbtype nucl

была создана нуклеотидная база данных в виде трех файлов с форматами .nhr .nin . nsq. С помощью программы megablast был получен файл, содержащий находки гомологов misc_RNA Bacillus_subtilis_168_uid57675 в геноме Bacillus_subtilis_spizizenii_TU_B_10_uid73967.
blastn -task megablast -query misc_rna.fasta -db NC_016047.fna -out blast1.out -outfmt 7 -num_alignments 1

На его основе была составлена таблица Excel

2. Поиск гомологов РНК Bacillus subtilis в геноме другой бактерии
C NСBI был скачан геном Bacillus_cereus_ATCC_10987 в формате .fna. Он представлен одним файлом. На его основе создана нуклеотидная база данных за счет команды

makeblastdb -in b_cereus.fna -dbtype nucl

Потом осуществили поиск гомологов c e-value < 0.001 тремя способами:

blastn -task megablast -query misc_rna.fasta -db b_cereus.fna -out blast1.out -outfmt 7 -num_alignments 1 -evalue 0.001
blastn -task blastn -query misc_rna.fasta -db b_cereus.fna -out blast2.out -outfmt 7 -num_alignments 1 -evalue 0.001 
blastn -task blastn -query misc_rna.fasta -db b_cereus.fna -out blast3.out -outfmt 7 -num_alignments 1 -word_size 4 -reward 1 -penalty -1 -evalue 0.001"

Получены файлы с результатами. Соответственно: 1, 2, 3.

Далее были подсчитаны находки с e-value < 0.001 для каждого фала с результатами бласта. Итог представлен в Excel таблице.

3. Поиск неправильно аннотированных генов программой blastx
С FTP сервера NCBI были скачаны последовательности предсказанных белков штамма Bacillus_subtilis_spizizenii_TU_B_10_uid73967 в формате .faa. Создали для нее базу данных командой "makeblastdb -in NC_016047.faa -dbtype prot". Применили программу blastx для поиска гомологов misc_RNA в этой белковой базе. Предполагается, что таковых быть не длжно. Сделали это с помощью команды:

"blastx -query misc_RNA_seq.fa -db NC_016047.faa -out wrongway.fa -outfmt 7 -evalue 0.0001

Получен файл с находками. Он содержит девять гомологов - misc_RNA 1, 25, 41, 46, 53, 57, 58, 61, 62. Среди них первый - серил-тРНК синтаза, а 46-й - аспартокиназа. По всей видимости эти РНК аннотированы неверно.