![]() |
![]() |
![]() |
![]() |
![]() |
![]() |
![]() |
![]() |
![]() |
|||||||||||||||||||||||||||||
![]() |
![]() |
||||||||||||||||||||||||||||||||||||
![]() |
![]() |
![]() |
![]() |
![]() |
![]() |
![]() |
![]() |
||||||||||||||||||||||||||||||
Программы пакета BLAST для работы с нуклеотидными последовательностями
В рабочей директории были созданы индексные файлы пакета BLAST для поиска по геному Pasteurella multocida formatdb -i pm_genome.fasta -p F -n pm Дальше посредством Putty была запущена программа TBLASTN с пороговым значением E-value 0,001. blastall -p tblastn -d pm -i fe.fasta -o out.txt -e 0.001 Результат работы программы - results(.txt). По результатам поиска была заполнена таблица:
Поиск гомологов с помощью программы BLASTN Вырежем участок ы отдельный файл по координатам полученным в предыдущем задании
seqret pm_genome.fasta:ae006080 -sask На сайте EBI (http://www.ebi.ac.uk/Tools/) был запущен поиск этой последовательности в банке "EMBL standard prokaryote". Score = 3490 bits (3870), Expect = 0.0 Координаты с 513163 по 515022(BlastN) Запись EMBL: FT /db_xref="UniProtKB/TrEMBL:Q9CNJ2" FT /protein_id="AAK02522.1" Последовательность белка: >tr|Q9CNJ2|Q9CNJ2_PASMU FtsH OS=Pasteurella multocida GN=ftsH PE=4 SV=1 MVKNLVLWIVVAVVMMTAYQGFNSSSSGNTTDYTTFITDLGNDQIRQARFDYNEIFVTKT DGSKYTTVMPLNDDKLLNDLLNKKVKVEGTLPEKRGLFSQILISWFPMLLLIGVWFFFMR QMQGGGSKAMSFGKSRARMMTQEQIKTTFADVAGCDEAKEEVGEIVDFLRDPGKFQKLGG KIPKGILMVGPPGTGKTLLAKAIAGEAKVPFFTISGSDFVEMFVGVGASRVRDMFEQAKK NAPCLIFIDEIDAVGRQRGAGLGGGHDEREQTLNQMLVEMDGFEGNEGVIVIAATNRPDV LDPALTRPGRFDRQVVVGLPDVRGREQILKVHMRRVPIAPDVDAMTLARGTPGYSGADLA NLVNEAALFAARTNKRLVTMLEFEKAKDKINMGPERRTMIMTEKQKESTAYHEAGHAIVG YLVPEHDPVHKVTIIPRGRALGVTFFLPEGDQVSISQKQLESKLSTLYAGRLAEDLIYGE ENISTGASNDIKVATNIARNMVTQWGFSEKLGPILYSEDDGEVFLGRSMAKAKHMSDETA HLIDEEVRTIVTRNYERARQILIDNMDILHAMKDALVKYETIEEEQIEQLMKRQPVTPPS GWDENEPTTQNNAGTKASPEPKSAVETEQDSDHQSPSDK Blastn и Tblastn Теперь запустим tblastn и blastn, в поле ввода для программы tblastn подаем белковую последовательность(указана выше), а для blastn вводим нуклеотидную последовательность (ftsh.fasta) и укажем для обоих поисков организм Pasteurella multocida
Аминокислотная последовательность более консервативна, в отличии от генетического кода. Это связано с тем, что одна и та же аминокислота может кодироваться несколькими треплетами. Работа с программой getorf пакета EMBOSS Была запущена программа getorf, чтобы получить набор трансляций всех открытых рамок Для этого была выполнена следующая команда: getorf -minsize 30 -find 1 -table 11 На выходе получили файл d89965.orf Опять используем программу BLAST, увидим, что записи в банке EMBL соответствует рамка №5, а записи Swiss-Prot соответствует рамка №13(P0A7B8). Запустил программу blastn, указав в качестве последовательностей для поиска файл trna_ecoli.fasta, в качестве банка — отформатированный геном бактерии Pasteurella multocida. Создал колонку из названий входных последовательностей командой grep ">" trna_ecoli.fasta Создал скрипт из команд, выдающих число находок для каждой последовательности(1.script(unix формат)). Повторил поиск, на этот раз указав порог на E-value, равный 0.001. Данные все записал в таблицу Поиск некодирующих последовательностей Поиск некодирующих последовательностей программой BLASTN Запустил программу blastn, указав в качестве последовательностей для поиска файл trna_ecoli.fasta, в качестве банка — отформатированный геном бактерии Pasteurella multocida blastall -p blastn -d pm -i trna_ecoli.fasta -m 8 > bl1.txt С порогом E-value < 0.001: blastall -p blastn -d pm -i trna_ecoli.fasta -m 8 -e 0.001 > bl2.txt Поиск некодирующих последовательностей программой megablast Программа megablast запускается с опциями, большая часть которых аналогична опциям программы blastall; при этом можно использовать те же индексные файлы megablast -d pm -i trna_ecoli.fasta -m 8 >bl3.txt Discontigous megablast: megablast -d pm -i trna_ecoli.fasta -m 8 -D 2 -t 18 -W 11 -N 1 > bl4.txt Описание значений параметров: Данные Blastn, Blastn(e<0.001), Megablast, Discontigous megablast приведены в таблице: Анализ результатов В файле Excel, являющимся результатом предыдущего задания, найдем тРНК alaT, для которой BLASTN обнаружил гомологов, а MEGABLAST - нет. Megablast находит меньше числа находок blastn, это объясняется тем, что blastn ищет слова длины 11, а megablast - 28. .Поэтому если длина находки, меньшн чем 28, megablast не покажет нам данный фрагмент.
Основные характеристики выравнивания: BLASTN не учитывает "хвосты" последовательностей, которые выходят за рамки выравнивания. |
![]() |
||||||||||||||||||||||||||||||||||||
![]() |
|||||||||||||||||||||||||||||||||||||
© Замараев Алексей |
![]() |
||||||||||||||||||||||||||||||||||||