Сборка генома de novo.
Мне был выдан код доступа проэкта по секвенированию бактерии Buchnera aphidicola - SRR4240359. Со страницы проэкта я скачала архив SRR4240359.fastq.gz и распаковала его командой: gunzip SRR4240359.fastq.gz. Был получен файл с чтениями: SRR4240359.fastq.
1. Подготовка чтений программой trimmomatic.
Удаление возможных остатков адаптеров. Адаптеры для Illumina из файлов директории /P/y15/term3/block4/adapters были собраны в один файл adapters.fasta.
Команда: java -jar /usr/share/java/trimmomatic.jar SE -phred33 SRR4240359.fastq SRR4240359_ad.fastq ILLUMINACLIP:adapters.fasta:2:7:7
Получен файл: SRR4240359_ad.fastq
Было чтений 13557938, осталось 13502066 (99,59%), удалено 55872. Размер файла SRR4240359.fastq 1375 Мбайт, файла SRR4240359_ad.fastq 1369 Мбайт.
Удаление плохих букв с концов чтений. Необходимо оставить чтения длиной не менее 30.
Команда: java -jar /usr/share/java/trimmomatic.jar SE -phred33 SRR4240359_ad.fastq SRR4240359_trim.fastq TRAILING:20 MINLEN:30
Получен файл: SRR4240359_trim.fastq
Было чтений: 13502066, осталось: 12549389 (92,94%), удалено: 952677 (7,06%). Размер входного файла 1369 Мбайт, выходного 1256 Мбайт.
2. Подготовка k-меров. Использовалась программа velveth, для того чтобы подготовить k-меры длины k=29 (максимально возможной при нашей длине чтений). Наши чтения короткие и не парные (short). Программа velveth из нескольких последовательностей строит хеш-таблицу.
Команда: velveth velveth 29 -fastq -short SRR4240359_trim.fastq. Второй параметр обозначает папку, в которую записываются файлы выдачи. Третий параметр - необходимая длина k. Четвертый параметр - формат входного файла. Пятый параметр длина k-мера.
Получена папка velveth с файлами: Log, Roadmaps, Sequences.
3. Сборка на основе k-меров (программа velvetg).
Команда: velvetg velveth
Программа velvetg строит граф де Брёйна, он отражает пересечения в последовательностях символов.
Получены файлы: contigs.fa ; PreGraf; Graf; LastGraf; stats.txt.
Файл stats.txt содержит информациюо вершинах графа. Файл contigs.fa содержит информацию о контигах длины не менее 29.
В нашем графе 2051 вершина, N50=47361, max 91528, total 723201, using 0/12549389 reads.
ID | длина | покрытие | sequence |
1 | 78160 | 57.461807 | 1 |
3 | 83127 | 51.228207 | 3 |
4 | 91582 | 53.878651 | 4 |
Всего контигов 637. Средняя длина 1127,222295. Среднее покрытие 10,27608742. Информация обо всех контигах в файле contigs.xlsx .
ID | покрытие | длина | sequence |
13 | 118,96048 | 2657 | 13 |
53 | 115,948784 | 410 | 53 |
62 | 1,465517 | 58 | |
896 | 1,377049 | 61 |
4. Анализ
Программой megablast я сравнила три самых длинных контига и два с наибольшим покрытием с хромосомой Buchnera aphidicola (GenBank/EMBL AC — CP009253).
ID контига | Координаты участка хромосомы | Max score | Total score | Query cover | E value | Identities | Matches | Gaps |
1 | 127825 to 140555 | 5465 | 24306 | 56% | 0.0 | 75% | 7 | 548/13010(4%) |
3 | 333222 to 341508 | 3989 | 30541 | 71% | 0.0 | 76% | 18 | 280/8459(3%) |
4 | 389348 to 398726 | 3605 | 28072 | 51% | 0.0 | 74% | 18 | 363/9592(3%) |
*в таблице координаты указаны для одного match.
Для контигов с аномально большим покрытием программа не нашла совпадений (No significant similarity found.). В программе сказано, что причиной этого может являтся очень короткие query последовательности, или фильтрация участков малой сложности.
Ссылки:
© Кузнецова Ксения, 2015