|
||||||
Главная | Семестры | Скрипты | Обо мне | Ссылки |
|
|
Анализ качества и очистка чтений Исходным файлом для задания является файл с чтениями генома Резуховидки. Для оценки качества этих чтений использовалась программа FastQC. Ее отчет можно посмотреть здесь. Дальше была проведена очистка чтений помощью программы Trimmomatic: были удалены адаптеры, нуклеотиды с плохим качеством с конца каждого прочтения. А потом все прочтения короче 50 букв и вновь проведен анализ качества чтений FastQC. Использовались следующие команды:
После очистки осталось примерно 3,87 миллионов чтений из 4. Результат анализа программы FastQC можно посмотреть здесь. В исходном файле были прочтения длины 101 нуклеотид, а в конечном, этот показатель варьируется от 50 до 101, что логично, так как чтения были укорочены, а самые короткие (короче 50) удалены. Среднее качество последнего нуклеотида сильно выросло, это видно на графике Per base sequence quality. Что касается частоты встречаемости букв на каждой позиции (Per base sequence content), то в отличие от сглаженного графика в первом случае, наблюдается большее количество пиков на последних позициях. Это связано с уменьшением количества длинных чтений, то есть с увеличеснием статистической погрешности вычислений. В целом же, тенденция сохранилась, аденин и тимин встречаются практически в 2 раза чаще на всех позициях в чтениях. |
|||||||||||||||||||||
© Pogorelskaya Sasha | Last modification date: 19.02.15 |