Algorithma Baru untuk Kompresi Urutan DNA

Peneliti di Mesir telah mengembankan teknik untuk mengkompresi urutan DNA yang digunakan pada riset kedokteran, sehingga database tersebut memerlukan ruang harddisk lebih sedikit, tanpa menghilangkan informasi yang ada. Pendekatan ini telah dijabarkan secara detai pada International Journal of Bioinformatics Research and Application.

Database urutan molekuler, seperti EMBL, GenBank, dan Entrez memiliki jutaan urutan DNA yang mengisi ribuan gigabyte kapasitas penyimpanan komputer. Dengan adanya publikasi ilmiah baru pada bidang genetika dan terkait, urutan baru selalu ditambahkan dan laju akumulasi data sangatlah meningkat. Urutan tersebut memainkan peran penting pada riset kedokteran, diagnosis penyakit, dan desain maupun pengembangan obat baru.

Urutan DNA terdiri hanya atas empat basa yang berbeda, yaitu A, C, G, dan T. Setiap basa dapat diwakilkan oleh kode komputer dengan dua karakter digit biner, dua bits, yaitu A(00), C(01), G(10), dan T(11). Sepintas, seakan hal ini adalah cara yang paling efisien untuk menyimpan urutan DNA.

Bagaimanapun, urutan DNA tidaklah random. Mereka memiliki bagian berulang, palindrom, dan fitur lain yang dapat diwakilkan oleh bit yang lebih sedikit daripada yang diperlukan untuk menyimpan urutan lengkap tersebut dalam representasi biner. Sebagai contoh, pola berulang dapat dipersingkat dalam ekivalen biner ‘enam kali G’, yang jauh lebih pendek beberapa bit dibandingkan menulis ‘GGGGGG’ dalam biner. Palindrome juga dapat dipersingkat pada kode yang relatif terhadap pola komplemen mereka di urutan DNA.

Banyak pengguna komputer yang familiar dengan software kompresi yang mampu menghilangkan kode ‘redundan’ dari data musik, untuk memproduksi MP3, atau dari sebuah gambar, untuk membuat sebuah JPG. Namun, metode kompresi ini menghilangkan informasi. Hal ini tidak cocok untuk Database genome. Metode kompresi ‘lossless’ yang dapat mengatasi masalah ini dapat tersedia, seperti FLAC untuk data suara, TIFF untuk gambar, dan format ‘zip’ untuk dokumen dan data lain. Kompresi ‘loseless’ dapat mengatas masalah perulangan urutan, palindrome, dan pola yang ada di data DNA untuk mengurangi ukuran keseluruhan dari database genome.

Sekarang ini, Taysir Soliman dari Fakultas ilmu komputer dan informatika pada Universitas Assiut, dan koleganya yaitu Tarek Gharib, Alshai maa Abo-Alian, dan M.A. El Sharkawy dari Fakultas ilmu komputer dan Informatika pada Universitas Ain Shams, telah mengembangkan Algoritma kompresi ‘lossless’ (LCA) yang dapat bekerja dengan baik pada urutan DNA digital, dalam rangka mengurangi jumlah kapasitas penyimpanan data komputer yang diperlukan oleh urutan tersebut.

LCA dapat mencapai rasio kompresi yang lebih baik dibandingkan algoritma kompresi yang telah ada untuk DNA, seperti GenCompress, DNACompress, dan DNAPack, demikian menurut team tersebut. Pendekatan yang sama dapat dilakukan pada urutan protein.

Algoritma kompresi tersebut dimungkinkan untuk diaplikasikan secara langsung pada riset DNA, demikian anjuran tim. Mereka sekarang menyelidiki cara-cara dimana hasil kompresi dapat digunakan untuk membedakan bagian urutan DNA yang menyandikan protein dan yang tidak.

0 komentar:

Posting Komentar

Copyright © 2012 Sanaz Ichsan RizqiTemplate by :Urangkurai.Powered by Blogger.Please upgrade to a Modern Browser.