این پروژه از مدلهای پردازش زبان طبیعی (NLP) و یادگیری ماشین برای پیشبینی ساختار ثانویه پروتئینها با استفاده از دادههای توالی پروتئینها بهره میبرد. در این پروژه از مدلهای مبتنی بر معماری Transformer برای پیشبینی ساختارهای آلفا هلیکس، بتا شیت و کویلها استفاده شده است.
پروتئینها در ساختارهای متنوعی شکل میگیرند که تأثیر مستقیمی بر عملکرد زیستی آنها دارد. ساختار ثانویه پروتئینها شامل آرایشهای موضعی مانند α-هلیکس و β-ورقها است. هدف این پروژه، توسعه روشی مبتنی بر یادگیری عمیق برای پیشبینی دقیق این ساختارها است.
- استفاده از تکنیکهای NLP و مدلهای Transformer برای پیشبینی ساختار ثانویه پروتئینها
- تحلیل توالیهای پروتئینی و استفاده از دادههای متنی برای بهبود دقت پیشبینی
- مدلسازی پیچیدگی ارتباطات موجود در توالیهای پروتئینی
-
جمعآوری دادهها:
- استخراج دادههای مرتبط با پروتئینها از پایگاههای داده UniProt و PDB
- جمعآوری مقالات مرتبط از PubMed و استخراج خلاصهها
- پردازش اطلاعات به فرمت Q8 با استفاده از ابزار DSSP
-
پیشپردازش دادهها:
- فیلتر کردن و نرمالسازی دادههای متنی
- حذف دادههای تکراری و انجام فرآیندهای Lemmatization و Tokenization
- ترکیب دادهها در قالب یک فایل CSV نهایی برای آموزش مدل
-
آموزش مدل:
- پیادهسازی مدل Encoder-Decoder مبتنی بر T5 کوچک
- تولید برچسبهای Q8 با استفاده از توالیهای پروتئینی و دادههای متنی
- استفاده از تکنیکهای پیشرفته مانند batch normalization برای بهینهسازی مدل
-
ارزیابی مدل:
- ارزیابی دقت مدل با استفاده از معیارهایی مانند فاصله Edit Distance نرمالشده
- تحلیل نتایج برای بررسی میزان overfitting و بهبود دقت خروجی مدل
- چالشهای جمعآوری دادهها: حجم بالای دادهها و زمانبر بودن فرآیند جمعآوری و پردازش
- چالشهای پیشپردازش: وجود تفاوتهای زیاد در طول متنها و نیاز به نرمالسازی دقیق
- چالشهای آموزش مدل: نیاز به منابع پردازشی قویتر برای کاهش زمان آموزش و بهبود دقت مدل
- مدل توانست برچسبهای Q8 را با دقت مناسبی پیشبینی کند.
- بهبودهای آتی شامل افزایش دادههای ورودی و استفاده از منابع پردازشی قویتر برای بهینهسازی مدل و بهبود نتایج نهایی خواهد بود.
- آموزش مدل با استفاده از دادههای بیشتر و منابع پردازشی قویتر
- بررسی مدلهای پیچیدهتر و تحلیل نتایج در شرایط مختلف برای بهبود دقت و تعمیمپذیری