MethylGPT اسرار DNA را برای پیش بینی سن و بیماری باز می کند.

MethylGPT با استفاده از هوش مصنوعی پیشرفته، متیلاسیون DNA را با دقت بی سابقه ای رمزگشایی می کند و مسیرهای جدیدی را برای پیش بینی سن، تشخیص بیماری و مداخلات بهداشتی شخصی ارائه می دهد.

در یک مطالعه اخیر که در سرور preprint* bioRxiv ارسال شده است، محققان یک مدل پایه مبتنی بر ترانسفورماتور، MethylGPT، برای متیلوم DNA ایجاد کردند.

متیلاسیون DNA نوعی اصلاح اپی ژنتیکی است که بیان ژن را از طریق پروتئین های متصل شونده به متیل و تغییر در دسترسی کروماتین تنظیم می کند. همچنین به حفظ ثبات ژنومی از طریق سرکوب عناصر قابل انتقال کمک می کند. متیلاسیون DNA دارای ویژگی‌های یک نشانگر زیستی ایده‌آل است، و مطالعات علائم متیلاسیون متمایزی را در حالت‌های پاتولوژیک نشان داده‌اند که امکان تشخیص مولکولی را فراهم می‌کند.

با این وجود، چندین چالش تحلیلی مانع اجرای تشخیص مبتنی بر متیلاسیون DNA می شود. رویکردهای فعلی بر مدل‌های آماری و خطی ساده تکیه می‌کنند که در گرفتن داده‌های پیچیده و غیرخطی محدود هستند. آنها همچنین برای تأثیرات زمینه خاص مانند تعاملات مرتبه بالاتر و شبکه های نظارتی شکست خورده اند. بنابراین، یک چارچوب تحلیلی یکپارچه که بتواند الگوهای پیچیده و غیرخطی را در انواع مختلف بافت و سلول مدل کند، به فوریت مورد نیاز است.

پیشرفت های اخیر در مدل های فونداسیون و معماری ترانسفورماتور، تجزیه و تحلیل توالی های بیولوژیکی پیچیده را متحول کرده است. مدل های پایه نیز برای لایه های مختلف omics معرفی شده اند، مانند AlphaFold3 و ESM-3 برای پروتئومیکس و Evo و Enformer برای ژنومیک. دستاوردهای مدل های پایه نشان می دهد که تجزیه و تحلیل متیلاسیون DNA می تواند با رویکردی مشابه تبدیل شود.

در مطالعه حاضر، محققان MethylGPT، یک مدل پایه مبتنی بر ترانسفورماتور برای متیلوم DNA را توسعه دادند. ابتدا، آن‌ها داده‌های مربوط به 226555 پروفایل متیلاسیون DNA انسان را که انواع بافت‌های مختلف را در بر می‌گرفت از پایگاه داده EWAS و پایگاه ساعت به دست آوردند. پس از حذف مجدد و کنترل کیفیت، 154063 نمونه برای پیش‌آموزش نگهداری شدند. این مدل بر روی 49156 سایت CpG متمرکز بود که بر اساس ارتباط شناخته شده آنها با صفات مختلف انتخاب شدند، زیرا این امر ارتباط بیولوژیکی آنها را به حداکثر می رساند.

این مدل با استفاده از دو تابع از دست دادن مکمل، از قبل آموزش داده شده بود: از دست دادن مدل‌سازی زبان پوشانده (MLM) و از دست دادن بازسازی نمایه، که آن را قادر می‌سازد متیلاسیون را در سایت‌های CpG ماسک‌دار پیش‌بینی کند. این مدل به میانگین مربعات خطا (MSE) 0.014 و همبستگی پیرسون 0.929 بین سطوح متیلاسیون پیش‌بینی‌شده و واقعی دست یافت که نشان‌دهنده دقت پیش‌بینی بالا است. محققان همچنین ارزیابی کردند که آیا این مدل می‌تواند ویژگی‌های مرتبط بیولوژیکی متیلاسیون DNA را ثبت کند یا خیر. به این ترتیب، آنها بازنمایی های آموخته شده از سایت های CpG را در فضای جاسازی تجزیه و تحلیل کردند.

آنها دریافتند که سایت‌های CpG بر اساس زمینه‌های ژنومی آن‌ها خوشه‌بندی می‌شوند، که نشان می‌دهد این مدل ویژگی‌های تنظیمی متیلوم را آموخته است. علاوه بر این، جدایی واضحی بین اتوزوم‌ها و کروموزوم‌های جنسی وجود داشت، که نشان می‌دهد MethylGPT ویژگی‌های کروموزومی مرتبه بالاتری را نیز دارد. در مرحله بعد، تیم فضاهای جاسازی شات صفر را تجزیه و تحلیل کرد. این یک سازمان بیولوژیکی واضح، خوشه‌بندی بر اساس جنس، نوع بافت و زمینه ژنومی را نشان داد.

انواع بافت های اصلی خوشه های کاملاً مشخصی را تشکیل دادند که نشان می دهد مدل الگوهای متیلاسیون خاص بافت ها را بدون نظارت صریح آموخته است. قابل ذکر است، MethylGPT همچنین از اثرات دسته ای، که اغلب نتایج را در مجموعه داده های پیچیده مخدوش می کند، اجتناب کرد. علاوه بر این، نمونه‌های زن و مرد جدایی ثابتی را نشان دادند که منعکس کننده تفاوت‌های جنسیتی خاص است. سپس، محققان توانایی MethylGPT را برای پیش‌بینی سن تقویمی از روی الگوهای متیلاسیون ارزیابی کردند. برای این منظور، آنها از مجموعه داده ای از بیش از 11400 نمونه از انواع بافت های مختلف استفاده کردند.

تنظیم دقیق برای پیش‌بینی سن منجر به خوشه‌بندی قوی وابسته به سن شد. قابل توجه، سازمان ذاتی مرتبط با سن حتی قبل از تنظیم دقیق مشهود بود. علاوه بر این، MethylGPT از روش‌های پیش‌بینی سن موجود (مانند ساعت Horvath و ElasticNet) بهتر عمل کرد و به دقت برتر دست یافت. میانگین خطای مطلق آن برای پیش‌بینی سن 4.45 سال بود که استحکام آن را بیشتر نشان می‌دهد. MethylGPT همچنین به طور قابل توجهی در برابر داده های از دست رفته انعطاف پذیر بود. عملکرد پایداری را با تا 70 درصد داده های از دست رفته نشان داد و عملکرد بهتری از رویکردهای پرسپترون چند لایه و ElasticNet داشت.

تجزیه و تحلیل پروفایل‌های متیلاسیون در طول برنامه‌ریزی مجدد سلول‌های بنیادی پرتوان القایی (iPSC) مسیر جوان‌سازی واضحی را نشان داد. نمونه ها به تدریج در طول برنامه ریزی مجدد به حالت متیلاسیون جوان تر تبدیل شدند. این مدل همچنین توانست نقطه‌ای را در طول برنامه‌ریزی مجدد (روز 20) که سلول‌ها شروع به نشان دادن نشانه‌های واضحی از بازگشت سن اپی ژنتیکی نشان می‌دهند، شناسایی کند. در نهایت، توانایی مدل برای پیش‌بینی خطر بیماری مورد ارزیابی قرار گرفت. مدل از پیش آموزش دیده برای پیش بینی خطر 60 بیماری و مرگ و میر به خوبی تنظیم شده بود. این مدل در مجموعه‌های آزمایش و اعتبارسنجی به ترتیب به سطح زیر منحنی 0.74 و 0.72 دست یافت.

علاوه بر این، آنها از این چارچوب پیش‌بینی خطر بیماری برای ارزیابی تأثیر هشت مداخله بر بروز پیش‌بینی‌شده بیماری استفاده کردند. مداخلات شامل ترک سیگار، تمرین با شدت بالا و رژیم غذایی مدیترانه‌ای بود که هر کدام درجات متفاوتی از اثربخشی را در گروه‌های بیماری نشان دادند. این اثرات متمایز مداخله‌ای را در بین دسته‌های بیماری نشان داد و پتانسیل MethylGPT را در پیش‌بینی پیامدهای مداخله خاص و بهینه‌سازی استراتژی‌های مداخله مناسب برجسته کرد.

 

اشتراک گذاری