
MethylGPT اسرار DNA را برای پیش بینی سن و بیماری باز می کند.

MethylGPT با استفاده از هوش مصنوعی پیشرفته، متیلاسیون DNA را با دقت بی سابقه ای رمزگشایی می کند و مسیرهای جدیدی را برای پیش بینی سن، تشخیص بیماری و مداخلات بهداشتی شخصی ارائه می دهد.
در یک مطالعه اخیر که در سرور preprint* bioRxiv ارسال شده است، محققان یک مدل پایه مبتنی بر ترانسفورماتور، MethylGPT، برای متیلوم DNA ایجاد کردند.
متیلاسیون DNA نوعی اصلاح اپی ژنتیکی است که بیان ژن را از طریق پروتئین های متصل شونده به متیل و تغییر در دسترسی کروماتین تنظیم می کند. همچنین به حفظ ثبات ژنومی از طریق سرکوب عناصر قابل انتقال کمک می کند. متیلاسیون DNA دارای ویژگیهای یک نشانگر زیستی ایدهآل است، و مطالعات علائم متیلاسیون متمایزی را در حالتهای پاتولوژیک نشان دادهاند که امکان تشخیص مولکولی را فراهم میکند.
با این وجود، چندین چالش تحلیلی مانع اجرای تشخیص مبتنی بر متیلاسیون DNA می شود. رویکردهای فعلی بر مدلهای آماری و خطی ساده تکیه میکنند که در گرفتن دادههای پیچیده و غیرخطی محدود هستند. آنها همچنین برای تأثیرات زمینه خاص مانند تعاملات مرتبه بالاتر و شبکه های نظارتی شکست خورده اند. بنابراین، یک چارچوب تحلیلی یکپارچه که بتواند الگوهای پیچیده و غیرخطی را در انواع مختلف بافت و سلول مدل کند، به فوریت مورد نیاز است.
پیشرفت های اخیر در مدل های فونداسیون و معماری ترانسفورماتور، تجزیه و تحلیل توالی های بیولوژیکی پیچیده را متحول کرده است. مدل های پایه نیز برای لایه های مختلف omics معرفی شده اند، مانند AlphaFold3 و ESM-3 برای پروتئومیکس و Evo و Enformer برای ژنومیک. دستاوردهای مدل های پایه نشان می دهد که تجزیه و تحلیل متیلاسیون DNA می تواند با رویکردی مشابه تبدیل شود.
در مطالعه حاضر، محققان MethylGPT، یک مدل پایه مبتنی بر ترانسفورماتور برای متیلوم DNA را توسعه دادند. ابتدا، آنها دادههای مربوط به 226555 پروفایل متیلاسیون DNA انسان را که انواع بافتهای مختلف را در بر میگرفت از پایگاه داده EWAS و پایگاه ساعت به دست آوردند. پس از حذف مجدد و کنترل کیفیت، 154063 نمونه برای پیشآموزش نگهداری شدند. این مدل بر روی 49156 سایت CpG متمرکز بود که بر اساس ارتباط شناخته شده آنها با صفات مختلف انتخاب شدند، زیرا این امر ارتباط بیولوژیکی آنها را به حداکثر می رساند.
این مدل با استفاده از دو تابع از دست دادن مکمل، از قبل آموزش داده شده بود: از دست دادن مدلسازی زبان پوشانده (MLM) و از دست دادن بازسازی نمایه، که آن را قادر میسازد متیلاسیون را در سایتهای CpG ماسکدار پیشبینی کند. این مدل به میانگین مربعات خطا (MSE) 0.014 و همبستگی پیرسون 0.929 بین سطوح متیلاسیون پیشبینیشده و واقعی دست یافت که نشاندهنده دقت پیشبینی بالا است. محققان همچنین ارزیابی کردند که آیا این مدل میتواند ویژگیهای مرتبط بیولوژیکی متیلاسیون DNA را ثبت کند یا خیر. به این ترتیب، آنها بازنمایی های آموخته شده از سایت های CpG را در فضای جاسازی تجزیه و تحلیل کردند.
آنها دریافتند که سایتهای CpG بر اساس زمینههای ژنومی آنها خوشهبندی میشوند، که نشان میدهد این مدل ویژگیهای تنظیمی متیلوم را آموخته است. علاوه بر این، جدایی واضحی بین اتوزومها و کروموزومهای جنسی وجود داشت، که نشان میدهد MethylGPT ویژگیهای کروموزومی مرتبه بالاتری را نیز دارد. در مرحله بعد، تیم فضاهای جاسازی شات صفر را تجزیه و تحلیل کرد. این یک سازمان بیولوژیکی واضح، خوشهبندی بر اساس جنس، نوع بافت و زمینه ژنومی را نشان داد.
انواع بافت های اصلی خوشه های کاملاً مشخصی را تشکیل دادند که نشان می دهد مدل الگوهای متیلاسیون خاص بافت ها را بدون نظارت صریح آموخته است. قابل ذکر است، MethylGPT همچنین از اثرات دسته ای، که اغلب نتایج را در مجموعه داده های پیچیده مخدوش می کند، اجتناب کرد. علاوه بر این، نمونههای زن و مرد جدایی ثابتی را نشان دادند که منعکس کننده تفاوتهای جنسیتی خاص است. سپس، محققان توانایی MethylGPT را برای پیشبینی سن تقویمی از روی الگوهای متیلاسیون ارزیابی کردند. برای این منظور، آنها از مجموعه داده ای از بیش از 11400 نمونه از انواع بافت های مختلف استفاده کردند.
تنظیم دقیق برای پیشبینی سن منجر به خوشهبندی قوی وابسته به سن شد. قابل توجه، سازمان ذاتی مرتبط با سن حتی قبل از تنظیم دقیق مشهود بود. علاوه بر این، MethylGPT از روشهای پیشبینی سن موجود (مانند ساعت Horvath و ElasticNet) بهتر عمل کرد و به دقت برتر دست یافت. میانگین خطای مطلق آن برای پیشبینی سن 4.45 سال بود که استحکام آن را بیشتر نشان میدهد. MethylGPT همچنین به طور قابل توجهی در برابر داده های از دست رفته انعطاف پذیر بود. عملکرد پایداری را با تا 70 درصد داده های از دست رفته نشان داد و عملکرد بهتری از رویکردهای پرسپترون چند لایه و ElasticNet داشت.
تجزیه و تحلیل پروفایلهای متیلاسیون در طول برنامهریزی مجدد سلولهای بنیادی پرتوان القایی (iPSC) مسیر جوانسازی واضحی را نشان داد. نمونه ها به تدریج در طول برنامه ریزی مجدد به حالت متیلاسیون جوان تر تبدیل شدند. این مدل همچنین توانست نقطهای را در طول برنامهریزی مجدد (روز 20) که سلولها شروع به نشان دادن نشانههای واضحی از بازگشت سن اپی ژنتیکی نشان میدهند، شناسایی کند. در نهایت، توانایی مدل برای پیشبینی خطر بیماری مورد ارزیابی قرار گرفت. مدل از پیش آموزش دیده برای پیش بینی خطر 60 بیماری و مرگ و میر به خوبی تنظیم شده بود. این مدل در مجموعههای آزمایش و اعتبارسنجی به ترتیب به سطح زیر منحنی 0.74 و 0.72 دست یافت.
علاوه بر این، آنها از این چارچوب پیشبینی خطر بیماری برای ارزیابی تأثیر هشت مداخله بر بروز پیشبینیشده بیماری استفاده کردند. مداخلات شامل ترک سیگار، تمرین با شدت بالا و رژیم غذایی مدیترانهای بود که هر کدام درجات متفاوتی از اثربخشی را در گروههای بیماری نشان دادند. این اثرات متمایز مداخلهای را در بین دستههای بیماری نشان داد و پتانسیل MethylGPT را در پیشبینی پیامدهای مداخله خاص و بهینهسازی استراتژیهای مداخله مناسب برجسته کرد.