برآورد پارامترهای تکاملی اطلاعات ضروری را برای طراحی سیاست های بهداشت عمومی فراهم می کند. با این حال، در فواصل زمانی کوتاه، جایگزینی نوکلئوتید برای ثبت تمام پیچیدگی های پویایی جمعیت ویروس بی اثر است. از این نظر، همهگیری کنونی SARS-CoV-2 چالشی برای تجزیه و تحلیل تکاملی ایجاد میکند. ما از شبیهسازی رایانهای برای تکامل جمعیتها در سناریوهایی با فواصل زمانی مختلف برای ارزیابی تأثیر سن یک بیماری همهگیر بر تخمینهای زمان و جغرافیا استفاده کردیم. قبل از تخمین مقیاسهای زمانی ویروس، شکل توپولوژیهای درختی را میتوان به عنوان یک نماینده برای ارزیابی اثربخشی فیلوژنی ویروس در ارائه تخمینهای دقیق از پارامترهای تکاملی استفاده کرد. در بازه های زمانی کوتاه، تخمین ها دارای عدم قطعیت بیشتری هستند. ما پیشبینیهای شبیهسازیها را با دادههای تجربی مقایسه کردیم. شکل درختی SARS-CoV-2 به سناریوهای مقیاس زمانی کوتاهتر نزدیکتر بود، که تخمینهای پارامتریک با عدم قطعیت بیشتری را به همراه داشت، که نشان میدهد تخمینها از این مجموعه دادهها باید با احتیاط ارزیابی شوند. برای افزایش دقت تخمینهای زمان انتقال ویروس بین جمعیتها، عدم قطعیتهای مربوط به تخمین سنی هر دو گره تاج و ساقه باید اعلام شود. ما سن جد مشترک همهگیری SARS-CoV-2 فعلی را در اواخر سپتامبر 2019 قرار میدهیم و ظهور زودتر این ویروس را تأیید میکنیم.
کلیدواژه: کرونا ویروسسیر تکاملی؛انتقال؛شبیه سازی؛شکل درخت
مقدمه
تجزیه و تحلیل تکاملی ژنوم های ویروس غالباً به فیلوژنی های مولکولی متکی است ، که نشان دهنده اجداد نسب در نمودارهای درخت است (هولمز ، 2008 هولمز EC (2008) تاریخ تکاملی و فیلوژگرافی ویروس های انسانی. Annu Rev Microbiol 62: 307-328.). هنگامی که درختان ریشه دارند ، یک جهت زمانی ، دلالت بر روابط اجداد به دسپکت ، در فیلوژنی ها گنجانیده می شود. اگرچه توپولوژی های ریشه دار زمان محور هستند ، اما طول شاخه ها لزوماً متناسب با واحدهای زمان مطلق نیستند (Felsenstein ، 2004 Felsenstein J (2004) استنباط فیلوژنی ها. Sinauer ، New York.). به منظور ترکیب کامل بعد زمانی بر روی درختان ، باید زمان واگرایی گره ها تخمین زده شود. هنگامی که واگرایی ژنتیکی بین ژنوم به طور خطی مربوط به سنی است که ژنوم در آن یک اجداد مشترک را به اشتراک می گذارد ، این کار ساده است (Kumar ، 2005 Kumar S (2005) ساعتهای مولکولی: چهار دهه تکامل. Nat Rev Genet 6: 654-662.)وادبا استفاده از برخی از اطلاعات کالیبراسیون ، ممکن است یک تغییر مستقیم خطی به راحتی اعمال شود. این ساعت مولکولی استاندارد است که در آن میزان جایگزینی توالی در امتداد شاخه ها و در سراسر صفات ثابت است. با این حال ، از دهه 1970 ، ثبات نرخ به جای این قاعده استثناء بود (لانگلی و فیچ ، 1974 لانگلی Ch و فیچ Wm (1974) بررسی ثبات سرعت تکامل مولکولی. J Mol Evol 3: 161-177. ؛ گیلسپی و لانگلی ، 1979 Gillespie JH و Langley Ch (1979) نرخ تکاملی واقعاً متغیر هستند؟ J Mol Evol 13: 27-34.). از طرف دیگر ، بازه های زمانی ممکن است با تنوع نرخ در بین صفات استنباط شوند (گیلسپی ، 1991 ژیلسپی JH (1991) علل تکامل مولکولی. انتشارات دانشگاه آکسفورد ، نیویورک. ؛ کیشینو و همکاران ، 2001 کیشینو H ، Thorne JL و Bruno WJ (2001) عملکرد یک روش تخمین زمان واگرایی تحت یک مدل احتمالی تکامل نرخ. مول بیول Evol 18: 352-361. ؛ برومام و همکاران ، 2018 Bromham L ، Duchêne S ، Hua X ، Ritchie AM ، Duchêne DA و Ho Syw(2018) دوستیابی مولکولی بیزی: باز کردن جعبه سیاه. Biol Rev 93: 1165-1191.).
رویکردهای مختلفی برای انجام ناهمگونی نرخ به منظور انجام قدمت مولکولی واگرایی توالی ارائه شد. آنها را می توان تقریباً به روشها و روشهای صاف کننده طبقه بندی کرد که از مدلهای صریح تکامل نرخ جایگزینی در یک چارچوب بیزی استفاده می کنند (Thorne et al. ، 1998 Thorne JL ، Kishino H و Painter (1998) تخمین میزان تکامل نرخ مولکولیتکامل. Mol Biol Evol 15: 1647-1657. ؛ Sanderson ، 2002 Sanderson MJ (2002) تخمین میزان مطلق تکامل مولکولی و زمان واگرایی: یک رویکرد احتمال مجازات. Mol Biol Evol 19: 101-109. ؛ Drummond et al. ،2005 Drummond AJ ، Rambaut A ، Shapiro B و Pybus OG (2005) استنتاج همسایگی بیزی از پویایی جمعیت گذشته از توالی های مولکولی. Mol Biol Evol 22: 1185-1192. ؛ Drummond et al. ، 2006 Drummond AJ ، Ho Syw ، Phillips MJ ، Phillips MJ. و Rambaut A (2006) فیلوژنتیک آرام و با اعتماد به نفس. PLOS Biol 4: 699-710. ؛ اسمیت و اومارا ، 2012 Smith SA و O'Meara BC (2012) TreePL: تخمین زمان واگرایی با استفاده از احتمال مجازات برای فیلوژنی های بزرگتجزیه و تحلیل تکمیلی. bioinformatiCS 28: 2689-2690.). روشهای بیزی نیاز دارد که توزیع چگالی احتمال به عنوان مقدماتی برای محاسبه توزیع خلفی پارامترها استفاده شود. برای تنوع ویروس در سطح جمعیتی ، سن گره های فیلوژنی ها احتمالاً توسط زمان انتظار انتظار روند همسایگی توصیف می شوند (کینگمن ، 1982 Kingman JFC (1982) همبستگی. Stoch Proc Appl 13: 235-248. ؛ Biek et al.، 2015 Biek R ، Pybus OG ، Lloyd-Smith JO و Didelot X (2015) به طور قابل اندازه گیری پاتوژن های در حال تحول در دوره ژنومی. روند Ecol Evol 30: 306-313.). با توجه به میزان اتخاذ شده ، جای تعجب آور نیست که قدمت بازه های زمانی ویروس توسط عوامل متعددی تحت تأثیر قرار می گیرد (Stadler ، 2009 Stadler T (2009) در نمونه برداری ناقص تحت مدل های مرگ و زایمان با مدل های مرگ و میر مبتنی بر نمونه گیری. Biol 261: 58-66 .؛ Stadler and Yang ، 2013 Stadler T and Yang Z (2013) دوستیابی فیلوژنی ها با نکات متوالی نمونه برداری. Syst Biol 62: 674-688.).
یکی از این عوامل ، سنی است که جمعیت ویروس پس از عفونت اولیه در گونه های میزبان در حال گردش است. اگرچه غالباً نادیده گرفته می شود ، سن جمعیت ویروس در گردش بر استراتژی نمونه برداری مورد نیاز برای استنباط دقیق پارامترهای تکاملی تأثیر می گذارد. بسته به میزان جهش ، جمعیت ویروس که با موفقیت به یک گونه میزبان جدید آلوده شده اند ، ممکن است تعویض کافی را جمع نکنند تا استنباط فیلوژنتیک در چند نسل پس از انتقال اولیه امکان پذیر باشد و در نتیجه طول شاخه نزدیک به صفر و تعداد زیادی از توالی های کپی شده (Boskova and Stadler ، 2020 Boskova V and Stadler T (2020) Piqmee: روش فیلودینامیکی بیزی برای تجزیه و تحلیل مجموعه داده های بزرگ با توالی های تکراری. Mol Biol Evol 37: 3061-3075.). در یک بازه زمانی طولانی تر ، تعویض نوکلئوتیدی که توسط سلسله های آللی به اشتراک گذاشته می شود ، بوجود می آیند و رابطه سلسله مراتبی شبیه درخت بین توالی ها نیز ظهور می کند. عدم وجود ساختار درخت مانند بین توالی ها نتیجه ای از میزان جهش و مدت زمان شاخه های داخلی و نه فرآیند همسایگی است که مدل های ویروس را مدل می کند ، یعنی خطوط نزول (شکل 1). به عنوان مثال ، فاصله بین حوادث همسایگی 10 نسل معادل طول شاخه نزدیک به صفر تعویض/سایت در فیلوژنی های بازسازی شده ، حتی با فرض میزان جهش بالا در ویروس های RNA است.
شکل 1 - تاریخچه تکاملی چهار جمعیت (مناطق خاکستری) و شجره نامه های ویروس تحت فرآیند انسجام (خطوط جامد نزول). مناطق خاکستری هر جمعیت (A - D) را محدود می کند ، و روابط تاریخی و زمان انتقال آنها را نشان می دهد - جمعیت در منطقه B از یک ژنوم واحد نمونه برداری شده از منطقه A تأسیس شد. جمعیت مناطق C و D از ژنوم نمونه برداری شده از منطقه B در زمان های مختلف تأسیس شد. اگرچه رابطه مکانی بین جمعیت برای همه سناریوهای شبیه سازی شده (10y ، 2y ، 6m و 1m) یکسان بود ، زمان نمونه برداری و همچنین سن گره ریشه ، یعنی اجداد مشترک ، بر این اساس متفاوت بود. در داخل درخت جمعیت ، یک تبارشناسی ویروس ، مدل شده توسط فرآیند انسجام ، انتقال ژنوم بین مناطق (جریان ژن) را نشان می دهد ، و تفاوت بین حوادث همسایگی تنوع ژنتیکی درون جمعیت (گره تاج) و ژنتیکی بین جمعیت را برجسته می کند. تنوع (گره ساقه).
یکی دیگر از عوامل موثر بر تخمین مقیاس های زمانی ویروس، عدم تطابق بین تاریخچه انتقال ویروس بین جمعیت ها و شجره نامه ژنوم ویروس است. هنگامی که رویدادهای انتقال در امتداد مناطق جغرافیایی رخ می دهد، نمونه برداری از تنوع ژنتیکی جمعیت ویروس دهنده اغلب ناقص است و به دلیل تصادفی بودن فرآیند ادغام، هم سن اجداد مشترک ژنوم ها و هم انحصار تنوع ژنتیکی ویروس وجود دارد. در مناطق جغرافیایی تحت تأثیر قرار می گیرد (شکل 1). این احتمال عدم تطابق بین هر دو درخت (تاریخچه جمعیت و تبارشناسی ژن) افزایش می یابد اگر فاصله زمانی بین رویدادهای انتقال کوتاه باشد و سطح تنوع ژنتیکی بالا باشد (تاجیما، 1983 Tajima F (1983) رابطه تکاملی توالی های DNA در جمعیت های محدودژنتیک 105:437-460؛ پامیلو و نی، 1988 پامیلو پی و نی ام (1988) روابط بین درختان ژنی و درختان گونه. Mol Biol Evol 5:568-583. . این مشکل معادل عدم تطابق بین فیلوژنی گونه و درخت ژن در فیلوژنتیک مولکولی است که توسط ترکیب چند گونه ای مدل سازی شده است (Liu et al., 2009 Liu L, Yu L, Kubatko L, Pearl DK and Edwards S V. (2009) روشهای ادغام برای تخمین درختان فیلوژنتیک Mol Phylogenet Evol 53:320-328. Degnan and Rosenberg، 2009 Degnan JH and Rosenberg NA (2009) Gene درخت ناسازگاری، استنتاج فیلوژنتیک و چند گونه E24. 340.)، و بر تخمین سن اپیدمی و همچنین بازیابی الگوی واقعی انتشار ویروس در فضا تأثیر خواهد گذاشت.
همه گیر فعلی SARS-COV-2 نمونه ای از انتقال زئونوتیک اخیر است ، و تعداد فزاینده ای از مطالعات به پویایی تکاملی رمان Coronavirus پرداخته است (Boni et al. ، 2020 Boni MF ، Lemey P ، Jiang X ، Lam Tty، پری BW ، Castoe TA ، Rambaut A و Robertson DL (2020) منشأ تکاملی SARS-COV-2 Sarbecovirus Lineage مسئول همه گیر Covid-19. NAT Microbiol 5: 1408-1417 ؛ ؛ ژو و همکاران ، 2020 ژوP ، Yang X-L ، Wang X-G ، Hu B ، Zhang L ، Zhang W ، Si H-R ، Zhu Y ، Li B ، Huang C-L et al. (2020) شیوع پنومونی همراه با یک کروناویروس جدید از منشاء خفاش احتمالی. طبیعت 579:270-273.). علیرغم تلاش ها ، عصر جد مشترک SARS-COV-2 و همچنین سن شکاف بین رمان Coronavirus و سلسله خواهرش ، نامشخص است. به عنوان مثال ، بونی و همکاران.(2020) Boni MF ، Lemey P ، Jiang X ، Lam Tty ، Perry BW ، Castoe TA ، Rambaut A و Robertson DL (2020) منشأ تکاملی SARS-COV-2 Sarbecovirus Lineage مسئول همه گیر Covid-19. NAT Microbiol 5: 1408-1417. ترازهای بدون استفاده از مناطق نوترکیب استفاده شده و از نرخ تکاملی قبلی بر اساس نرخ جایگزینی MERS-COV و HCOV-OC43 استفاده کرده است. زمان واگرایی بین SARS-COV-2 و RATG13 ، نزدیکترین خواهر آن که تاکنون توالی شده است ، بسته به منطقه ژنومی مورد تجزیه و تحلیل ، در سالهای 1969 ، 1982 و 1948 تخمین زده شد. با این حال ، فواصل اطمینان بین این استنتاج ها زیاد بود. بیشتر مطالعات تاکنون زمان را به جدیدترین اجداد مشترک (TMRCA) در گردش SARS-COV-2 در ماه نوامبر یا دسامبر 2019 می رساند ، اگرچه فواصل اطمینان از اواخر سپتامبر تا اواخر دسامبر 2019 گسترش می یابد (Biggerstaff et al. ، 2020 Biggerstaff M ،Cowling BJ ، Cucunubá ZM ، Dinh L ، Ferguson NM ، Gao H ، Hill V ، Imai N ، Johansson MA ، Kada S et al. (2020) بینش های اولیه از مدل سازی آماری و ریاضی پارامترهای کلیدی اپیدمیولوژیک COVID-19. Dis. 26: E1-E14.). لای و همکاران.(2020 LAI A ، Bergna A ، Acciarri C ، Galli M و Zehender G (2020) تخمین فیلوژنتیک اولیه از تعداد تولید مثل مؤثر SARS-COV-2. J Med Virol 92: 675-679.) ، مقایسه عملکرد سختگیرانهدر مقابل ساعتهای مولکولی آرام برای برآورد سن اجداد مشترک 52 سکانس SARS-COV-2 ، و 18 نوامبر 2019 به دست آورد ، با فاصله 95 ٪ اعتبار از 10 سپتامبر 2019 تا 28 دسامبر 2019 ، به احتمال زیادتاریخ. کاندیدو و همکاران.(2020 Candido DS ، Claro IM ، De Jesus JG ، Souza WM ، Moreira FRR ، Dellicour S ، Mellan TA ،
Du Plessis L ، Pereira RHM ، Sales FCS و همکاران.(2020) تکامل و گسترش اپیدمی SARS-COV-2 در برزیل. Science 369: 1255-1260.) همچنین TMRCA SARS-COV-2 را در اواسط نوامبر تخمین زده است. لی و همکاران.(2020 Li J ، Li Z ، Cui X and Wu C (2020) استنتاج فیلودینامیکی بیزی در تکامل موقتی و انتقال جهانی SARS-COV-2. J آلوده 81: 318-356.) ، با تجزیه و تحلیل 313 ژنوم ، تاریخ به تاریخظهور SARS-COV-2 در 11 دسامبر 2019 (21 نوامبر 2019-24 دسامبر 2019) ، که به تخمین ژانگ و همکاران نزدیکتر است.(2020 ژانگ سی و وانگ م (2020) MRCA Time and Epidemic Dynamics رمان 2019 Coronavirus. Biorxiv: 10. 1101/2020. 01. 25. 919688. https://doi. org/10. 1101/2020. 01. 01. 25. 91968.) به دست آمده از 24 Genomes به دست آمده (05) به دست آمده (05) به دست آمده (05) به دست آمده (05) به دست آمده (05) به دست آمده (05) به دست آمده (05) به دست آمده (05) به دست آمده (05) به دست آمده (05))دسامبر 2019 تا 23 دسامبر 2019). علاوه بر این ، تخمین میزان تکامل نیز بین مطالعات متفاوت است ، از 7. 8 10 10 - 4 تعویض/سایت/سال (S/S/Y) (Boni et al. ، 2020 Boni MF ، Lemey P ، Jiang X ، Lam Tty، پری BW ، Castoe TA ، Rambaut A و Robertson DL (2020) منشأ تکاملی SARS-COV-2 Sarbecovirus Lineage مسئول همه گیر Covid-19. NAT Microbiol 5: 1408-1417 ؛ Lai et al. ، 2020 LaiA ، Bergna A ، Acciarri C ، Galli M و Zehender G (2020) تخمین فیلوژنتیک اولیه از تعداد تولید مثل مؤثر SARS-COV-2. J Med Virol 92: 675-679.) تا 1. 69 x 10-3 (Boni etAl. ، 2020 Boni MF ، Lemey P ، Jiang X ، Lam Tty ، Perry BW ، Castoe TA ، Rambaut A و Robertson DL (2020) منشأ تکاملی SARS-COV-2 Sarbecovirus Lineage مسئول همه گیر Covid-19. میکروبیول 5: 1408-1417.) و 2. 24 x 10 −3 s/s/y (لی و همکاران ، 2020 Li J ، Li Z ، Cui X و Wu C (2020) استنباط فیلودینامیکی بیزی در تکامل موقتی و انتقال جهانیاز SARS-Cov-2. J Infect 81: 318-356.).
ما بررسی کردیم که چقدر سن اپیدمی ویروس بر استنتاج پارامترهای تکاملی تأثیر می گذارد ، به منظور مشخص کردن اینکه آیا اختلافات بین تخمین های زمانی SARS-COV-2 ممکن است ناشی از تصادفی روند انسجام و کاهش ژنتیک باشدتنوع در بازه های زمانی باریک. به منظور مقایسه و اعتبارسنجی رویکرد روش شناختی ما ، ما همچنین داده های تجربی از ویروس های دیگر را که در جمعیت انسان در طول بازه های مختلف گردش می کنند ، بررسی کردیم. رویکرد ما پیش بینی های شبیه سازی با مجموعه داده های تجربی را مقایسه کرد. ما توالی ها را در زیر بازه های مختلف اپیدمی شبیه سازی کردیم تا مقادیر پارامتری را با نتایج حاصل از مجموعه داده های ویروس تجربی که نمونه ای از مقیاس های اپیدمی بلند مدت و کوتاه مدت است ، مقایسه کنیم. مقایسه ها با استفاده از شکل درخت انجام شد ، همانطور که توسط چگالی طیفی توپولوژی درخت اندازه گیری شد ، که مستقیماً از درختان حداکثر احتمال محاسبه شده محاسبه شدند.
مواد و روش ها
شبیه سازی برای ارزیابی اثرات IL و دامنه زمان نمونه برداری
برای نشان دادن تأثیر دامنه زمان نمونه برداری بر برآورد پارامترهای تکاملی ، ما توالی ها را تحت بازه های زمانی مختلف تکاملی تکامل دادیم. ما با اجازه انتقال خطوط به مناطق جدید ، دو بعد در شبیه سازی - زمان و مکان - گنجانیده ایم (شکل 1). سه پارامتر مورد بررسی قرار گرفت: سن اپیدمی (گره ریشه) ، سنین وقایع انتقال و ارتباط جغرافیایی ، که پارامترهای اصلی استنباط شده توسط بیشتر مطالعات تکامل ویروس است ، با عواقب طراحی سیاست های بهداشتی است. شبیه سازی های ما با استفاده از اسکریپت های R انجام شد و شامل جمعیتی بود که تحت مدل خنثی استاندارد تکامل یافتند ، با استفاده از نمونه گیری رایت-فیشر ژنهای فردی هاپلوئید 1500 جفت باز. این طول دنباله برای کنترل اثرات خطاهای نمونه برداری نوکلئوتید کافی نشان داده شده است (یانگ و رانالا ، 2006 یانگ Z و رانالا B (2006) تخمین بیزی از زمان واگرایی گونه ها در زیر یک ساعت مولکولی با استفاده از کالیبراسیون های فسیلی متعدد. Mol BioliolEvol 23: 212-226.). در هر نسل ، که در شبیه سازی ما برابر با یک روز بود ، سایت ها با سرعت 3 10 1 0-8 تعویض/سایت تحت مدل Juke s-Cantor جهش یافته بودند. این نرخ معادل نرخ در هر سال 1 10 1 0-5 ثانیه در ثانیه است که میانگین آن برای ویروس های RNA است. اندازه جمعیت مؤثر برای 1000 نفر تعیین شده است. اگرچه این مقدار از نظر جمعیت ویروس تجربی کوچکتر است ، اما برای خواسته های محاسباتی شبیه سازی های به موقع که هدف آنها تولید شکل توپولوژی درخت از پویایی تکاملی کوتاه مدت است ، مناسب است.
تمام شبیه سازی ها با یک جمعیت واحد در منطقه A آغاز شد. پس از تعداد از پیش تعیین شده نسل ها ، که با توجه به محدوده زمانی در هر سناریو متفاوت بود ، یک رویداد انتقال رخ داد و یک آلل واحد به منطقه B منتقل شد. از منطقه B ، حوادث انتقال نیز به مناطق C و D رخ داده است. تمام انتقال ها شامل وقایع منحصر به فرد بود و هیچ تماس مکرر بین مناطق مجاز نبود (شکل 1).
این شبیهسازی ساده امکان بررسی پارامترهای تکاملی را در مقیاسهای زمانی اپیدمیولوژیک مختلف فراهم کرد. چهار سناریو با تغییر کل وسعت زمانی اپیدمی، که برابر با سن جمعیت منطقه A بود، بررسی شد. در سناریوی اول که از این پس به 10Y اشاره شد، سن جد مشترک (tmrca) جمعیت منطقه A 10 سال بود. رویداد انتقال به منطقه B 8 سال پیش اتفاق افتاد، در حالی که انتقال از B به مناطق C و D به ترتیب در 6 و یک سال پیش رخ داد. در سناریوی دوم، 2Y، جد مشترک جمعیت A 2 ساله بود و انتقال به منطقه B 5 ماه بعد اتفاق افتاد. از جمعیت B، انتقال به مناطق B و C به ترتیب در 1 سال و 6 ماه پیش صورت گرفت. در دو سناریو باقی مانده، ما گسترش سریع جغرافیایی یک ویروس را در کمتر از یک سال شبیه سازی کردیم. در سناریوی 6M، سن جمعیت A 6 ماه بود، انتقال به B سه ماه بعد و انتقال از B به C و D به ترتیب در 3 و 1 ماه قبل اتفاق افتاد. در نهایت، در سناریوی 1M، همه انتقالها در یک ماه (سن A): از A به B در 20 روز پیش انجام شد. از B به C و D به ترتیب در 10 و 5 روز پیش. برای هر سناریو، ما 300 تکرار مستقل ایجاد کردیم. در هر تکرار، توالیها به صورت سریال در فواصل زمانی نمونهبرداری شدند تا تقریباً 28 توالی به دست آید. این عدد برای سرعت بخشیدن به زمان محاسباتی و در عین حال اطمینان از استحکام نتایج انتخاب شده است.
فیلوژنی هر هم ترازی شبیه سازی شده در IQ-TREE 1. 6 برآورد شد (Nguyen et al., 2014 Nguyen L, Schmidt HA, Haeseler A Von and Minh BQ (2014) IQ-TREE: یک الگوریتم تصادفی سریع و موثر برای تخمین حداکثرهای مشابهMol Biol Evol 32:268-274. ) تحت چارچوب حداکثر احتمال با استفاده از مدل جایگزینی انتخاب شده توسط اجرای ModelFinder موجود در برنامه. استنباط مقیاسهای زمانی و نرخهای تکاملی با استفاده از بسته TreeDater R (Volz and Frost، 2017 Volz EM and Frost SDW (2017) زمانیابی فیلوژنتیکی ساعت آرام مقیاسپذیر. ویروس Evol 3:vex025.)، با استفاده از تابع dater انجام شد. موقعیت گره ریشه نیز در TreeDater استنباط شد. ما هر دو سن گره ساقه و تاج را برای مناطق C و D اندازه گیری کردیم (شکل 1).
تجزیه و تحلیل عملکرد استنتاج تکاملی در چهار سناریو با مقایسه ویژگیهایی که برای ارزیابی و تصمیمگیری خطمشی سلامت مرتبط هستند اجرا شد: (1) سن اپیدمی (گره ریشه) و رویدادهای انتقال، و (2)فراوانی که در آن تنوع ژنتیکی در مناطق C و D به عنوان تکفیلتیک بازیابی شد. ویژگی های (1) از خروجی TreeDater بازیابی شد. فراوانی مونوفیلی در مناطق C و D با استفاده از توابع داخلی موجود در بسته میمون R اندازهگیری شد.
برای ارزیابی اینکه مقیاس زمانی اپیدمی چگونه بر شکل کلی توپولوژی درختان تأثیر میگذارد، معیارهای شکل درخت موجود در بسته RPANDA R را محاسبه کردیم (Morlon و همکاران، 2016 Morlon H، Lewitus E، Condamine FL، Manceau M، Clavel J. و Drury J (2016) RPANDA: یک بسته R برای تجزیه و تحلیل های کلان تکاملی روی درختان فیلوژنتیک. Methods Ecol Evol 7:589-597.، که چگالی طیفی فیلوژنی ها را از نمودار نرمال شده اصلاح شده Laplacean (Lewitus and Morlonwi, E201) تخمین می زند. و مورلون H (2016) مشخص کردن و مقایسه فیلوژنی ها از طیف لاپلاسی آنها. Syst Biol 65:495-507. ). معیارهای شکل زیر از چگالی طیفی محاسبه شد: عدم تقارن، اوج، مقدار ویژه اصلی و روش (eigengap) - برای جزئیات بیشتر به Lewitus and Morlon (2016) مراجعه کنید. فواصل بین چگالی طیفی توپولوژی ها با استفاده از متریک فاصله جنسن-شانون (J-S) با استفاده از تابع JSDtree در RPANDA محاسبه شد. ما از معیارهای چگالی طیفی برای مرتب کردن تمام توپولوژیهای شبیهسازی شده در گروه k (خوشهها) با استفاده از تحلیل خوشهبندی k-means استفاده کردیم. تعداد خوشه ها با استفاده از آماره شکاف انتخاب شد (Tibshirani et al., 2001 Tibshirani R, Walther G and Hastie T (2001) تخمین تعداد خوشه ها در یک مجموعه داده از طریق آماره شکاف. J R Statist Soc B 63:411-423.). در مجموع چهار خوشه برای بهینه سازی فواصل J-S درون گروهی به بین گروه ها پیدا شد. بنابراین ما توپولوژی ها را به یکی از این کلاس های k=4 اختصاص دادیم.
تجزیه و تحلیل مقایسه ای با SARS-CoV-2 و سایر اپیدمی ها
به منظور بررسی اثرات بازه زمانی بر پارامترهای تکاملی استنباط شده با داده های تجربی ، ما شبیه سازی های خود را با شیوع 2019-2020 SARS-COV-2 ، که شامل همه گیر اصلی قرن 21 ST است ، مقایسه کردیم. با استفاده از معیارهای شکل توپولوژیکی ، ما درختان فیلوژنتیک SARS-COV-2 را با توجه به سناریوهای شبیه سازی شده ارزیابی کردیم. ما همچنین توپولوژی SARS-COV-2 را با سایر شیوع ویروسی های اخیر مقایسه کردیم (SARS در 2003-2004 ؛ آنفلوانزا H1N1 در سال 2009 ، و شیوع ویروس ابولا 2014) و همچنین گونه های طولانی مدت ویروس در گردش (HIV-1B ، DENV-1، و HCV-1A).
توالی ها و ترازها
ما 358 ژنوم SARS-COV-2 موجود در GenBank (جدول S1) را بارگیری کردیم. این ژنوم ها توزیع جغرافیایی گسترده ای را پوشش می دهند و از دسامبر 2019 تا مارس 2020 نمونه برداری شدند. قاب های خواندن باز از ژنوم استخراج شدند و متعاقباً به صورت جداگانه تراز شدند. مناطق ژنومی زیر مورد تجزیه و تحلیل قرار گرفت - پروتئین های ساختاری S ، E ، M و N و ORFS 1AB ، 3A ، 6 ، 7A و 8. ترازها با نرم افزار عضلانی انجام شد (Edgar ، 2004 Edgar RC (2004) Muscle:تراز توالی چندگانه با دقت بالا و توان بالا. اسیدهای نوکلئیک Res 32: 1792-1797.). برای سایر سلسله های ویروس ، ما نمونه زمانی را که هر دو عفونت های کوتاه مدت و طولانی مدت از جمعیت انسانی را پوشش می دهند ، نمونه برداری کردیم. این بازه از چند ماه طی یک سال واحد (SARS-COV ، H1N1 و EBOV) تا چند دهه (HIV-1B) متغیر بود. نمونه گیری ژنوم به گونه ای انجام شد که توالی هایی را با تاریخ های جمع آوری که به طور مساوی به موقع فاصله داشتند ، بدست آورد. مجموعه داده های تجربی ، به استثنای SARS-COV-2 ، از پایگاه داده منابع پاتوژن ویروس (viprbrc. org) بارگیری شد. تعداد الحاق در جدول S2 ارائه شد.
استنتاج فیلوژنتیک و دوستیابی مولکولی