بنر_صفحه

اخبار

مدل زبان بزرگ (LLM) می‌تواند مقالات متقاعدکننده‌ای را بر اساس کلمات سریع بنویسد، در آزمون‌های مهارت حرفه‌ای قبول شود و اطلاعات صبورانه و همدلانه بنویسد. با این حال، علاوه بر خطرات شناخته‌شده‌ی داستان، شکنندگی و حقایق نادرست در LLM، مسائل حل‌نشده‌ی دیگری نیز به تدریج در کانون توجه قرار می‌گیرند، مانند مدل‌های هوش مصنوعی که در ایجاد و استفاده از آنها «ارزش‌های انسانی» بالقوه تبعیض‌آمیز وجود دارد، و حتی اگر LLM دیگر محتوا را جعل نکند و نتایج خروجی آشکارا مضر را حذف کند، «ارزش‌های LLM» ممکن است همچنان از ارزش‌های انسانی منحرف شوند.

 

مثال‌های بی‌شماری نشان می‌دهند که چگونه داده‌های مورد استفاده برای آموزش مدل‌های هوش مصنوعی، ارزش‌های فردی و اجتماعی را رمزگذاری می‌کنند که ممکن است در مدل تثبیت شوند. این مثال‌ها شامل طیف وسیعی از کاربردها، از جمله تفسیر خودکار عکس‌های رادیولوژی قفسه سینه، طبقه‌بندی بیماری‌های پوستی و تصمیم‌گیری الگوریتمی در مورد تخصیص منابع پزشکی هستند. همانطور که در مقاله اخیر در مجله ما آمده است، داده‌های آموزشی مغرضانه ممکن است ارزش‌ها و تعصبات موجود در جامعه را تقویت و آشکار کنند. برعکس، تحقیقات همچنین نشان داده است که می‌توان از هوش مصنوعی برای کاهش تعصب استفاده کرد. به عنوان مثال، محققان مدل‌های یادگیری عمیق را بر روی فیلم‌های اشعه ایکس زانو اعمال کردند و عواملی را کشف کردند که توسط شاخص‌های شدت استاندارد (که توسط رادیولوژیست‌ها درجه‌بندی می‌شوند) در مفصل زانو از دست رفته بودند، در نتیجه تفاوت‌های درد غیرقابل توضیح بین بیماران سیاه‌پوست و سفیدپوست را کاهش دادند.

اگرچه افراد بیشتری به سوگیری در مدل‌های هوش مصنوعی، به ویژه از نظر داده‌های آموزشی، پی می‌برند، اما بسیاری از نقاط ورودی دیگر ارزش‌های انسانی در فرآیند توسعه و استقرار مدل‌های هوش مصنوعی به اندازه کافی مورد توجه قرار نمی‌گیرند. هوش مصنوعی پزشکی اخیراً به نتایج چشمگیری دست یافته است، اما تا حد زیادی، به صراحت ارزش‌های انسانی و تعامل آنها با ارزیابی ریسک و استدلال احتمالی را در نظر نگرفته و مدل‌سازی نیز نشده است.

 

برای ملموس کردن این مفاهیم انتزاعی، تصور کنید که شما یک متخصص غدد درون‌ریز هستید و موظفید هورمون رشد انسانی نوترکیب را برای یک پسر ۸ ساله که زیر صدک سوم سن خود است، تجویز کنید. سطح هورمون رشد انسانی تحریک‌شده این پسر زیر ۲ نانوگرم در میلی‌لیتر است (مقدار مرجع، >۱۰ نانوگرم در میلی‌لیتر، مقدار مرجع برای بسیاری از کشورهای خارج از ایالات متحده >۷ نانوگرم در میلی‌لیتر است) و ژن کدکننده هورمون رشد انسانی او جهش‌های غیرفعال‌سازی نادری را شناسایی کرده است. ما معتقدیم که کاربرد درمان با هورمون رشد انسانی در این محیط بالینی بدیهی و غیرقابل انکار است.

استفاده از هورمون رشد انسانی در سناریوهای زیر می‌تواند جنجال‌برانگیز باشد: قد یک پسر ۱۴ ساله همیشه در صدک دهم همسالانش بوده است و اوج هورمون رشد انسانی پس از تحریک ۸ نانوگرم در میلی‌لیتر است. هیچ جهش عملکردی شناخته‌شده‌ای که بتواند بر قد تأثیر بگذارد، و همچنین سایر علل شناخته‌شده کوتاه‌قدی وجود ندارد و سن استخوانی او ۱۵ سال است (یعنی هیچ تأخیر رشدی ندارد). تنها بخشی از این جنجال به دلیل تفاوت در مقادیر آستانه تعیین‌شده توسط متخصصان بر اساس ده‌ها مطالعه در مورد سطح هورمون رشد انسانی است که برای تشخیص کمبود هورمون رشد ایزوله استفاده می‌شود. حداقل به همان اندازه جنجال، ناشی از تعادل ریسک و سود استفاده از هورمون رشد انسانی از دیدگاه بیماران، والدین بیمار، متخصصان مراقبت‌های بهداشتی، شرکت‌های داروسازی و پرداخت‌کنندگان است. متخصصان غدد درون‌ریز کودکان ممکن است عوارض جانبی نادر تزریق روزانه هورمون رشد به مدت ۲ سال را با احتمال عدم رشد یا تنها رشد حداقلی در اندازه بدن بزرگسال در مقایسه با زمان حال بسنجند. پسرها ممکن است باور داشته باشند که حتی اگر قدشان فقط ۲ سانتی‌متر افزایش یابد، تزریق هورمون رشد ارزشش را دارد، اما ممکن است شرکت پرداخت‌کننده و شرکت داروسازی دیدگاه‌های متفاوتی داشته باشند.

 

ما eGFR مبتنی بر کراتینین را به عنوان مثال در نظر می‌گیریم که یک شاخص عملکرد کلیه است که به طور گسترده برای تشخیص و مرحله‌بندی بیماری مزمن کلیه، تعیین شرایط پیوند یا اهدای کلیه و تعیین معیارهای کاهش و موارد منع مصرف برای بسیاری از داروهای تجویزی استفاده می‌شود. EGFR یک معادله رگرسیون ساده است که برای تخمین میزان فیلتراسیون گلومرولی (mGFR) اندازه‌گیری شده استفاده می‌شود که یک استاندارد مرجع است، اما روش ارزیابی آن نسبتاً دست و پا گیر است. این معادله رگرسیون را نمی‌توان یک مدل هوش مصنوعی در نظر گرفت، اما اصول بسیاری را در مورد ارزش‌های انسانی و استدلال احتمالاتی نشان می‌دهد.

اولین نقطه ورود برای مقادیر انسانی جهت ورود به eGFR، هنگام انتخاب داده‌ها برای برازش معادلات است. صف اصلی مورد استفاده برای طراحی فرمول eGFR عمدتاً از شرکت‌کنندگان سیاه‌پوست و سفیدپوست تشکیل شده است و کاربرد آن برای بسیاری از گروه‌های قومی دیگر مشخص نیست. نقاط ورود بعدی برای مقادیر انسانی در این فرمول عبارتند از: انتخاب دقت mGFR به عنوان هدف اصلی برای ارزیابی عملکرد کلیه، سطح قابل قبول دقت، نحوه اندازه‌گیری دقت و استفاده از eGFR به عنوان آستانه‌ای برای شروع تصمیم‌گیری بالینی (مانند تعیین شرایط پیوند کلیه یا تجویز دارو). در نهایت، هنگام انتخاب محتوای مدل ورودی، مقادیر انسانی نیز وارد این فرمول می‌شوند.

برای مثال، قبل از سال ۲۰۲۱، دستورالعمل‌ها پیشنهاد می‌کنند که سطح کراتینین در فرمول eGFR بر اساس سن، جنسیت و نژاد بیمار تنظیم شود (فقط به عنوان افراد سیاه‌پوست یا غیر سیاه‌پوست طبقه‌بندی می‌شود). تنظیم بر اساس نژاد با هدف بهبود دقت فرمول mGFR انجام می‌شود، اما در سال ۲۰۲۰، بیمارستان‌های بزرگ با استناد به دلایلی مانند تأخیر در واجد شرایط بودن بیمار برای پیوند و مشخص کردن نژاد به عنوان یک مفهوم بیولوژیکی، شروع به زیر سوال بردن استفاده از eGFR مبتنی بر نژاد کردند. تحقیقات نشان داده است که طراحی مدل‌های eGFR بر اساس نژاد می‌تواند تأثیرات عمیق و متفاوتی بر دقت و پیامدهای بالینی داشته باشد. بنابراین، تمرکز انتخابی بر دقت یا تمرکز بر بخشی از پیامدها، منعکس‌کننده قضاوت‌های ارزشی است و ممکن است تصمیم‌گیری شفاف را پنهان کند. در نهایت، گروه کاری ملی فرمول جدیدی را پیشنهاد کرد که بدون در نظر گرفتن نژاد، برای ایجاد تعادل بین عملکرد و مسائل انصاف، تنظیم مجدد شد. این مثال نشان می‌دهد که حتی یک فرمول بالینی ساده نیز نقاط ورود زیادی به ارزش‌های انسانی دارد.

پزشک با واقعیت مجازی در اتاق عمل بیمارستان. جراح در حال تجزیه و تحلیل نتیجه آزمایش قلب بیمار و آناتومی انسان در رابط مجازی آینده نگر دیجیتال فناوری، هولوگرافی دیجیتال، نوآورانه در مفهوم علم و پزشکی.

در مقایسه با فرمول‌های بالینی که تنها تعداد کمی شاخص پیش‌بینی‌کننده دارند، LLM ممکن است شامل میلیاردها تا صدها میلیارد پارامتر (وزن مدل) یا بیشتر باشد که درک آن را دشوار می‌کند. دلیل اینکه می‌گوییم «درک آن دشوار است» این است که در اکثر LLMها، روش دقیق استخراج پاسخ‌ها از طریق پرسش قابل ترسیم نیست. تعداد پارامترهای GPT-4 هنوز اعلام نشده است. مدل قبلی آن، GPT-3، 175 میلیارد پارامتر داشت. پارامترهای بیشتر لزوماً به معنای قابلیت‌های قوی‌تر نیستند، زیرا مدل‌های کوچک‌تر که شامل چرخه‌های محاسباتی بیشتری هستند (مانند سری مدل‌های LLaMA [متا هوش مصنوعی مدل زبان بزرگ]) یا مدل‌هایی که بر اساس بازخورد انسانی به دقت تنظیم شده‌اند، عملکرد بهتری نسبت به مدل‌های بزرگ‌تر خواهند داشت. به عنوان مثال، طبق گفته ارزیابان انسانی، مدل InstrumentGPT (مدلی با 1.3 میلیارد پارامتر) در بهینه‌سازی نتایج خروجی مدل از GPT-3 بهتر عمل می‌کند.

جزئیات آموزش خاص GPT-4 هنوز فاش نشده است، اما جزئیات مدل‌های نسل قبلی از جمله GPT-3، InstrumentGPT و بسیاری دیگر از LLMهای متن‌باز فاش شده است. امروزه بسیاری از مدل‌های هوش مصنوعی با کارت‌های مدل ارائه می‌شوند. داده‌های ارزیابی و امنیتی GPT-4 در یک کارت سیستم مشابه که توسط شرکت ایجاد مدل OpenAI ارائه شده است، منتشر شده است. ایجاد LLM را می‌توان تقریباً به دو مرحله تقسیم کرد: مرحله اولیه پیش از آموزش و مرحله تنظیم دقیق با هدف بهینه‌سازی نتایج خروجی مدل. در مرحله پیش از آموزش، یک مجموعه بزرگ از جمله متن اصلی اینترنت در اختیار مدل قرار می‌گیرد تا آن را برای پیش‌بینی کلمه بعدی آموزش دهد. این فرآیند به ظاهر ساده "تکمیل خودکار" یک مدل بنیادی قدرتمند تولید می‌کند، اما می‌تواند منجر به رفتارهای مضر نیز شود. ارزش‌های انسانی وارد مرحله پیش از آموزش می‌شوند، از جمله انتخاب داده‌های پیش از آموزش برای GPT-4 و تصمیم‌گیری برای حذف محتوای نامناسب مانند محتوای مستهجن از داده‌های پیش از آموزش. با وجود این تلاش‌ها، مدل پایه ممکن است هنوز نه مفید باشد و نه قادر به مهار نتایج خروجی مضر. در مرحله بعدی تنظیم دقیق، بسیاری از رفتارهای مفید و بی‌ضرر پدیدار می‌شوند.

در مرحله تنظیم دقیق، رفتار مدل‌های زبانی اغلب از طریق تنظیم دقیق تحت نظارت و یادگیری تقویتی مبتنی بر بازخورد انسانی، عمیقاً تغییر می‌کند. در مرحله تنظیم دقیق تحت نظارت، پرسنل پیمانکار استخدام‌شده، مثال‌های پاسخ را برای کلمات سریع می‌نویسند و مستقیماً مدل را آموزش می‌دهند. در مرحله یادگیری تقویتی مبتنی بر بازخورد انسانی، ارزیابان انسانی نتایج خروجی مدل را به عنوان مثال‌های محتوای ورودی مرتب می‌کنند. سپس نتایج مقایسه فوق را برای یادگیری «مدل پاداش» اعمال می‌کنند و مدل را از طریق یادگیری تقویتی بیشتر بهبود می‌بخشند. مشارکت شگفت‌انگیز سطح پایین انسانی می‌تواند این مدل‌های بزرگ را تنظیم دقیق کند. به عنوان مثال، مدل InstrumentGPT از تیمی متشکل از تقریباً 40 پرسنل پیمانکار که از وب‌سایت‌های جمع‌سپاری استخدام شده بودند، استفاده کرد و یک آزمون غربالگری را با هدف انتخاب گروهی از حاشیه‌نویسانی که به ترجیحات گروه‌های مختلف جمعیتی حساس هستند، پشت سر گذاشت.

همانطور که این دو مثال افراطی، یعنی فرمول بالینی ساده [eGFR] و LLM قدرتمند [GPT-4]، نشان می‌دهند، تصمیم‌گیری انسانی و ارزش‌های انسانی نقش ضروری در شکل‌دهی به نتایج خروجی مدل دارند. آیا این مدل‌های هوش مصنوعی می‌توانند ارزش‌های متنوع بیمار و پزشک را در نظر بگیرند؟ چگونه می‌توان کاربرد هوش مصنوعی را در پزشکی به طور عمومی هدایت کرد؟ همانطور که در ادامه ذکر شد، بررسی مجدد تحلیل تصمیم‌گیری پزشکی می‌تواند یک راه حل اصولی برای این مسائل ارائه دهد.

 

تحلیل تصمیم‌گیری پزشکی برای بسیاری از پزشکان آشنا نیست، اما می‌تواند بین استدلال احتمالاتی (برای نتایج نامشخص مربوط به تصمیم‌گیری، مانند اینکه آیا هورمون رشد انسانی در سناریوی بالینی بحث‌برانگیز نشان داده شده در شکل 1 تجویز شود یا خیر) و عوامل ملاحظه (برای مقادیر ذهنی متصل به این نتایج، که مقدار آنها به عنوان "مطلوبیت" کمی‌سازی می‌شود، مانند مقدار افزایش 2 سانتی‌متری قد مردان) تمایز قائل شود و راه‌حل‌های سیستماتیکی برای تصمیمات پزشکی پیچیده ارائه دهد. در تحلیل تصمیم‌گیری، پزشکان ابتدا باید تمام تصمیمات و احتمالات ممکن مرتبط با هر نتیجه را تعیین کنند و سپس مطلوبیت بیمار (یا طرف دیگر) مرتبط با هر نتیجه را برای انتخاب مناسب‌ترین گزینه در نظر بگیرند. بنابراین، اعتبار تحلیل تصمیم‌گیری به جامع بودن شرایط نتیجه و همچنین دقیق بودن اندازه‌گیری مطلوبیت و تخمین احتمال بستگی دارد. در حالت ایده‌آل، این رویکرد به اطمینان از مبتنی بودن تصمیمات بر شواهد و همسو بودن با ترجیحات بیمار کمک می‌کند و در نتیجه شکاف بین داده‌های عینی و ارزش‌های شخصی را کاهش می‌دهد. این روش چندین دهه پیش وارد حوزه پزشکی شد و برای تصمیم‌گیری فردی بیمار و ارزیابی سلامت جمعیت، مانند ارائه توصیه‌هایی برای غربالگری سرطان کولورکتال به جمعیت عمومی، اعمال شد.

 

در تحلیل تصمیم‌گیری پزشکی، روش‌های مختلفی برای به دست آوردن مطلوبیت توسعه داده شده‌اند. اکثر روش‌های سنتی مستقیماً ارزش را از بیماران منفرد استخراج می‌کنند. ساده‌ترین روش استفاده از یک مقیاس رتبه‌بندی است که در آن بیماران سطح ترجیح خود را برای یک نتیجه خاص در یک مقیاس دیجیتال (مانند مقیاس خطی از 1 تا 10) ارزیابی می‌کنند، که شدیدترین پیامدهای سلامتی (مانند سلامتی کامل و مرگ) در دو انتها قرار دارند. روش تبادل زمان یکی دیگر از روش‌های رایج است. در این روش، بیماران باید تصمیم بگیرند که در ازای یک دوره سلامت ضعیف، حاضرند چه مقدار زمان سالم صرف کنند. روش استاندارد قمار یکی دیگر از روش‌های رایج برای تعیین مطلوبیت است. در این روش، از بیماران پرسیده می‌شود که کدام یک از دو گزینه را ترجیح می‌دهند: یا تعداد مشخصی سال را در سلامت طبیعی با احتمال خاص (p) (t) زندگی کنند و خطر مرگ را با احتمال 1-p تحمل کنند؛ یا مطمئن شوند که به مدت t سال تحت شرایط سلامتی مختلف زندگی می‌کنند. چندین بار از بیماران با مقادیر p مختلف بپرسید تا زمانی که هیچ ترجیحی برای هیچ گزینه‌ای نشان ندهند، تا بتوان مطلوبیت را بر اساس پاسخ‌های بیمار محاسبه کرد.
علاوه بر روش‌هایی که برای استخراج ترجیحات فردی بیمار استفاده می‌شوند، روش‌هایی نیز برای به دست آوردن مطلوبیت برای جمعیت بیمار توسعه داده شده‌اند. به ویژه بحث‌های گروهی متمرکز (گرد هم آوردن بیماران برای بحث در مورد تجربیات خاص) می‌تواند به درک دیدگاه‌های آنها کمک کند. به منظور تجمیع مؤثر مطلوبیت گروهی، تکنیک‌های مختلف بحث گروهی ساختاریافته پیشنهاد شده است.
در عمل، معرفی مستقیم سودمندی در فرآیند تشخیص و درمان بالینی بسیار زمان‌بر است. به عنوان یک راه حل، پرسشنامه‌های نظرسنجی معمولاً در جمعیت‌های تصادفی انتخاب شده توزیع می‌شوند تا نمرات سودمندی در سطح جمعیت به دست آید. برخی از نمونه‌ها شامل پرسشنامه 5 بعدی EuroQol، فرم کوتاه وزن سودمندی 6 بعدی، شاخص سودمندی سلامت و ابزار Core 30 پرسشنامه کیفیت زندگی سازمان تحقیقات و درمان سرطان اروپا (CRC) است.


زمان ارسال: ژوئن-01-2024