مدل زبان بزرگ (LLM) میتواند مقالات متقاعدکنندهای را بر اساس کلمات سریع بنویسد، در آزمونهای مهارت حرفهای قبول شود و اطلاعات صبورانه و همدلانه بنویسد. با این حال، علاوه بر خطرات شناختهشدهی داستان، شکنندگی و حقایق نادرست در LLM، مسائل حلنشدهی دیگری نیز به تدریج در کانون توجه قرار میگیرند، مانند مدلهای هوش مصنوعی که در ایجاد و استفاده از آنها «ارزشهای انسانی» بالقوه تبعیضآمیز وجود دارد، و حتی اگر LLM دیگر محتوا را جعل نکند و نتایج خروجی آشکارا مضر را حذف کند، «ارزشهای LLM» ممکن است همچنان از ارزشهای انسانی منحرف شوند.
مثالهای بیشماری نشان میدهند که چگونه دادههای مورد استفاده برای آموزش مدلهای هوش مصنوعی، ارزشهای فردی و اجتماعی را رمزگذاری میکنند که ممکن است در مدل تثبیت شوند. این مثالها شامل طیف وسیعی از کاربردها، از جمله تفسیر خودکار عکسهای رادیولوژی قفسه سینه، طبقهبندی بیماریهای پوستی و تصمیمگیری الگوریتمی در مورد تخصیص منابع پزشکی هستند. همانطور که در مقاله اخیر در مجله ما آمده است، دادههای آموزشی مغرضانه ممکن است ارزشها و تعصبات موجود در جامعه را تقویت و آشکار کنند. برعکس، تحقیقات همچنین نشان داده است که میتوان از هوش مصنوعی برای کاهش تعصب استفاده کرد. به عنوان مثال، محققان مدلهای یادگیری عمیق را بر روی فیلمهای اشعه ایکس زانو اعمال کردند و عواملی را کشف کردند که توسط شاخصهای شدت استاندارد (که توسط رادیولوژیستها درجهبندی میشوند) در مفصل زانو از دست رفته بودند، در نتیجه تفاوتهای درد غیرقابل توضیح بین بیماران سیاهپوست و سفیدپوست را کاهش دادند.
اگرچه افراد بیشتری به سوگیری در مدلهای هوش مصنوعی، به ویژه از نظر دادههای آموزشی، پی میبرند، اما بسیاری از نقاط ورودی دیگر ارزشهای انسانی در فرآیند توسعه و استقرار مدلهای هوش مصنوعی به اندازه کافی مورد توجه قرار نمیگیرند. هوش مصنوعی پزشکی اخیراً به نتایج چشمگیری دست یافته است، اما تا حد زیادی، به صراحت ارزشهای انسانی و تعامل آنها با ارزیابی ریسک و استدلال احتمالی را در نظر نگرفته و مدلسازی نیز نشده است.
برای ملموس کردن این مفاهیم انتزاعی، تصور کنید که شما یک متخصص غدد درونریز هستید و موظفید هورمون رشد انسانی نوترکیب را برای یک پسر ۸ ساله که زیر صدک سوم سن خود است، تجویز کنید. سطح هورمون رشد انسانی تحریکشده این پسر زیر ۲ نانوگرم در میلیلیتر است (مقدار مرجع، >۱۰ نانوگرم در میلیلیتر، مقدار مرجع برای بسیاری از کشورهای خارج از ایالات متحده >۷ نانوگرم در میلیلیتر است) و ژن کدکننده هورمون رشد انسانی او جهشهای غیرفعالسازی نادری را شناسایی کرده است. ما معتقدیم که کاربرد درمان با هورمون رشد انسانی در این محیط بالینی بدیهی و غیرقابل انکار است.
استفاده از هورمون رشد انسانی در سناریوهای زیر میتواند جنجالبرانگیز باشد: قد یک پسر ۱۴ ساله همیشه در صدک دهم همسالانش بوده است و اوج هورمون رشد انسانی پس از تحریک ۸ نانوگرم در میلیلیتر است. هیچ جهش عملکردی شناختهشدهای که بتواند بر قد تأثیر بگذارد، و همچنین سایر علل شناختهشده کوتاهقدی وجود ندارد و سن استخوانی او ۱۵ سال است (یعنی هیچ تأخیر رشدی ندارد). تنها بخشی از این جنجال به دلیل تفاوت در مقادیر آستانه تعیینشده توسط متخصصان بر اساس دهها مطالعه در مورد سطح هورمون رشد انسانی است که برای تشخیص کمبود هورمون رشد ایزوله استفاده میشود. حداقل به همان اندازه جنجال، ناشی از تعادل ریسک و سود استفاده از هورمون رشد انسانی از دیدگاه بیماران، والدین بیمار، متخصصان مراقبتهای بهداشتی، شرکتهای داروسازی و پرداختکنندگان است. متخصصان غدد درونریز کودکان ممکن است عوارض جانبی نادر تزریق روزانه هورمون رشد به مدت ۲ سال را با احتمال عدم رشد یا تنها رشد حداقلی در اندازه بدن بزرگسال در مقایسه با زمان حال بسنجند. پسرها ممکن است باور داشته باشند که حتی اگر قدشان فقط ۲ سانتیمتر افزایش یابد، تزریق هورمون رشد ارزشش را دارد، اما ممکن است شرکت پرداختکننده و شرکت داروسازی دیدگاههای متفاوتی داشته باشند.
ما eGFR مبتنی بر کراتینین را به عنوان مثال در نظر میگیریم که یک شاخص عملکرد کلیه است که به طور گسترده برای تشخیص و مرحلهبندی بیماری مزمن کلیه، تعیین شرایط پیوند یا اهدای کلیه و تعیین معیارهای کاهش و موارد منع مصرف برای بسیاری از داروهای تجویزی استفاده میشود. EGFR یک معادله رگرسیون ساده است که برای تخمین میزان فیلتراسیون گلومرولی (mGFR) اندازهگیری شده استفاده میشود که یک استاندارد مرجع است، اما روش ارزیابی آن نسبتاً دست و پا گیر است. این معادله رگرسیون را نمیتوان یک مدل هوش مصنوعی در نظر گرفت، اما اصول بسیاری را در مورد ارزشهای انسانی و استدلال احتمالاتی نشان میدهد.
اولین نقطه ورود برای مقادیر انسانی جهت ورود به eGFR، هنگام انتخاب دادهها برای برازش معادلات است. صف اصلی مورد استفاده برای طراحی فرمول eGFR عمدتاً از شرکتکنندگان سیاهپوست و سفیدپوست تشکیل شده است و کاربرد آن برای بسیاری از گروههای قومی دیگر مشخص نیست. نقاط ورود بعدی برای مقادیر انسانی در این فرمول عبارتند از: انتخاب دقت mGFR به عنوان هدف اصلی برای ارزیابی عملکرد کلیه، سطح قابل قبول دقت، نحوه اندازهگیری دقت و استفاده از eGFR به عنوان آستانهای برای شروع تصمیمگیری بالینی (مانند تعیین شرایط پیوند کلیه یا تجویز دارو). در نهایت، هنگام انتخاب محتوای مدل ورودی، مقادیر انسانی نیز وارد این فرمول میشوند.
برای مثال، قبل از سال ۲۰۲۱، دستورالعملها پیشنهاد میکنند که سطح کراتینین در فرمول eGFR بر اساس سن، جنسیت و نژاد بیمار تنظیم شود (فقط به عنوان افراد سیاهپوست یا غیر سیاهپوست طبقهبندی میشود). تنظیم بر اساس نژاد با هدف بهبود دقت فرمول mGFR انجام میشود، اما در سال ۲۰۲۰، بیمارستانهای بزرگ با استناد به دلایلی مانند تأخیر در واجد شرایط بودن بیمار برای پیوند و مشخص کردن نژاد به عنوان یک مفهوم بیولوژیکی، شروع به زیر سوال بردن استفاده از eGFR مبتنی بر نژاد کردند. تحقیقات نشان داده است که طراحی مدلهای eGFR بر اساس نژاد میتواند تأثیرات عمیق و متفاوتی بر دقت و پیامدهای بالینی داشته باشد. بنابراین، تمرکز انتخابی بر دقت یا تمرکز بر بخشی از پیامدها، منعکسکننده قضاوتهای ارزشی است و ممکن است تصمیمگیری شفاف را پنهان کند. در نهایت، گروه کاری ملی فرمول جدیدی را پیشنهاد کرد که بدون در نظر گرفتن نژاد، برای ایجاد تعادل بین عملکرد و مسائل انصاف، تنظیم مجدد شد. این مثال نشان میدهد که حتی یک فرمول بالینی ساده نیز نقاط ورود زیادی به ارزشهای انسانی دارد.
در مقایسه با فرمولهای بالینی که تنها تعداد کمی شاخص پیشبینیکننده دارند، LLM ممکن است شامل میلیاردها تا صدها میلیارد پارامتر (وزن مدل) یا بیشتر باشد که درک آن را دشوار میکند. دلیل اینکه میگوییم «درک آن دشوار است» این است که در اکثر LLMها، روش دقیق استخراج پاسخها از طریق پرسش قابل ترسیم نیست. تعداد پارامترهای GPT-4 هنوز اعلام نشده است. مدل قبلی آن، GPT-3، 175 میلیارد پارامتر داشت. پارامترهای بیشتر لزوماً به معنای قابلیتهای قویتر نیستند، زیرا مدلهای کوچکتر که شامل چرخههای محاسباتی بیشتری هستند (مانند سری مدلهای LLaMA [متا هوش مصنوعی مدل زبان بزرگ]) یا مدلهایی که بر اساس بازخورد انسانی به دقت تنظیم شدهاند، عملکرد بهتری نسبت به مدلهای بزرگتر خواهند داشت. به عنوان مثال، طبق گفته ارزیابان انسانی، مدل InstrumentGPT (مدلی با 1.3 میلیارد پارامتر) در بهینهسازی نتایج خروجی مدل از GPT-3 بهتر عمل میکند.
جزئیات آموزش خاص GPT-4 هنوز فاش نشده است، اما جزئیات مدلهای نسل قبلی از جمله GPT-3، InstrumentGPT و بسیاری دیگر از LLMهای متنباز فاش شده است. امروزه بسیاری از مدلهای هوش مصنوعی با کارتهای مدل ارائه میشوند. دادههای ارزیابی و امنیتی GPT-4 در یک کارت سیستم مشابه که توسط شرکت ایجاد مدل OpenAI ارائه شده است، منتشر شده است. ایجاد LLM را میتوان تقریباً به دو مرحله تقسیم کرد: مرحله اولیه پیش از آموزش و مرحله تنظیم دقیق با هدف بهینهسازی نتایج خروجی مدل. در مرحله پیش از آموزش، یک مجموعه بزرگ از جمله متن اصلی اینترنت در اختیار مدل قرار میگیرد تا آن را برای پیشبینی کلمه بعدی آموزش دهد. این فرآیند به ظاهر ساده "تکمیل خودکار" یک مدل بنیادی قدرتمند تولید میکند، اما میتواند منجر به رفتارهای مضر نیز شود. ارزشهای انسانی وارد مرحله پیش از آموزش میشوند، از جمله انتخاب دادههای پیش از آموزش برای GPT-4 و تصمیمگیری برای حذف محتوای نامناسب مانند محتوای مستهجن از دادههای پیش از آموزش. با وجود این تلاشها، مدل پایه ممکن است هنوز نه مفید باشد و نه قادر به مهار نتایج خروجی مضر. در مرحله بعدی تنظیم دقیق، بسیاری از رفتارهای مفید و بیضرر پدیدار میشوند.
در مرحله تنظیم دقیق، رفتار مدلهای زبانی اغلب از طریق تنظیم دقیق تحت نظارت و یادگیری تقویتی مبتنی بر بازخورد انسانی، عمیقاً تغییر میکند. در مرحله تنظیم دقیق تحت نظارت، پرسنل پیمانکار استخدامشده، مثالهای پاسخ را برای کلمات سریع مینویسند و مستقیماً مدل را آموزش میدهند. در مرحله یادگیری تقویتی مبتنی بر بازخورد انسانی، ارزیابان انسانی نتایج خروجی مدل را به عنوان مثالهای محتوای ورودی مرتب میکنند. سپس نتایج مقایسه فوق را برای یادگیری «مدل پاداش» اعمال میکنند و مدل را از طریق یادگیری تقویتی بیشتر بهبود میبخشند. مشارکت شگفتانگیز سطح پایین انسانی میتواند این مدلهای بزرگ را تنظیم دقیق کند. به عنوان مثال، مدل InstrumentGPT از تیمی متشکل از تقریباً 40 پرسنل پیمانکار که از وبسایتهای جمعسپاری استخدام شده بودند، استفاده کرد و یک آزمون غربالگری را با هدف انتخاب گروهی از حاشیهنویسانی که به ترجیحات گروههای مختلف جمعیتی حساس هستند، پشت سر گذاشت.
همانطور که این دو مثال افراطی، یعنی فرمول بالینی ساده [eGFR] و LLM قدرتمند [GPT-4]، نشان میدهند، تصمیمگیری انسانی و ارزشهای انسانی نقش ضروری در شکلدهی به نتایج خروجی مدل دارند. آیا این مدلهای هوش مصنوعی میتوانند ارزشهای متنوع بیمار و پزشک را در نظر بگیرند؟ چگونه میتوان کاربرد هوش مصنوعی را در پزشکی به طور عمومی هدایت کرد؟ همانطور که در ادامه ذکر شد، بررسی مجدد تحلیل تصمیمگیری پزشکی میتواند یک راه حل اصولی برای این مسائل ارائه دهد.
تحلیل تصمیمگیری پزشکی برای بسیاری از پزشکان آشنا نیست، اما میتواند بین استدلال احتمالاتی (برای نتایج نامشخص مربوط به تصمیمگیری، مانند اینکه آیا هورمون رشد انسانی در سناریوی بالینی بحثبرانگیز نشان داده شده در شکل 1 تجویز شود یا خیر) و عوامل ملاحظه (برای مقادیر ذهنی متصل به این نتایج، که مقدار آنها به عنوان "مطلوبیت" کمیسازی میشود، مانند مقدار افزایش 2 سانتیمتری قد مردان) تمایز قائل شود و راهحلهای سیستماتیکی برای تصمیمات پزشکی پیچیده ارائه دهد. در تحلیل تصمیمگیری، پزشکان ابتدا باید تمام تصمیمات و احتمالات ممکن مرتبط با هر نتیجه را تعیین کنند و سپس مطلوبیت بیمار (یا طرف دیگر) مرتبط با هر نتیجه را برای انتخاب مناسبترین گزینه در نظر بگیرند. بنابراین، اعتبار تحلیل تصمیمگیری به جامع بودن شرایط نتیجه و همچنین دقیق بودن اندازهگیری مطلوبیت و تخمین احتمال بستگی دارد. در حالت ایدهآل، این رویکرد به اطمینان از مبتنی بودن تصمیمات بر شواهد و همسو بودن با ترجیحات بیمار کمک میکند و در نتیجه شکاف بین دادههای عینی و ارزشهای شخصی را کاهش میدهد. این روش چندین دهه پیش وارد حوزه پزشکی شد و برای تصمیمگیری فردی بیمار و ارزیابی سلامت جمعیت، مانند ارائه توصیههایی برای غربالگری سرطان کولورکتال به جمعیت عمومی، اعمال شد.
در تحلیل تصمیمگیری پزشکی، روشهای مختلفی برای به دست آوردن مطلوبیت توسعه داده شدهاند. اکثر روشهای سنتی مستقیماً ارزش را از بیماران منفرد استخراج میکنند. سادهترین روش استفاده از یک مقیاس رتبهبندی است که در آن بیماران سطح ترجیح خود را برای یک نتیجه خاص در یک مقیاس دیجیتال (مانند مقیاس خطی از 1 تا 10) ارزیابی میکنند، که شدیدترین پیامدهای سلامتی (مانند سلامتی کامل و مرگ) در دو انتها قرار دارند. روش تبادل زمان یکی دیگر از روشهای رایج است. در این روش، بیماران باید تصمیم بگیرند که در ازای یک دوره سلامت ضعیف، حاضرند چه مقدار زمان سالم صرف کنند. روش استاندارد قمار یکی دیگر از روشهای رایج برای تعیین مطلوبیت است. در این روش، از بیماران پرسیده میشود که کدام یک از دو گزینه را ترجیح میدهند: یا تعداد مشخصی سال را در سلامت طبیعی با احتمال خاص (p) (t) زندگی کنند و خطر مرگ را با احتمال 1-p تحمل کنند؛ یا مطمئن شوند که به مدت t سال تحت شرایط سلامتی مختلف زندگی میکنند. چندین بار از بیماران با مقادیر p مختلف بپرسید تا زمانی که هیچ ترجیحی برای هیچ گزینهای نشان ندهند، تا بتوان مطلوبیت را بر اساس پاسخهای بیمار محاسبه کرد.
علاوه بر روشهایی که برای استخراج ترجیحات فردی بیمار استفاده میشوند، روشهایی نیز برای به دست آوردن مطلوبیت برای جمعیت بیمار توسعه داده شدهاند. به ویژه بحثهای گروهی متمرکز (گرد هم آوردن بیماران برای بحث در مورد تجربیات خاص) میتواند به درک دیدگاههای آنها کمک کند. به منظور تجمیع مؤثر مطلوبیت گروهی، تکنیکهای مختلف بحث گروهی ساختاریافته پیشنهاد شده است.
در عمل، معرفی مستقیم سودمندی در فرآیند تشخیص و درمان بالینی بسیار زمانبر است. به عنوان یک راه حل، پرسشنامههای نظرسنجی معمولاً در جمعیتهای تصادفی انتخاب شده توزیع میشوند تا نمرات سودمندی در سطح جمعیت به دست آید. برخی از نمونهها شامل پرسشنامه 5 بعدی EuroQol، فرم کوتاه وزن سودمندی 6 بعدی، شاخص سودمندی سلامت و ابزار Core 30 پرسشنامه کیفیت زندگی سازمان تحقیقات و درمان سرطان اروپا (CRC) است.
زمان ارسال: ژوئن-01-2024




