Skip to main content

Ad Code

Büyük Dil Modelleri Tıbbi Kodlamayla Mücadele Ediyor, Çalışma Gösterileri

Yapay Zekalı Robot Düşünce Masası
Mount Sinai’deki Icahn Tıp Okulu’nda yapılan bir araştırma, mevcut büyük dil modellerinin tıbbi kodlama için henüz etkili olmadığını, klinik uygulamadan önce daha fazla geliştirme ve sıkı testler gerektirdiğini gösteriyor.

Araştırma, tıbbi kodlamadaki sınırlamalarını ortaya koyuyor

Araştırmacılar Mount Sinai’deki Icahn Tıp Fakültesi son teknoloji ürünü yapay zeka sistemlerinin, özellikle de büyük dil modellerinin (LLM’ler) tıbbi kodlama konusunda zayıf olduğunu buldular. Yakın zamanda yayınlanan araştırmaları NEJM AI klinik uygulamayı düşünmeden önce bu teknolojilerin iyileştirilmesi ve doğrulanmasının gerekliliğini vurgulamaktadır.

Çalışma, tanımlanabilir hasta verilerini hariç tutarak, Mount Sinai Sağlık Sisteminde 12 aylık rutin bakımdan 27.000’den fazla benzersiz teşhis ve prosedür kodunun yer aldığı bir liste çıkardı.

Araştırmacılar, her kodun açıklamasını kullanarak OpenAI, Google ve Meta’daki modellerden en doğru tıbbi kodları çıkarmalarını istedi. Oluşturulan kodlar orijinal kodlarla karşılaştırıldı ve her türlü kalıp için hatalar analiz edildi.

Model Performansının Analizi

Araştırmacılar, GPT-4, GPT-3.5, Gemini-pro ve Llama-2-70b dahil incelenen tüm büyük dil modellerinin sınırlı dil gösterdiğini bildirdi. kesinlik (yüzde 50’nin altında) orijinal tıbbi kodların çoğaltılmasında, bu da bunların tıbbi kodlamadaki kullanışlılığı açısından önemli bir boşluğa dikkat çekiyor. GPT-4, en yüksek tam eşleşme oranlarıyla en iyi performansı gösterdi ICD-9-CM (yüzde 45,9), ICD-10-CM (yüzde 33,9) ve CPT kodları (yüzde 49,8).

GPT-4 ayrıca, hâlâ doğru anlamı taşıyan, yanlış oluşturulmuş kodların en yüksek oranını üretti. Örneğin, ICD-9-CM’nin “idrar tıkanıklığı olmayan nodüler prostat” tanımı verildiğinde, GPT-4 “nodüler prostat” için bir kod oluşturdu ve tıbbi terminolojinin nispeten incelikli anlayışını ortaya koydu. Ancak teknik olarak doğru olan bu kodlar dikkate alındığında bile kabul edilemeyecek kadar çok sayıda hata kalıyordu.

Bir sonraki en iyi performans gösteren model olan GPT-3.5, belirsiz olma konusunda en büyük eğilime sahipti. Kesin kodlara kıyasla doğası gereği doğru ancak daha genel olan, yanlış oluşturulmuş kodların en yüksek oranına sahipti. Bu durumda, ICD-9-CM’nin “anestezinin belirtilmemiş olumsuz etkisi” tanımı sunulduğunda, GPT-3.5 “başka yerde sınıflandırılmamış diğer tanımlanmış olumsuz etkiler” için bir kod oluşturdu.

Titiz Yapay Zeka Değerlendirmesinin Önemi

Veriye Dayalı ve Dijital Tıp (D3M) Yardımcı Doçenti, MD, MS, çalışmanın yazarı Ali Soroush, “Bulgularımız, yapay zeka teknolojilerini tıbbi kodlama gibi hassas operasyonel alanlarda uygulamaya koymadan önce titiz değerlendirme ve iyileştirmeye yönelik kritik ihtiyacın altını çiziyor” diyor ve şöyle devam ediyor: Tıp (Gastroenteroloji), Icahn Mount Sinai’de. “Yapay zeka büyük bir potansiyele sahip olsa da, sağlık hizmetlerinde güvenilirliğini ve etkinliğini sağlamak için ona dikkatle yaklaşılmalı ve sürekli geliştirilmeli.”

Araştırmacılar, bu modellerin sağlık sektöründeki potansiyel uygulamalarından birinin, klinik metne dayalı olarak geri ödeme ve araştırma amacıyla tıbbi kodların atanmasının otomatikleştirilmesi olduğunu söylüyor.

“Önceki çalışmalar, daha yeni büyük dil modellerinin sayısal görevlerle mücadele ettiğini gösteriyor. Bununla birlikte, klinik metinlerden tıbbi kodları atamadaki doğruluk derecesi, farklı modeller arasında kapsamlı bir şekilde araştırılmamıştı,” diyor D3M’nin Üretken Yapay Zeka Araştırma Programı Direktörü, eş-kıdemli yazar Eyal Klang, MD. “Bu nedenle amacımız, bu modellerin bir tıbbi kodu ona karşılık gelen resmi metin açıklamasıyla eşleştirme temel görevini etkili bir şekilde yerine getirip getiremeyeceğini değerlendirmekti.”

Çalışmanın yazarları, Yüksek Lisans’ların uzman bilgisi ile entegre edilmesinin tıbbi kod çıkarmayı otomatikleştirebileceğini, potansiyel olarak faturalandırma doğruluğunu artırabileceğini ve sağlık hizmetlerinde idari maliyetleri azaltabileceğini öne sürdü.

Sonuç ve Sonraki Adımlar

Eş-kıdemli yazar Girish Nadkarni, MD, MPH, Irene ve Dr. Arthur M şunları söylüyor: “Bu çalışma, yapay zekanın sağlık hizmetlerindeki mevcut yeteneklerine ve zorluklarına ışık tutuyor ve yaygın olarak benimsenmeden önce dikkatli bir şekilde değerlendirilmesi ve ilave iyileştirmeler yapılması gerektiğini vurguluyor.” Icahn Mount Sinai’de Fishberg Tıp Profesörü, Charles Bronfman Kişiselleştirilmiş Tıp Enstitüsü Direktörü ve D3M Sistem Şefi.

Araştırmacılar, çalışmanın yapay görevinin, LLM performansının daha kötü olabileceği gerçek dünya senaryolarını tam olarak temsil etmeyebileceği konusunda uyarıyorlar.

Daha sonra araştırma ekibi, sağlık hizmetleri operasyonlarında kaliteyi ve verimliliği artırmayı amaçlayan, doğru tıbbi veri çıkarma ve faturalandırma kodu ataması için özel LLM araçları geliştirmeyi planlıyor.

Referans: Ali Soroush, Benjamin S. Glicksberg, Eyal Zimlichman, Yiftach Barash, Robert Freeman, Alexander W. Charney, Girish N Nadkarni ve Eyal Klang, “Geniş Dil Modelleri Zayıf Tıbbi Kodlayıcılardır – Tıbbi Kod Sorgulamanın Kıyaslanması”, 19 Nisan 2024 , NEJM AI.

Bu araştırma, AGA Araştırma Vakfı’nın 2023 AGA-Amgen Fakülteye Geçiş Bursu AGA2023-32-06 ve NIH UL1TR004419 ödülü ile desteklenmiştir.

Yorum Gönder

0 Yorumlar