Microsoft, sohbet robotlarının ve yanıt motorlarının tüm bir veri kümesindeki noktaları birbirine bağlamasını sağlayan ve standart Geri Alma-Artırılmış Üretim (RAG) teknolojisini büyük farklarla geride bırakan GraphRAG adlı yeni bir teknolojiyi kamuoyuna sunuyor.
RAG ve GraphRAG Arasındaki Fark Nedir?
RAG (Retrieval-Augmented Generation), bir LLM’nin bir arama dizini gibi bir veritabanına erişmesini ve bunu bir soruyu yanıtlamak için bir temel olarak kullanmasını sağlayan bir teknolojidir. Büyük bir dil modeli ile geleneksel bir arama motoru dizini arasında köprü kurmak için kullanılabilir.
RAG’ın avantajı, soruları yanıtlamak için yetkili ve güvenilir verileri kullanabilmesidir. RAG ayrıca, üretken AI sohbet robotlarının LLM’nin eğitim almadığı konularla ilgili soruları yanıtlamak için güncel bilgileri kullanmasını sağlar. Bu, Perplexity gibi AI arama motorları tarafından kullanılan bir yaklaşımdır.
RAG’ın artısı, yerleştirmelerin kullanımıyla ilgilidir. Yerleştirmeler, kelimeler, cümleler ve belgeler arasındaki anlamsal ilişkileri temsil etmenin bir yoludur. Bu temsil, RAG’ın alma kısmının bir arama sorgusunu bir veritabanındaki metinle (bir arama dizini gibi) eşleştirmesini sağlar.
Ancak yerleştirmelerin kullanılmasının dezavantajı, RAG’ın metni ayrıntılı düzeyde eşleştirmekle (veri genelinde küresel bir erişimin aksine) sınırlı olmasıdır.
Microsoft’un açıklaması şöyle:
“Saf RAG yalnızca en çok benzeyen ilk k girdi metnini dikkate aldığından, başarısız olur. Daha da kötüsü, soruyu yüzeysel olarak o soruya benzeyen metin parçalarıyla eşleştirir ve bu da yanıltıcı yanıtlarla sonuçlanır.”
GraphRAG’ın yeniliği, bir LLM öğrencisinin soruları genel veri setine dayanarak cevaplayabilmesini sağlamasıdır.
GraphRAG’in yaptığı şey, dizinlenmiş belgelerden, yani yapılandırılmamış verilerden bir bilgi grafiği oluşturmaktır. Yapılandırılmamış verilerin en belirgin örneği web sayfalarıdır. Bu nedenle GraphRAG bir bilgi grafiği oluşturduğunda, makineler tarafından daha kolay anlaşılabilen çeşitli “varlıklar” (insanlar, yerler, kavramlar ve şeyler gibi) arasındaki ilişkilerin “yapılandırılmış” bir temsilini oluşturur.
GraphRAG, Microsoft’un genel temalar (yüksek seviye) ve daha ayrıntılı konular (düşük seviye) olarak adlandırdığı “topluluklar” yaratır. Daha sonra bir LLM, bu toplulukların her birinin bir özetini, daha sonra soruları yanıtlamak için kullanılan “verilerin hiyerarşik bir özetini” yaratır. Bu, bir sohbet robotunun, yerleştirmelere bağlı kalmaktan çok bilgiye (özetler) dayalı olarak soruları yanıtlamasını sağladığı için çığır açıcıdır.
Microsoft bunu şöyle açıklıyor:
“Bu toplulukların her birini özetlemek için bir LLM kullanmak, verilerin hiyerarşik bir özetini oluşturur ve önceden hangi soruları soracağınızı bilmenize gerek kalmadan bir veri setinin genel görünümünü sağlar. Her topluluk, varlıklarını ve ilişkilerini tanımlayan bir topluluk özetinin temeli olarak hizmet eder.
…Topluluk özetleri, varlık ve ilişki açıklamalarının grafik dizini, yapısındaki tüm girdi metinlerini zaten dikkate aldığı için bu tür küresel soruları yanıtlamaya yardımcı olur. Bu nedenle, küresel veri bağlamından tüm ilgili içeriği koruyan bir harita-indirgeme yaklaşımı kullanarak soru yanıtlama yapabiliriz…”
RAG ve GraphRAG’ın Örnekleri
Orijinal GraphRAG araştırma makalesi, indekslenen belgelerde tam eşleşme verisi olmayan soruları yanıtlayabilmede GraphRAG yaklaşımının üstünlüğünü göstermiştir. Örnek, Haziran 2023 ayından (İngilizceye çevrilmiş) sınırlı bir Rus ve Ukrayna haber veri kümesini kullanır.
Basit Metin Eşleştirme Sorusu
Örnek olarak kullanılan ilk soru “Novorossiya nedir?” ve hem RAG hem de GraphRAG soruyu yanıtladı, GraphRAG daha ayrıntılı bir yanıt verdi.
Bu arada kısa cevabı şu şekildedir: “Novorossiya” Yeni Rusya anlamına gelir ve 18. yüzyılda Rusya tarafından fethedilen Ukrayna topraklarına bir göndermedir.
İkinci örnek soru, makinenin dizinlenmiş belgelerdeki kavramlar arasında bağlantılar kurmasını gerektiriyordu, Microsoft’un basit bir metin tabanlı alma görevinden farklı olan “sorgu odaklı özetleme (QFS) görevi” dediği şey. Microsoft’un “noktaları birleştirme” dediği şeyi gerektiriyor.
RAG ve GraphRAG sistemlerine sorulan soru:
“Novorossiya ne yaptı?”
İşte RAG cevabı:
“Metinde Novorossiya’nın ne yaptığına dair özel bir bilgi yer almıyor.”
GraphRAG, “Novorossiya ne yaptı?” sorusuna, Novorossiya siyasi hareketinin sonuçlarını ayrıntılarıyla anlatan iki paragraflık bir cevapla yanıt verdi.
İşte iki paragraflık cevabın kısa bir özeti:
“Ukrayna’daki siyasi bir hareket olan Novorossiya, özellikle Ukrayna’daki çeşitli varlıkları hedef alan bir dizi yıkıcı faaliyete karışmıştır. [Entities (6494, 912)]Hareketin, Rosen, Odessa Konserve Fabrikası, Odessa Bölgesel Radyo Televizyon İletim Merkezi ve Ukrayna Ulusal Televizyon Şirketi de dahil olmak üzere çeşitli Ukraynalı kuruluşların mülklerini yok etme planlarıyla bağlantısı olduğu ortaya çıktı [Relationships (15207, 15208, 15209, 15210)]…
…Ukrayna Başsavcılığı, Novorossiya’nın kuruluşuyla ilgili raporunu yayınlayarak, hükümetin bu hareketin faaliyetleri konusunda farkındalığının olduğunu ve potansiyel endişe duyduğunu belirtti…”
Yukarıda, GraphRAG’in tüm belgelerdeki noktaları nasıl birleştirebildiğini gösteren, sınırlı bir aylık veri setinden çıkarılan yanıtların sadece bir kısmı yer almaktadır.
GraphRAG Artık Herkese Açık
Microsoft, GraphRAG’ın herkesin kullanımına sunulduğunu duyurdu.
“Bugün, GraphRAG’ın artık şu anda mevcut olduğunu duyurmaktan mutluluk duyuyoruz: GitHub saf RAG yaklaşımlarından daha yapılandırılmış bilgi alma ve kapsamlı yanıt oluşturma sunar. GraphRAG kod deposu, bir çözüm hızlandırıcı“Azure’da barındırılan ve birkaç tıklamayla kodsuz olarak dağıtılabilen, kullanımı kolay bir API deneyimi sunuyoruz.”
Microsoft, GraphRAG’ı, temel aldığı çözümleri daha geniş kitlelere duyurmak ve iyileştirmeler için geri bildirimleri teşvik etmek amacıyla yayınladı.
Duyuruyu okuyun:
GraphRAG: Karmaşık veri keşfi için yeni araç artık GitHub’da
0 Yorumlar