Webmaster

Google’ın Yeni Infini-Attention ve SEO’su

Google, Infini-attention adı verilen yeni bir teknoloji hakkında bir araştırma makalesi yayınladı; bu teknoloji, çok büyük miktarlardaki verileri “sonsuz uzunlukta bağlamlarla” işlemesine olanak tanırken aynı zamanda yeteneklerini büyük ölçüde geliştirmek için diğer modellere kolayca eklenebilme yeteneğine de sahip.

Bu son kısım Google’ın algoritmasıyla ilgilenenlerin ilgisini çekecektir. Infini-attention tak ve çalıştır özelliğindedir; bu, Google’ın temel algoritması tarafından kullanılanlar da dahil olmak üzere diğer modellere eklenmesinin nispeten kolay olduğu anlamına gelir. “Sonsuz uzunluktaki bağlamlar” ile ilgili kısım, Google’ın bazı arama sistemlerinin nasıl güncellenebileceğine dair çıkarımlar yapabilir.

Araştırma makalesinin adı: Hiçbir Bağlamı Geride Bırakmayın: Sonsuz Dikkate Sahip Verimli Sonsuz Bağlam Transformatörleri

Bellek Yüksek Lisans Dereceleri İçin Hesaplama Açısından Pahalıdır

Büyük Dil Modellerinin (LLM) aynı anda ne kadar veri işleyebilecekleri konusunda sınırlamaları vardır çünkü hesaplama karmaşıklığı ve bellek kullanımı önemli ölçüde artabilir. Infini-Attention, LLM’ye ihtiyaç duyulan hafıza ve işlem gücünü korurken daha uzun bağlamları yönetme yeteneği verir.

Araştırma makalesi şunları açıklıyor:

“Bellek, belirli bağlamlara göre uyarlanmış verimli hesaplamalara olanak tanıdığı için zekanın temel taşı olarak hizmet ediyor. Bununla birlikte, Transformers ve Transformer tabanlı LLM’ler, dikkat mekanizmasının doğası gereği kısıtlı, bağlama bağlı bir belleğe sahiptir.

Aslında, LLM’leri daha uzun dizilere (yani 1 milyon token) ölçeklendirmek, standart Transformer mimarileri açısından zorlayıcıdır ve giderek daha uzun bağlam modellerine hizmet etmek finansal açıdan maliyetli hale gelir.”

Ve başka bir yerde araştırma makalesi şunu açıklıyor:

“Akım transformatörü modellerinin, hesaplama ve bellek maliyetlerindeki ikinci dereceden artışlar nedeniyle uzun dizileri işleme yetenekleri sınırlıdır. Infini-attention bu ölçeklenebilirlik sorununu çözmeyi amaçlıyor.”

Araştırmacılar, Sonsuz dikkatin, hesaplama ve hafıza kaynaklarında olağan artışlar olmadan Transformers ile son derece uzun dizileri idare edecek şekilde ölçeklenebileceğini varsaydılar.

Üç Önemli Özellik

Google’ın Infini-attention’ı, transformatör tabanlı LLM’lerin bellek sorunları olmadan daha uzun dizileri işlemesine ve dizideki daha önceki verilerdeki bağlamı kullanmalarına ve bunu daha uzaktaki bağlamla eşleştirmelerine olanak tanıyan üç özelliği birleştirerek transformatör modellerinin eksikliklerini çözer. dizinin sonu.

Infini-Attention’ın özellikleri

  • Sıkıştırılmış Bellek Sistemi
  • Uzun Vadeli Doğrusal Dikkat
  • Yerel Maskeli Dikkat

Sıkıştırılmış Bellek Sistemi

Sonsuz dikkat, sıkıştırılmış hafıza sistemi adı verilen sistemi kullanır. Daha fazla veri girdikçe (uzun bir veri dizisinin parçası olarak), sıkıştırılmış bellek sistemi, verileri depolamak için gereken alan miktarını azaltmak amacıyla eski bilgilerin bir kısmını sıkıştırır.

Uzun Vadeli Doğrusal Dikkat

Sonsuz dikkat ayrıca LLM’nin dizide daha önce var olan verileri işlemesini sağlayan “uzun vadeli doğrusal dikkat mekanizmaları” olarak adlandırılan şeyi kullanır.

Bu, bağlamın daha büyük bir veri düzleminde mevcut olduğu görevler için önemlidir. Bu, bir kitabın tamamını tüm bölümlerin bağlamı içinde tartışabilmek ve ilk bölümün kitabın ortasındaki başka bir bölümle nasıl bağlantılı olduğunu açıklayabilmek gibidir.

Yerel Maskeli Dikkat

Uzun vadeli dikkatin yanı sıra, Sonsuz dikkat aynı zamanda yerel maskeli dikkat olarak adlandırılan şeyi de kullanır. Bu tür bir dikkat, girdi verilerinin yakın (yerelleştirilmiş) kısımlarını işler; bu, verinin daha yakın kısımlarına bağlı olan yanıtlar için faydalıdır.

Uzun vadeli ve yerel ilgiyi bir araya getirmek, transformatörlerin hatırlayabileceği ve bağlam için kullanabileceği girdi verilerinin miktarıyla sınırlı olması sorununun çözülmesine yardımcı olur.

Araştırmacılar şöyle açıklıyor:

“Sonsuz dikkat, vanilya dikkat mekanizmasına sıkıştırıcı bir hafıza katıyor ve tek bir Transformer bloğunda hem maskelenmiş yerel dikkati hem de uzun vadeli doğrusal dikkat mekanizmalarını inşa ediyor.”

Deney ve Test Sonuçları

Infini-attention, uzun bağlamlı dil modelleme, geçiş anahtarı alımı ve kitap özetleme görevleri gibi uzun giriş dizilerini içeren birden fazla kıyaslamada karşılaştırma yapmak amacıyla normal modellerle test edildi. Geçiş anahtarı alımı, dil modelinin son derece uzun bir metin dizisinden belirli verileri alması gereken bir testtir.

Üç testin listesi:

  1. Uzun Bağlamlı Dil Modelleme
  2. Geçiş Anahtarı Testi
  3. Kitap özeti

Uzun Bağlamlı Dil Modellemesi ve Karışıklık Puanı

Araştırmacılar, Infini dikkatine sahip modellerin temel modellerden daha iyi performans gösterdiğini ve eğitim dizisi uzunluğunun arttırılmasının, performansta daha da fazla gelişme sağladığını yazıyor. Şaşkınlık puanı, dil modeli performansını ölçen bir ölçümdür; düşük puanlar daha iyi performansı gösterir.

Araştırmacılar bulgularını paylaştı:

“Infini-Transformer, 9. katmanında 65K uzunluğa sahip vektör alma tabanlı KV belleğe sahip Memorizing Transformer modelinden 114 kat daha az bellek parametresini korurken hem Transformer-XL hem de Memorizing Transformers taban çizgilerinden daha iyi performans gösteriyor. Infini-Transformer, 65K bellek uzunluğuyla transformatörleri ezberleme konusunda daha iyi performans gösterir ve 114x sıkıştırma oranına ulaşır.

Eğitim dizisi uzunluğunu 32K’dan 100K’ya çıkardık ve modelleri Arxiv-math veri seti üzerinde eğittik. 100K eğitimi ayrıca Doğrusal ve Doğrusal + Delta modelleri için şaşkınlık puanını 2,21 ve 2,20’ye düşürdü.”

Geçiş Anahtarı Testi

Geçiş anahtarı testi, uzun bir metin dizisi içinde rastgele bir sayının gizlendiği, görevin modelin gizli metni getirmesi gerektiği testtir. Geçiş anahtarı uzun metnin başına, ortasına veya sonuna yakın bir yerde gizlenir. Model, 1 milyon uzunluğa kadar geçiş anahtarı testini çözmeyi başardı.

“Bir 1B LLM, doğal olarak 1M dizi uzunluğuna ölçeklenir ve Infini-attention enjekte edildiğinde geçiş anahtarı alma görevini çözer. Infini-Transformers, 5K uzunluklu girişlerde ince ayar yapıldığında 1M bağlam uzunluğuna kadar geçiş anahtarı görevini çözdü. Uzunluğu 32K ile 1M arasında olan uzun girişlerin farklı bir bölümünde (başlangıç/orta/bitiş) gizlenen geçiş anahtarları için belirteç düzeyinde alma doğruluğunu rapor ediyoruz.”

Kitap Özeti Testi

Infini-attention aynı zamanda kitap özeti testinde de en iyi kriterleri geride bırakarak yeni teknoloji (SOTA) performans seviyeleri elde ederek başarılı oldu.

Sonuçlar açıklanıyor:

“Son olarak, Infini dikkatine sahip bir 8B modelinin, sürekli ön eğitim ve görev ince ayarının ardından 500K uzunluktaki kitap özetleme görevinde yeni bir SOTA sonucuna ulaştığını gösteriyoruz.

…30K adım için 8K giriş uzunluğuna sahip bir 8B LLM modelini sürekli olarak ön eğiterek yaklaşımımızı daha da ölçeklendirdik. Daha sonra, amacın tüm kitap metninin bir özetini oluşturmak olduğu BookSum (Kry´sci´nski ve diğerleri, 2021) adlı bir kitap özetleme görevi üzerinde ince ayar yaptık.

Modelimiz önceki en iyi sonuçları geride bırakıyor ve kitaptaki metnin tamamını işleyerek BookSum’da yeni bir SOTA elde ediyor. …Kitaplardan girdi olarak sağlanan daha fazla metin sayesinde Infini-Transformers ürünümüzün özetleme performans metriğini iyileştirdiğini gösteren açık bir eğilim var.”

Infini-Attention’ın SEO İçin Etkileri

Sonsuz dikkat, uzun ve kısa mesafeli dikkatin, Infini dikkati olmayan önceki modellere göre daha verimli bir şekilde modellenmesinde çığır açan bir gelişmedir. Bu da mevcut modellere kolaylıkla entegre edilebileceği anlamına geliyor.

Son olarak, “Sürekli ön eğitim ve uzun bağlam adaptasyonu”, bir modeli eğitmek için sürekli olarak eklenmesi gereken yeni bir veri akışının olduğu senaryolar için idealdir. Bu son bölüm son derece ilginçtir çünkü Google’ın arama sistemlerinin arka ucundaki uygulamalar için, özellikle de uzun bilgi dizilerini analiz edebilmenin ve dizinin başlangıcına yakın bir bölümün alaka düzeyini anlamanın gerekli olduğu durumlarda yararlı olabilir. sona daha yakın olan başka bir bölüme.

Araştırmacıların “sonsuz uzunlukta girdiler” iddiası şaşırtıcıdır ancak SEO için asıl önemli olan, bu mekanizmanın “Hiçbir Bağlamı Geride Bırakmamak” amacıyla uzun veri dizilerini işleyebilme yeteneğinin yanı sıra tak ve çalıştır özelliğidir. BT. Google’ın Infini-attent’i temel algoritması içindeki sistemlere uyarlaması durumunda Google’ın bazı sistemlerinin nasıl geliştirilebileceğine dair bir fikir veriyor.

İlgili Makaleler

Başa dön tuşu