Google Salı günü yapay zeka modellerini eğitmek için kullandığı süper bilgisayarlar hakkında yeni ayrıntılar yayınladı ve sistemlerin Nvidia'nın benzer sistemlerinden hem daha hızlı hem de güç açısından daha verimli olduğunu söyledi.
Google, Tensör İşleme Birimi ya da TPU olarak adlandırılan kendi özel çipini tasarladı. Şirket bu çipleri, sorgulara insan benzeri metinlerle yanıt vermek ya da görüntü oluşturmak gibi görevlerde yararlı olmaları için verileri modellerle besleme süreci olan yapay zeka eğitimi çalışmalarının %90'ından fazlası için kullanıyor.
Google TPU şu anda dördüncü neslinde. Google Salı günü, tek tek makineleri birbirine bağlamaya yardımcı olmak için kendi özel geliştirdiği optik anahtarları kullanarak 4.000'den fazla çipi bir süper bilgisayarda nasıl bir araya getirdiğini detaylandıran bilimsel bir makale yayınladı.
Google'ın Bard'ı veya OpenAI'nin ChatGPT'si gibi teknolojilere güç veren sözde büyük dil modellerinin boyutları patladığı için, bu bağlantıların iyileştirilmesi, yapay zeka süper bilgisayarları üreten şirketler arasında önemli bir rekabet noktası haline geldi, yani tek bir çipte depolanamayacak kadar büyükler.
Bunun yerine modellerin binlerce çipe bölünmesi ve bu çiplerin modeli eğitmek için haftalarca ya da daha uzun süre birlikte çalışması gerekiyor. Google'ın PaLM modeli - bugüne kadar kamuya açıklanan en büyük dil modeli - 50 gün boyunca 4.000 çipli süper bilgisayarlardan ikisine bölünerek eğitildi.
Google, süper bilgisayarlarının çipler arasındaki bağlantıları anında yeniden yapılandırmayı kolaylaştırdığını, böylece sorunları önlemeye ve performans artışı için ince ayar yapmaya yardımcı olduğunu söyledi.
Google Üyesi Norm Jouppi ve Google Seçkin Mühendisi David Patterson sistemle ilgili bir blog yazısında "Devre değiştirme, arızalı bileşenlerin etrafından dolaşmayı kolaylaştırıyor" diye yazdı. "Bu esneklik, bir ML (makine öğrenimi) modelinin performansını hızlandırmak için süper bilgisayar ara bağlantısının topolojisini değiştirmemize bile olanak tanıyor."
Google süper bilgisayarıyla ilgili ayrıntıları ancak şimdi açıklıyor olsa da, sistem 2020'den beri şirket içinde, Oklahoma, Mayes County'deki bir veri merkezinde çevrimiçiydi. Google, Midjourney adlı startup'ın bu sistemi, birkaç kelimelik metinle beslendikten sonra yeni görüntüler üreten modelini eğitmek için kullandığını söyledi.
Makalede Google, karşılaştırılabilir büyüklükteki sistemler için çiplerinin, dördüncü nesil TPU ile aynı zamanda piyasada olan Nvidia'nın A100 çipini temel alan bir sistemden 1,7 kata kadar daha hızlı ve 1,9 kat daha fazla güç tasarruflu olduğunu söyledi.
Bir Nvidia sözcüsü yorum yapmayı reddetti.
Google, dördüncü neslini Nvidia'nın mevcut amiral gemisi H100 çipiyle karşılaştırmadığını çünkü H100'ün Google'ın çipinden sonra piyasaya çıktığını ve daha yeni teknolojiyle üretildiğini söyledi.
Google, Nvidia H100 ile rekabet edebilecek yeni bir TPU üzerinde çalışıyor olabileceğini ima etti ancak ayrıntı vermedi; Jouppi Reuters'e Google'ın "gelecekteki çipler için sağlıklı bir boru hattına" sahip olduğunu söyledi.