Paralel koordinat grafiği
Paralel koordinat grafikleri, yüksek boyutlu veri kümelerini keşfetmenin mükemmel bir yoludur. Bu son derece etkileşimli grafikler, verilere bakış açınızı tam anlamıyla değiştirebilir. Bu yazıda paralel koordinat grafikleri ALTAIR HyperStudy (deney tasarımı, meta modelleme, optimizasyon, stokastik) yazılımı referans alınarak anlatılacaktır.
Gerçek dünyadaki veri setlerinin çoğu, yazılım öğrenme kaynaklarında kullanılanların karmaşıklığını büyük ölçüde aşar. Bu karmaşıklık birçok biçimde olabilir, ancak en temel biçimlerinden biri tam boyuttur.
Bir düzine bilgi sütunu ile bile verileri derinlemesine incelemek zorlu bir iştir ve bu görev için doğru araçları bulmak çok önemlidir.
Tüm gördüğünüz paralel bir koordinat grafiğinin statik bir görüntüsü olduğunda, bu grafikler etkileyici değildir. Fakat filtreleme kullanarak kullanışlı olabilirler. İlk olarak paralel koordinat grafiğinin temellerine odaklanalım.
İlk bakışta, bu olay örgüsü kafa karıştırıcı ve yorumlanması zor görünüyor. Ancak yoğun sunumu parçalara ayırmak, boyutların nasıl temsil edildiğini açıklamaktan başlayarak değeri anlamak için anahtardır. Çizimin her kanalı dikey bir çizgi olarak temsil edilir.
Örneğin IV1, ekran görüntüsündeki ilk değişken kanaldır. Grafiğin en solunda yer alan bu değişken, dikey eksenin altındaki minimum 30.48 değerinden üstte maksimum 88.56 değerine kadar değişir. İkinci kanal IV2, 60.96 ile 179.04 arasında değişmektedir. Bu tür bir çizim iki boyutta bile işe yarayabilir, ancak birçok boyutta iyi ölçeklenir – teorik olarak sınırsızdır! Verileri araştırmak için kullanıldığında, paralel koordinat grafiğinin iyi bir uygulaması, kullanıcının görüntülenen kanalları etkileşimli olarak değiştirmesine izin vermelidir. Yukarıdaki ekran görüntüsünde, bu sağ taraftaki kanal seçici tarafından kontrol edilmektedir. Aşağıdaki ekran görüntüsü, yalnızca 1., 2. ve 8. kanallar seçilerek temsil edilen aynı verileri göstermektedir.
Bir sonraki adım, renkli çizgileri açıklamaktır. Her satır, veri kayıtlarından birini temsil eder. Bir çizgi, o koordinatın karşılık gelen değerinde her dikey çizgiyle kesişir. Aşağıdaki ekran görüntüsünde, vurgulanan siyah çizgi yüksek bir IV1 değişkenine, daha düşük bir IV1 değişkenine ve yüksek bir KPI1 değişkenine sahiptir.
Bu görüntüler yalnızca 80 veri kaydı içerir, ancak halihazırda çok sayıda çizginin birbirine temas etmesiyle oldukça yoğundur. Çizgi vurgulama gibi etkileşimli özellikler, verilerin koordinat çizgilerinde nasıl kıvrıldığını görebilmek için hayati önem taşıyor. Ancak vurgulamanın bile sınırları vardır. Paralel koordinat uygulamasının son etkileşimli parçası, veri keşfi için en yararlı olanıdır. Filtrelerin yerleştirilmesi, yalnızca gereksinimlerinize uyan kayıtları görüntülemek için veri sunumunu basitleştirecektir. Örneğin, aşağıdaki ekran görüntüsü IV2 kanalına uygulanan bir filtreyi göstermektedir. Maskeleme filtresi fareyle çizildikten sonra, önceki kayıtların yalnızca bir alt kümesinin görünür kaldığına dikkat edin.
Şimdi olay örgüsünün önemli özellikleri ele alındığına göre, 15 kanal problemine geri dönelim. Ayrıca, bu verilerin düşük kanal KPI8 değerlerinin istendiği bir sorunu temsil ettiğini varsayalım.
Bu dağılıma hızlı bir bakışta, bu veri kümesiyle ilgili birkaç önemli çıkarım hemen belirgindir. İlk olarak, KPI1 ve KPI2 arasındaki yatay çizgiler güçlü bir doğrusal bağımlılığı gösterir; kanallar fazladır ve muhtemelen biri diğerinin orantılı bir katıdır. Filtre ayrıca, düşük KPI8 değerine sahip kayıtların yalnızca daha yüksek IV2 değerlerine sahip olduğunu açıkça belirtir. Bu, iki kanal arasında güçlü bir negatif korelasyonun göstergesidir: biri yukarı çıkarken diğeri aşağı iner. Benzer şekilde, KPI8 ve IV1 arasında da pozitif bir korelasyon belirgindir.