Günümüzde sosyal medya, bireysel kullanıcıların, markaların ve kurumların dijital varlıklarını sürdürdüğü temel platformlardan biri hâline gelmiştir. Özellikle Instagram gibi görsel ağırlıklı sosyal ağlar, pazarlama faaliyetlerinden topluluk oluşturma süreçlerine kadar birçok alanda aktif rol oynamaktadır. Ancak bu büyüme, çeşitli güvenlik tehditlerini de beraberinde getirmektedir. Bunların başında, kullanıcıları ve analizleri yanıltabilecek sahte sosyal medya hesapları gelmektedir.
Sahte hesaplar, genellikle spam yaymak, etkileşim sayılarını manipüle etmek, kimlik avı (phishing) gerçekleştirmek veya sahte takipçi ağları kurmak amacıyla oluşturulmaktadır. Bu tür hesapların varlığı, özellikle reklamverenler ve veri analistleri için ciddi sorunlar yaratmaktadır. Çünkü analiz edilen metriklerin doğruluğu bu tür sahte sinyallerle bozulmaktadır. İşte bu noktada, sahte hesapların tespit edilmesi sadece bir güvenlik önlemi değil, aynı zamanda daha doğru stratejik kararların alınması için de kritik bir ihtiyaç hâline gelmiştir.
Bu yazımızda, Instagram verileri üzerinden sahte hesapların nasıl tespit edilebileceğini, makine öğrenmesi algoritmalarının bu süreçte nasıl devreye girdiğini ve özellikle dengesiz veri yapısının performansa olan etkisini ele alacağız. AdresGezgini A.Ş. tarafından yürütülen kapsamlı bir çalışmadan elde edilen verilerle hazırlanmış bu yazı, veri bilimi meraklıları ve dijital güvenlik profesyonelleri için oldukça değerli bilgiler içermektedir.
Sahte Hesapların Yapısı Nasıldır?
Sahte hesaplar genellikle bazı ortak özellikleri paylaşır: Kullanıcı adı içinde rastgele sayılar barındırırlar, biyografi alanları genelde boş veya kısa olur, takipçi sayıları çok düşüktür ve çok fazla kişiyi takip ederler. Aynı zamanda bu hesapların çoğu, profil fotoğrafı veya gönderi paylaşımı gibi temel unsurlardan yoksundur. Tüm bu göstergeler, otomatik tespit süreçleri için önemli sinyaller taşır.
Bu bilgiler ışığında yapılan çalışmada, sahte hesapların ayırt edilebilmesi için toplam sekiz temel öznitelik türetilmiştir. Bunlar arasında kullanıcı adındaki rakam oranı, biyografi uzunluğu, profilin gizli olup olmaması, gönderi sayısı ve takipçi sayısı gibi parametreler yer almaktadır.
Veri Toplama Süreci: Apify ile Instagram Verisi
Çalışmanın temelinde, Instagram platformundaki 1654 hesabın herkese açık verileri yer almaktadır. Bu verilerin 1255 tanesi gerçek, 399 tanesi ise sahte hesap olarak etiketlenmiştir. Veriler, Apify platformu üzerinden elde edilmiştir. Apify, web kazıma ve veri işleme için kullanılan güçlü bir araçtır ve Instagram kullanıcı adları, biyografiler, takipçi bilgileri gibi temel verilere erişim imkânı sunmaktadır.
Veri toplandıktan sonra, eksik veriler ve yinelenen kayıtlar temizlenmiş, ardından her bir özellik sayısallaştırılarak makine öğrenmesi algoritmaları için hazır hale getirilmiştir.
Dengesiz Veri: En Büyük Zorluk
Gerçek dünya verilerinde sıkça karşılaşılan bir problem, sınıflar arasındaki dengesizliktir. Sahte hesaplar azınlıkta kaldığı için, eğitim sırasında model, çoğunluk sınıfı olan gerçek hesaplara odaklanma eğilimindedir. Bu da, sahte hesapların doğru tespit edilmesini zorlaştırmaktadır.
Bu sorunun çözümü için üç farklı veri dengeleme yöntemi denenmiştir:
-
SMOTE (Synthetic Minority Over-sampling Technique)
-
ADASYN (Adaptive Synthetic Sampling)
-
ENN (Edited Nearest Neighbours)
SMOTE ve ADASYN gibi aşırı örnekleme yöntemleri, sahte hesaplara ait yeni (sentetik) örnekler oluşturarak veri setini dengelerken, ENN gibi eksik örnekleme yöntemleri, veri setinden gürültülü veya anlamsız verileri çıkartarak daha sade bir yapı oluşturmaktadır.
Hangi Yöntem Daha Başarılı Oldu?
Yapılan testler sonucunda, veri dengelemesi yapılmadan kullanılan Random Forest modeli %77 doğruluk oranına ulaşsa da sahte hesapları doğru tespit etme oranı oldukça düşük kalmıştır (%37 duyarlılık). SMOTE ve ADASYN gibi teknikler doğruluk oranını %83’e kadar çıkarsa da, en iyi sonuç ENN yöntemi ile elde edilmiştir.
ENN yöntemiyle temizlenen ve dengelenen veri seti üzerinde farklı algoritmalar test edilmiştir. Bu testlerde en yüksek başarıyı XGBoost algoritması göstermiştir ve modelin doğruluğu %96’ya ulaşmıştır. XGBoost’un başarısı, hiperparametre optimizasyonu ile desteklenmiştir. Uygun öğrenme oranı, ağaç derinliği ve ağaç sayısı gibi parametreler dikkatle ayarlanmıştır.
Model, 125 gerçek hesabı ve 107 sahte hesabı doğru şekilde sınıflandırırken, yalnızca 6 gerçek hesabı yanlışlıkla sahte, 4 sahte hesabı da yanlışlıkla gerçek olarak etiketlemiştir. Bu sonuçlar, sahte hesap tespitinde XGBoost+ENN kombinasyonunun son derece başarılı olduğunu ortaya koymuştur.
Modelin Geleceği: Online Öğrenme ve Derin Öğrenme
Modelin başarısına rağmen, mevcut çalışma statik bir veri seti üzerinde gerçekleştirilmiş durumdadır. Ancak sahte hesapların algoritmaları zamanla evrilmektedir. Bu nedenle, modelin sürdürülebilir şekilde güncel kalabilmesi için çevrimiçi öğrenme (online learning) ve pekiştirmeli öğrenme (reinforcement learning) gibi tekniklerin devreye alınması önerilmektedir.
Ayrıca, daha büyük ve çeşitli veri setleri elde edilebilirse, derin öğrenme teknikleri veya transfer öğrenimi gibi ileri düzey yöntemlerle modelin başarısının daha da artırabileceği düşünülmektedir.
Dijital Güvenlikte Yeni Bir Adım
Sosyal medyada sahte hesapları tespit etmek artık yalnızca kullanıcı şikayetlerine ya da basit kurallara bırakılmayacak kadar önemli bir konu haline geldi. Çalışmamız sayesinde makine öğrenmesi algoritmaları ve veri dengeleme teknikleri ile, sahte hesaplar yüksek doğrulukla tespit edilebilmektedir.
Bu çalışmada geliştirilen XGBoost+ENN tabanlı model, %96 doğruluk oranı ile sahte hesapların otomatik tespitinde umut verici bir çözüm sunmaktadır. Gelecekte, daha fazla veri, daha güçlü modeller ve gerçek zamanlı öğrenme yetenekleri ile bu başarının daha da ileri taşınabileceği düşünülmektedir.
Kaynak
Bu yazıda özetlenen çalışma, ICADA 2025 – 5. Uluslararası Yapay Zekâ ve Veri Bilimi Kongresi kapsamında bildiri olarak sunulmuştur. Detaylı teknik içeriğe erişmek için bildirinin tam metnine aşağıdaki bağlantıdan ulaşabilirsiniz:
https://drive.google.com/file/d/1Ic69np3acdOSk1Mdh2c1dX_mKXFEgaBv/view