Veri madenciliği (Data Mining), veri analizi yoluyla iş sorunlarının çözümüne yardımcı olabilecek kalıpları ve ilişkileri belirlemek için büyük veri kümelerini sıralama sürecidir. Veri madenciliği teknikleri ve araçları, işletmelerin gelecekteki eğilimleri tahmin etmesini ve daha iyi iş kararları almasını sağlar.
Veri setlerinde faydalı bilgiler bulmak için gelişmiş analitik tekniklerini kullanan veri madenciliği, veri analitiğinin kritik bir bileşeni ve veri bilimindeki temel disiplinlerden biridir. Veri madenciliği; verilerin toplanması, işlenmesi ve analiz edilmesine yönelik bir veri bilimi metodolojisi olan veri tabanlarında bilgi keşfi (KDD) sürecinin bir adımıdır. Veri madenciliği ve KDD bazen birbirinin yerine kullanılabilir, ancak aslında farklı kavramlardır.
Veri Madenciliğinin Tarihçesi
Veri madenciliği kavramının ortaya çıkışı bilgisayarın icadından bile eskidir. Veri madenciliğinin istatistiksel başlangıcı 1763’te Bayes Teoremi ve 1805’te regresyon analizinin keşfi ile oldu. Turing Evrensel Makinesi (1936), sinir ağlarının keşfi (1943), veri tabanlarının geliştirilmesi (1970’ler), genetik algoritmalar (1975) ve veri tabanlarında bilgi keşfi (1989) sayesinde, bugün veri madenciliğinin ne olduğuna dair modern anlayışımız için bir zemin hazırlandı. 1990’lar ve 2000’lerde bilgisayar işlemcilerinin, veri depolamanın ve teknolojinin büyümesiyle birlikte veri madenciliği sadece daha güçlü değil, aynı zamanda her türlü durumda daha üretken hale geldi.

Veri madenciliği önemi ve bilgiyi elde etmedeki konumu (Kaynak: yarimada.gen)
Veri Madenciliği Süreci
Veri madenciliği süreci 4 ana aşamaya ayrılabilir:
1. Veri toplama: Bir analitik uygulaması için veriler belirlenir ve derlenir. Veriler çeşitli kaynak sistemlerde, bir veri ambarında veya yapılandırılmış ve yapılandırılmamış verilerin bir karışımını içeren büyük veri ortamlarında giderek daha popüler bir havuz haline gelen bir veri gölünde depolanabilir. Harici veri kaynakları da kullanılabilir. Verinin nereden geldiğine bakılmaksızın, bir veri bilimci, süreçteki diğer adımlar için veriyi sıklıkla bir veri gölüne taşıyacaktır.
2. Veri hazırlama: Bu aşama, verileri madencilik için hazırlayan bir dizi adımdan oluşur. Veri keşfi, profil oluşturma ve ön işleme ile başlar ve ardından hataları ve diğer veri kalitesi sorunlarını düzeltmek için veri temizlemeye geçer. Bir veri bilimci, belirli bir uygulama için filtrelenmemiş ham verileri analiz etmek istemiyorsa, veri setlerini tutarlı hale getirmek için veri dönüşümü de yapılır.
3. Veri madenciliği: Veri bilimci, verileri hazırladıktan sonra uygun veri madenciliği tekniğini seçer ve ardından madenciliği gerçekleştirmek için bir veya daha fazla algoritma uygular. Makine öğrenimi uygulamalarında tüm veri setine karşı çalıştırılmadan önce algoritmalar genellikle aranan bilgileri aramak için örnek veri setleri üzerinde eğitilir.
4. Veri analizi ve yorumlama: Veri madenciliği sonuçları, karar verme ve diğer iş eylemlerine yardımcı olabilecek analitik modeller geliştirmek için kullanılır. Veri bilimci veya başka bir veri bilimi ekibi üyesi, bulguları işletme yöneticilerine ve kullanıcılara iletmelidir; bu da genellikle veri görselleştirme ve veri hikayesi anlatma teknikleriyle gerçekleştirilir.
Veri Madenciliği Teknikleri
Çeşitli veri madenciliği teknikleri vardır ve kullandığınız teknik, genel hedefinize bağlı olacaktır. Farklı veri modelleri vardır ve bu modellerin her biri farklı veri madenciliği tekniklerine dayanır. Ana veri modellerine tanımlayıcı, tahmine dayalı ve kuralcı modeller denir.
Tanımlayıcı Modelleme
Bu, başarının veya başarısızlığın ardındaki nedenleri anlamak için geçmiş verilerdeki benzerlikleri veya grupları ortaya çıkarır (örneğin müşterileri ürün tercihlerine veya duygularına göre kategorize etmek). Örnek tekniklere şunlar dâhildir:
1. Birliktelik kuralları: Bu, aynı zamanda pazar sepeti analizi olarak da bilinir. Bu tür veri madenciliği, değişkenler arasındaki ilişkileri araştırır. Örneğin birliktelik kuralları, hangi ürünlerin en çok birlikte satın alındığını görmek için bir şirketin satış geçmişini inceleyebilir. Şirket bu bilgileri planlama, kampanya ve tahmin için kullanabilir.
2. Kümeleme analizi: Kümeleme, ortak özellikler paylaşan veri noktalarını alt kümelere ayırarak bir veri kümesi içindeki benzerlikleri belirlemeyi amaçlar. Kümeleme; müşterilerin satın alma davranışına, ihtiyaç durumuna, hayatının evresine veya pazarlama iletişimindeki tercihlerine göre bölümlendirilmesi gibi bir veri kümesi içindeki özellikleri tanımlamak için faydalıdır.
3. Aykırı değer analizi: Bu model, anormallikleri, yani örüntülere tam olarak uymayan verileri belirlemek için kullanılır. Aykırı değer analizi özellikle dolandırıcılık tespiti, ağ giriş algılaması ve suç soruşturmalarında kullanışlıdır.
Tahmine Dayalı Modelleme
Bu modelleme, gelecekteki olayları sınıflandırmak veya bilinmeyen sonuçları tahmin etmek için daha derine iner (örneğin, bir kişinin bir krediyi geri ödeme olasılığını belirlemek için kredi derecelendirmesini kullanmak). Örnek tekniklere şunlar dâhildir:
1. Karar Ağaçları: Bir dizi kriter listesine dayalı olarak bir sonucu sınıflandırmak veya tahmin etmek için kullanılır. Veri kümesini verilen yanıtlara göre sıralayan bir dizi basamaklı sorunun girdisini istemek için bir karar ağacı kullanılır. Bazen ağaç şeklinde bir görselle gösterilen karar ağacı, verilerde daha derine inerken belirli bir yöne ve kullanıcı girdisine izin verir.
2. Sinir ağları: Bunlar, düğümlerin kullanımı yoluyla verileri işler. Bu düğümler; girdilerden, ağırlıklardan ve bir çıktıdan oluşur. Veriler, insan beyninin işleyişine benzer şekilde, denetimli öğrenme yoluyla eşleştirilir. Bu, bir modelin doğruluğunu belirlemek için eşik değerler vermeye uygun olabilir.
3. Regresyon analizi: Regresyon analizi, bir veri kümesindeki en önemli faktörleri, hangi faktörlerin göz ardı edilebileceğini ve bu faktörlerin birbirlerini nasıl etkilediğini anlamayı amaçlar.
4. Sınıflandırma: Ele alınması gereken belirli bir soru veya zorluğa dayalı olarak veri noktalarının gruplara veya sınıflara atanmasını içerir. Örneğin, bir perakendeci belirli bir ürün için indirim stratejisini optimize etmek isterse kararlarını yönlendirmek için satış verilerine, envanter düzeylerine, kupon kullanım oranlarına ve tüketici davranış verilerine bakabilir.
Kuralcı Modelleme
İnternet, e-posta, yorum alanları, kitaplar, PDF’ler ve diğer metin kaynaklarından gelen yapılandırılmamış verilerdeki artışla birlikte, metin madenciliğinin veri madenciliğine bağlı bir disiplin olarak benimsenmesi de önemli ölçüde arttı. Veri analistleri, gelişmiş tahmin doğruluğu için tahmine dayalı modellere dâhil etmek üzere yapılandırılmamış verileri ayrıştırma, filtreleme ve dönüştürme becerisine ihtiyaç duyar.

Veri Madenciliği yardımcı araçları (Kaynak: vizyonergenc.com)
Veri Madenciliğindeki Veri Türleri
Madenciliği yapılabilecek veri türleri şunları içerir:
1. Bir veri tabanı veya veri ambarında depolanan veriler
2. İşlem verileri (ör. uçuş rezervasyonları, web site tıklamaları, mağaza satın alımları vb.)
3. Mühendislik tasarımı verileri
4. Ardışık veriler
5. Grafik verileri
6. Konumsal veriler
7. Multimedya verileri
Veri Madenciliğinin Kullanımı
Veri madenciliği, kuruluşa ve ihtiyaçlarına bağlı olarak çok sayıda amaç için kullanılır. Olası kullanım alanlarından bazıları şunlardır:
1. Satış: Veri madenciliği, satışları artırmaya yardımcı olabilir. Örneğin, cadde üzerindeki bir mağazanın satış noktası kaydını düşünün. Perakendeci, her satış için satın alma zamanını, hangi ürünlerin birlikte satıldığını ve hangi ürünlerin en popüler olduğunu kaydeder. Perakendeci, ürün yelpazesini optimize etmek için bu bilgileri kullanabilir.
2. Pazarlama: İşletmeler, pazarlama faaliyetlerini geliştirmek için veri madenciliğini kullanabilir. Örneğin, veri madenciliğinden elde edilen içgörüler, potansiyel müşterilerin reklamları nerede gördüğünü, hangi demografinin hedefleneceğini, dijital reklamların nereye yerleştirileceğini ve hangi pazarlama stratejilerinin müşteriler için uygun olduğunu anlamak amacıyla kullanılabilir.
3. Üretim: Kendi mallarını üreten şirketler için veri madenciliği; ham maddelerin maliyetini, malzemelerin en verimli şekilde kullanılıp kullanılmadığını, üretim sürecinde zamanın nasıl harcandığını ve süreci hangi engellerin etkilediğini analiz etmek için kullanılabilir. Veri madenciliği, yeni malzemelerin ne zaman sipariş edilmesi gerektiğini veya ekipmanın ne zaman değiştirilmesi gerektiğini tahmin ederek ihtiyaçların tam zamanında karşılanmasını sağlamak için kullanılabilir.
4. Dolandırıcılık algılama: Veri madenciliğinin amacı, veri noktalarını birbirine bağlayan örüntüleri, eğilimleri ve korelasyonları bulmaktır. Bir kuruluş, var olmaması gereken aykırı değerleri veya korelasyonları belirlemek için veri madenciliğini kullanabilir. Örneğin, bir işletme nakit akışını analiz edebilir ve bilinmeyen bir hesaba yinelenen ödemeler bulabilir. Bu beklenmedik bir durumsa şirket olası dolandırıcılığı kontrol etmek için araştırma yapmak isteyebilir.
5. İnsan kaynakları: İK departmanları; genellikle personelin elde tutulması, terfiler, maaş aralıkları, şirket faydaları ile bu faydaların nasıl kullanıldığı ve çalışan memnuniyeti anketleri dâhil, işlenmek üzere geniş bir veri yelpazesine sahiptir. Veri madenciliği, çalışanların neden işten ayrıldığını ve işe alınanları kuruluşa katılmaya neyin motive ettiğini daha iyi anlamak için bu verileri ilişkilendirebilir.
6. Müşteri hizmetleri: Müşteri memnuniyeti çeşitli faktörlerle şekillenir. Örneğin, malları sevk eden bir perakendeciyi ele alalım. Bir müşteri teslimat süresinden, teslimat kalitesinden veya teslimat beklentileriyle ilgili iletişimden memnun olmayabilir. Bu müşteri, yavaş e-posta yanıtları veya uzun telefon bekleme süreleri nedeniyle hayal kırıklığına uğrayabilir. Veri madenciliği, müşteri etkileşimleri hakkında operasyonel bilgileri toplar ve şirketin iyi performans gösterdiği alanların yanı sıra zayıf noktalarını belirlemek için bulguları özetler.
7. Müşteriyi elde tutma: Şirketler, rakiplerine geçen müşterilerin özelliklerini belirlemek için veri madenciliğini kullanabilir ve ardından aynı özelliklere sahip diğer müşterileri elde tutmak için özel fırsatlar sunabilir.
8. Güvenlik: İzinsiz giriş algılama teknikleri, ağ kesintileri gibi anormallikleri belirlemek için veri madenciliğini kullanır.
9. Eğlence: Yayın hizmetleri, kullanıcıların ne izlediğini veya dinlediğini analiz etmek ve alışkanlıklarına göre kişiselleştirilmiş önerilerde bulunmak için veri madenciliğinden faydalanır.
10. Sağlık Hizmeti: Veri madenciliği, doktorların tıbbi durumları teşhis etmesine, hastaları tedavi etmesine ve X ışınlarını ve diğer tıbbi görüntüleme sonuçlarını analiz etmesine yardımcı olur. Tıbbi araştırmalar, ayrıca büyük ölçüde veri madenciliği, makine öğrenimi ve diğer analiz biçimlerine bağlıdır.
Veri Madenciliği Yazılım ve Araçları
Veri madenciliği araçları, genellikle veri bilimi ve gelişmiş analitik araçlarını içeren daha büyük yazılım platformlarının bir parçası olarak çok çeşitli satıcılardan temin edilebilir. Veri madenciliği yazılımının temel özellikleri aşağıdakileri içerir:
1. Veri hazırlama yetenekleri.
2. Yerleşik algoritmalar.
3. Tahmine dayalı modelleme desteği.
4. GUI tabanlı bir geliştirme ortamı.
5. Modelleri dağıtmak ve performanslarını puanlamak için araçlar.
Alteryx, Databricks, Dataiku, DataRobot, H2O.ai, Knime, RapidMiner, SAP, SAS Institute ve Tibco Software veri madenciliği araçları sağlayan satıcılar arasındadır.
DataMelt, Elki, Orange, Rattle, scikit-learn ve Weka veri madenciliği yapabilen ücretsiz, açık kaynaklı teknolojilerdir. Bazı yazılım satıcıları da açık kaynak seçenekleri sunmaktadır. Örneğin Knime, veri bilimi uygulamalarını yönetmek için açık kaynaklı bir analitik platformu ticari yazılımla birleştirirken, Dataiku ve H2O.ai ürünlerinin ücretsiz sürümlerini sunmaktadır.

