4 Ocak 2013 Cuma

Crawler Sonuçlarım

Php ve MongoDB ikilisini denemek için yazdığım crawler uygulamasını deniyorum. Muhtemelen 4-5 saat sürekli çalıştı  ve çalışmaya devam ediyor. App Store için yazmıştım  bu uygulamayı. App Store için derken onu crawl etmek için yani. İçindeki linkleri ve uygulama bilgilerini parse ediyor ve MongoDB'ye kaydediyor.
Şuanda MongoDB yönetimi için MongoVue GUI yazılımını kullanıyorum ve çektiğim ürün bilgisi sayısını paylaşıyorum.

Şuandaki toplam ürün bilgisi 9221 olarak görülüyor. Bunun dışında ürün bilgisi çekilmeyenler le birlikte toplam 33000 den fazla kayıt bulunmakta. Ve artmaya devam ediyor. Ürün ile ilgili uygulama adı,üretici,resim  adresi,ücreti ve boyutu gibi özelliklerini de çekiyorum. Burda bu işlemi hızlı çalışmasını kısıtlayan faktör ne php parsing işlemleri nede veritabanına yazma ve kontrol işlemleri. Tamamen internet bağlantısı ve Appstore sistesinin yanıt hızıyla lakalı. İşlemci kullanımım%1-2 civarında olması bunu gösteriyor.

App Storeda toplam 700 000 den fazla uygulama varmış. Ben bütün veriyi çekmek istemiyorum aslında . 100 000 uygulama verisi çeksem yeter bana. Bu kadar uygulama verisi çeksem muhtemelen 200 000 den fazla ürün linkide çekmiş olurum. Eğer bir yerden sonra yeni uygulama linki bulma sıkıntısı yaşanmazsa.

Bende bu arada bu verilerle MongoDb de değişik denemeler yapmayı planlıyorum. Sorgulama diline daha hakim olmam gerekiyor. Map Reduce işlemleri nasıl işliyor tam olarak anlamam gerekiyor. Ayrıca çeşitli performance testleride yapabilirim. Ürünlerin bilgisini kullanarak belki ististiksel bilgiyede ulaşabilirim.

Crawler hakkında daha detaylı bilgi için http://www.murat-cakal.com/2013/01/03/php-crawler-programlama/ bakabilirsiniz.

Hiç yorum yok:

Yorum Gönder