سٹوریج ۔مستقبل سے خطوط

فیس بک، ٹویٹر، لنکڈ ان ۔۔۔ یہ سب 2007 میں نمودار ہوئے۔ اسی سال کیوں؟

یہ اس سے پہلے ممکن نہ تھے اور اس کی کئی وجوہات تھیں۔ ان میں سے ایک وجہ ساتھ لگی تصویر کا ہاتھی تھا۔

گوگل کی کامیابی میں اس کا اصل جینئیس ڈیٹا کو سٹور کرنے کے سسٹم میں تھا۔ یہ دو الگ سافٹ وئیر تھے، جن کی مدد سے ہزاروں ڈرائیوز مل کر ایک ہی ڈرائیو کی طرح کام کرتی ہیں اور اگر ایک فیل ہو جائے تو پتا بھی نہیں لگتا۔ دوسرا سافٹ وئیر بھی گوگل کو خود ہی بنانا تھا کیونکہ اس وقت کوئی ایسی کمرشل ٹیکنالوجی موجود نہیں تھی۔ وہ اس بڑے ڈیٹا کو پراسس کرنے کی ٹیکنالوجی تھی۔ یہ پروگرام گوگل نے خود بنائے اور استعمال کئے۔

پروگرامنگ کی ایک پُرانی اور مانی ہوئی روایت کے مطابق گوگل نے فیصلہ کیا کہ وہ اس کے بُنیادی تصورات عوام کے ساتھ شئیر کریں گے۔ گوگل نے جو بنایا تھا، اس کا پروگرام تو نہیں لیکن طریقہ کار پبلک کے ساتھ شئیر کر دیا۔ اس کو دو پیپرز میں شائع کیا گیا کہ اہم پروگرام کیا ہیں اور کیسے کام کرتے ہیں۔ ایک پیپر اکتوبر 2003 میں شائع ہوا جس میں گوگل فائل سسٹم کا بتایا گیا۔ بہت بڑا ڈیٹا کس طرح سستی سٹوریج کے کلسٹر پر سٹور کیا جا سکتا ہے۔ چونکہ گوگل دنیا بھر کی انفارمیشن کو منظم کرنا چاہتا تھا، اس لئے اس کا حجم ایگزابائٹس کے سکیل پر تھا۔ گوگل کی دوسری ایجاد دسمبر 2004 میں شئیر ہوئی جو گوگل میپ ریڈیوس تھا۔ پیپر کے مطابق یہ “ایسا پروگرامنگ ماڈل اور اس کا اطلاق جو اس بڑے ڈیٹا کو پراسس کر سکے اور بڑے ڈیٹا سیٹ بنا سکے۔ اس سٹائل سے لکھے گئے پروگرام سستی مشینیوں کے کلسٹر پر پیرالل میں پراسسنگ کر سکتے ہیں۔ سسٹم ڈیٹا کے حصے بنانے کا کام لے لیتا ہے، یہ ذمہ داری کہ پروگرام کو کس طرح الگ مشینوں پر چلایا جائے، مشینوں کے فیل ہونے سے کیسے نمٹا جائے، مشینوں کا آپس میں رابطہ کیسے کروایا جائے۔ ایسے پروگرامر، جنہوں اس سب کے پیچیدگی کا تجربہ نہیں، کیسے اس سے آسانی سے فائدہ اٹھا سکیں”۔

آسان زبان میں، گوگل کی ان دو جدتوں کا مطلب یہ تھا کہ ڈیٹا کے پہاڑوں کو پراسس کرنا اتنی آسانی سے ممکن ہو گیا تھا جس کا پہلے تصور نہیں کیا جا سکتا تھا۔

کمپیوٹنگ کی دنیا میں گوگل کا اس کو شئیر کرنے کا فیصلہ بہت بڑا قدم تھا۔ اوپن سورس کمیونیٹی اب اس سے فائدہ اٹھا سکتی تھی۔ بگ ڈیٹا کی صنعت ممکن ہو سکتی تھی۔ یہ وہ چیلنج تھا جس کو اوپن سورس کمیونیٹی نے قبول کیا، اور اسی نے ہاڈوپ کو جنم دیا۔

اس انفارمیشن سے اس شعبے میں مہارت رکھنے والوں نے پروگرام تخلیق کئے جس سے لاکھوں کمپیوٹر مل کر ایک بڑے کمپیوٹر کا کردار ادا کر سکیں۔ نیا ہارڈوئیر لائیں، لگائیں اور اس کلسٹر کو بڑا کر لیں اور ڈیٹا کو مزید باریک بینی سے چھان لیں۔

۔۔۔۔۔۔۔۔۔۔۔۔۔۔۔۔۔۔

فیس بُک، ٹوئٹر اور لنکڈ اِن نے ہاڈوپ کو استعمال کیا اور یہی وجہ ہے کہ یہ تینوں کمپینیاں ایک ہی سال ابھریں۔ 2007 میں۔ ان کے پاس بڑا ڈیٹا حاصل کرنے کی صلاحیت تھی۔ لیکن اس سے پہلے وہ ٹول نہیں تھا جس سے اس کا فائدہ اٹھایا جا سکتا۔ یاہو اور گوگل ویب پیج کا تجزیہ اس لئے کرتے تھے کہ اس کو سرچ کیا جا سکے لیکن یہ اس وقت بہت قیمتی ہو جاتا ہے، اگر ویب پیج پر کئے جانے والے کلک اور دوسرے ایکشن بھی پکڑ کر سٹور کئے جا سکیں اور ان کا تجزیہ کیا جا سکے۔ جب تک ہاڈوپ نہیں آیا تھا، گوگل کے علاوہ کوئی اور ایسا نہیں کر سکتا تھا۔

ہاڈوپ سے یہ ممکن ہوا کہ تمام ڈیٹا سٹور کیا جا سکے، یہ دیکھا جا سکے کہ یہ کونسے شخص سے آ رہا ہے اور وہ اس سے پہلے ویب سائٹ پر کیا کرتا رہا ہے۔ کہاں کلک کر سکتا تھا اور کہاں کلک کیا۔ جب یہ سب تصویر سامنے ہو تو زیادہ بہتر اندازہ لگایا جا سکتا ہے۔ بہتر ڈیٹا بہتر بصارت دیتا ہے۔ ہاڈوپ نے گوگل کے علاوہ دوسری کمپینیوں کے لئے یہ کرنا ممکن بنایا۔ اس کے گرد پروگرام لکھے گئے اور اس کی صلاحیت بڑھتی گئی۔

۔۔۔۔۔۔۔۔۔۔۔۔۔۔۔۔۔۔۔۔

گوگل کا اپنا سسٹم صرف گوگل کے ڈیٹا سنٹر پر چلتا تھا اور لوگ اس کو انفارمیشن سرچ کرنے، چہرے پہچاننے، ہجے ٹھیک کرنے، تصاویر کی شناخت جیسے کاموں کے لئے استعمال کرتے تھے اور ساتھ ہاڈوپ کا سسٹم جو اوپن سورس تھا اور اس کو ہر کوئی چلا سکتا تھا۔ آئی بی ایم اور اوریکل جیسے بڑے اداروں نے ہاڈوپ کو اپنا لیا اور یہ اس کی اوپن سورس میں بھی اپنا حصہ ڈالتے ہیں۔ بہت سے حصہ ڈالنے والوں کے سبب یہ تیزی سے بڑھتا رہا۔ (بعد میں اسی سب کی بنیاد پر کئی دوسرے سسٹم بھی نکلے جو اسی مسئلے کو حل کرتے ہیں)۔

۔۔۔۔۔۔۔۔۔۔۔۔۔۔۔۔۔۔

ہاڈوپ سے پہلے غیرمنظم ڈیٹا کی طرف توجہ نہیں دی جاتی تھی۔ اگر ایک بینک کا سسٹم ہے تو ہم اس کو سٹور کرنے کے لئے سٹرکچر پہلے بناتے ہیں۔ “یہ ٹرانزیکشن ہے”، “یہ چیک ہے”، “یہ اکاوٗنٹ ہے”۔ یہ سب ایک تنظیم کے ساتھ ہوتا ہے تا کہ اگر یہ پوچھنا ہو کہ “فلاں صاحب نے آخری چیک کب جمع کروایا؟” تو اس ڈیٹا سے پوچھا جا سکے۔

غیرمنظم ڈیٹا کا مطلب یہ ہے کہ تمام ڈیٹا بغیر کسی سٹرکچر کے سٹور کر لیا جائے۔ ہاڈوپ یہ صلاحیت دیتا ہے کہ اس میں پیٹرن تلاش کئے جا سکیں۔ اس ڈیٹا کے پہاڑوں میں سے آسانی سے یہ دیکھا جا سکے کہ ان میں کیا موجود ہے اور جواب تلاش کئے جا سکیں۔ ایسے پیٹرن شناخت کئے جا سکیں جو اہم بریک تھرو دے سکیں۔

۔۔۔۔۔۔۔۔۔۔۔۔۔۔۔۔

مثال کے طور پر کریڈٹ کارڈ کی کمپنی ویزا ہر وقت فراڈ ڈھونڈنے کی تلاش میں ہوتی ہے۔ لیکن اس کا سافٹ وئیر اس ڈیٹا میں تیس سے ساٹھ روز سے پہلے جانے کی صلاحیت نہیں دیتا تھا۔ ویزا نے ہاڈوپ استعمال کر کے پانچ سال تک کے ڈیٹا کا تجزیہ کیا اور فراڈ کا سب سے بڑا پیٹرن ڈھونڈ نکالا۔

اس سکیل اور اس قیمت پر یہ کام پہلے نہیں کیا جا سکتا تھا۔ یہ وہ وجہ ہے کہ اس وقت منظم اور غیرمنظم ڈیٹا کا تجزیہ کرنے میں ہاڈوپ ایک بڑے آپریٹنگ سسٹم کا کردار ادا کر رہا ہے۔

۔۔۔۔۔۔۔۔۔۔۔۔۔۔۔۔۔

سبک رفتاری، فرد کے لیول پر جا کر اور مرضی کا تجزیہ۔ یہ تینوں ملکر اب وہ ممکن بنا رہے ہیں جو پہلے نہیں تھا اور یہ معمولی چیز نہیں۔ اس کو پرننٹنگ پریس جتنا بڑا بریک تھرو کہا جا سکتا ہے۔ ہاڈوپ اس لئے ممکن ہوا کہ مورز لاء نے ہارڈوئیر سٹوریج کو سستا کیا۔ گوگل کو یہ اعتماد تھا کہ وہ اپنی اہم انسائٹ شئیر کر سکتا ہے اور اوپن سورس کمیونیٹی کو چیلنج کیا کہ وہ اس کو بنا سکتی ہے۔ اوپن سورس میں لوگوں نے یہ کر دکھایا۔

اور یوں، ہاڈوپ نے ہمیں بگ ڈیٹا کا انقلاب دیا۔ گوگل نے اس میں مدد کی اور اب جبکہ اس کی مدد سے بگ ڈیٹا ایک صنعت بن چکی ہے۔ اس ڈیٹا پر تجزیہ کرنے کے لئے گوگل اپنے ٹول دینے کا بزنس کرتا ہے!

کٹنگ کہتے ہیں، “گوگل کچھ سال آگے مستقبل میں رہ رہا ہے اور مستقبل سے ہمیں خط لکھتا ہے۔ ہم اس کے خط پڑھ کر اس کا پیچھا کر رہے ہیں اور اب کچھ جگہیں ایسی ہیں، جہاں پر وہ ہمارا پیچھا کر رہے ہیں اور یہ دو طرفہ مکالمہ سبھی کو فائدہ پہنچا رہا ہے”۔

۔۔۔۔۔۔۔۔۔۔۔۔۔۔۔۔

مکمل آرٹیکل کے لئے

https://waharaposts.blogspot.com/2020/01/blog-post_22.html

Search This Blog

Peace for Humanity

سٹوریج ۔مستقبل سے خطوط

Comments

Post a Comment

Popular posts from this blog

‎موٹیویشنل سپیکر ‏ ‏کی ‏خامیاں ‏

کچھ ایسے سوالات جن کے جوابات فل حال سائنس تلاش کر رہی ہے

نسوار کیا ہے