Semalt ماہر کے ساتھ ویب سکریپنگ

ویب سکریپنگ ، جسے ویب کٹائی کے نام سے بھی جانا جاتا ہے ، ایک تکنیک ہے جو ویب سائٹوں سے ڈیٹا نکالنے کے لئے استعمال کی جاتی ہے۔ ویب کٹائی کرنے والا سافٹ ویئر HTTP یا ویب براؤزر کا استعمال کرکے براہ راست کسی ویب تک رسائی حاصل کرسکتا ہے۔ اگرچہ یہ عمل سافٹ ویئر صارف کے ذریعہ دستی طور پر لاگو کیا جاسکتا ہے ، لیکن اس تکنیک میں عام طور پر ایک خود کار عمل ہوتا ہے جس میں ویب کرالر یا بوٹ کے استعمال سے عمل ہوتا ہے۔

ویب سکریپنگ ایک ایسا عمل ہے جب جائزے اور بازیافت کے ل struct تشکیل شدہ ڈیٹا کو ویب سے کسی مقامی ڈیٹا بیس میں کاپی کیا جاتا ہے۔ اس میں ایک ویب صفحہ لانا اور اس کا مواد نکالنا شامل ہے۔ اس صفحے کے مشمولات کی تجزیہ ، تلاش ، تنظیم نو اور اس کے ڈیٹا کو مقامی اسٹوریج ڈیوائس میں کاپی کیا جاسکتا ہے۔

ویب صفحات عام طور پر متن پر مبنی مارک اپ زبانوں جیسے XHTML اور HTML سے بنا ہوتے ہیں ، ان دونوں میں متن کی شکل میں زیادہ تر مفید ڈیٹا ہوتا ہے۔ تاہم ، ان میں سے بہت ساری ویب سائٹیں خود کار استعمال کے ل not نہیں بلکہ انسان کے اختتامی صارفین کے لئے ڈیزائن کی گئیں ہیں۔ یہی وجہ ہے کہ سکریپنگ سافٹ ویئر تشکیل دیا گیا تھا۔

بہت ساری تکنیکیں ہیں جن کو ویب سکریپنگ کے لئے موثر بنایا جاسکتا ہے۔ ان میں سے کچھ ذیل میں تفصیل سے بیان کیے گئے ہیں۔

1. انسانی کاپی اور پیسٹ

وقتا فوقتا ، یہاں تک کہ بہترین ویب اسکریپنگ ٹول بھی انسان کے دستی کاپی اور پیسٹ کی درستگی اور کارکردگی کی جگہ نہیں لے سکتا ہے۔ یہ زیادہ تر ایسے حالات میں لاگو ہوتا ہے جب ویب سائٹ مشین آٹومیشن کو روکنے کے لئے رکاوٹیں کھڑی کرتی ہیں۔

2. متن پیٹرن ملاپ

یہ ایک بہت ہی آسان لیکن طاقتور طریقہ ہے جو ویب صفحات سے ڈیٹا نکالنے کے لئے استعمال ہوتا ہے۔ یہ UNIX گریپ کمانڈ یا کسی دیئے گئے پروگرامنگ زبان کی ایک باقاعدہ اظہار کی سہولت پر مبنی ہوسکتی ہے ، مثال کے طور پر ، ازگر یا پرل۔

3. HTTP پروگرامنگ

ایچ ٹی ٹی پی پروگرامنگ مستحکم اور متحرک ویب صفحات دونوں کے لئے استعمال کیا جاسکتا ہے۔ ساکٹ پروگرامنگ کا استعمال کرتے ہوئے ریموٹ ویب سرور پر HTTP درخواست پوسٹ کرنے کے ذریعہ ڈیٹا نکالا جاتا ہے۔

4. HTML تجزیہ کرنا

بہت ساری ویب سائٹوں میں صفحات کا ایک وسیع ذخیرہ ہوتا ہے جو بنیادی ڈھانچے جیسے کسی بنیادی ڈھانچے سے متحرک طور پر تخلیق کیا جاتا ہے۔ یہاں ، اسی طرح کے زمرے سے تعلق رکھنے والا ڈیٹا اسی طرح کے صفحات میں انکوڈ کیا گیا ہے۔ ایچ ٹی ایم ایل کی تجزیہ میں ، ایک پروگرام عام طور پر معلومات کے کسی خاص ذریعہ میں اس طرح کے سانچے کا پتہ لگاتا ہے ، اس کے مندرجات کو بازیافت کرتا ہے اور پھر اسے ملحقہ شکل میں ترجمہ کرتا ہے ، جسے ریپر کے بطور حوالہ دیا جاتا ہے۔

5. ڈوم پارس کرنا

اس تکنیک میں ، کلائنٹ سائیڈ اسکرپٹ کے ذریعہ تیار کردہ متحرک مواد کی بازیافت کے ل a ایک پروگرام موزلہ فائر فاکس یا انٹرنیٹ ایکسپلورر جیسے پورے ویب براؤزر میں شامل ہوتا ہے۔ یہ براؤزر ایسے پروگراموں پر انحصار کرتے ہوئے DOM درخت میں ویب صفحات کی تجزیہ کرسکتے ہیں جو صفحات کے کچھ حصے نکال سکتے ہیں۔

6. سیمانی تشریح کی پہچان

آپ جو صفحات کھرچنا چاہتے ہیں وہ معنی خیز نشانات اور تشریحات یا میٹا ڈیٹا کو گلے لگاسکتے ہیں ، جو مخصوص اعداد و شمار کے ٹکڑوں کو تلاش کرنے کے لئے استعمال ہوسکتے ہیں۔ اگر ان تشریحات کو صفحات میں سرایت کیا گیا ہے تو ، اس تکنیک کو DOM پارس کرنے کا ایک خاص کیس کے طور پر دیکھا جاسکتا ہے۔ ان تشریحات کو مصنوعی پرت میں بھی ترتیب دیا جاسکتا ہے ، اور پھر اسے ویب صفحات سے الگ کرکے ذخیرہ اور منظم کیا جاسکتا ہے۔ یہ کھرچنے والوں کو صفحات کو کھرچنے سے پہلے ڈیٹا اسکیما کے ساتھ ساتھ اس پرت سے حاصل کردہ احکامات کو بازیافت کرنے کی اجازت دیتا ہے۔

mass gmail