Robot.txt kya hai – सायद आप सभी लोग इसके बारे मे इससे पहले तक इसके बारे मे या फिर इसका नाम नहीं सुनो होगा आज आप सायद इसका पहली बार नाम सुन रहे है। लेकिन 100% sure यदि आप इस ब्लोगपोस्ट पर पहुचे है तो जरूर आपने इसके बारे मे जानने के लिए ही इस ब्लोगपोस्ट पर आयें होंगे।
यदि आपके पास कोई ब्लॉग या कोई website होगा तो अपने ध्यान दिया होगा को न चाहते हुए google हमारे ब्लॉग के ऐसे कुछ चीजों को publicy दिखने लगता है जो की सही नहीं। लेकिन क्या आप जानते है की ऐसे क्यों होता है। क्यों कभी काभी ऐसा होता है की आपके contents बहूत दिन हो जाते है publish हुए लेकिन फिर भी वे index क्यों नहीं होते?
यदि आप इन सभी Doubts का जवाब जानना चाहते है तो आप सही जगह पर है आज के इस Guide मे हम आपको Robot.txt file के बारे मे बताऊँगा और आपको इनसभी चीजों को जानने के लिए इस Guide को ध्यान से End तक पढ़ना होगा तभी आपको इससे related doubts clear होंगे।
Search इंजन को बताना की आप अपने ब्लॉग या websites के कौन से file या folder को internet पर publicy दिखाना चाहते है उसके लिए Robot.txt metatag का प्रयोग किया जाता है।
लेकिन कुछ ऐसे search engines ऐसे भी है जीने robot metatag पढ़ना ही नहीं आता है लेकिन Robot.txt file एक बहूत ही बेहतरीन तरीका है search engines को यह बटन की आप अपने ब्लॉग के कौन से files/folders internet पर publicy दिखाना चाहते है।
तो फिर चलिए अब इसके बारे मे पूरे विषतार से जानते है की Robo.txt क्या है?, Robot.txt File कैसे बनाए आदि ।
तो फिर चलिए शुरू करते है।
Robot.txt क्या है?
Robot.txt एक file है जो की search engines को बताता है की आपके website के कौन से pages, URLs को crawl / index करन है कौन से को नहीं। यह मुख्य तौर से इसलिए उपयोग किया जाता है जिससे आपके site के overloading से avoid किया जा सके ।
Robot.txt क्यों महत्वपूर्ण है? या Robot.txt किसलिए इस्तेमाल की जाती है?
बहोइओट से ऐसे blogs/websites है जिन्हे Robot.txt का जरूरत नहीं होता है। जैसे यदि आपका ब्लॉग blogger या wix या किसी आदि जैसे platform पर hosted है तब आपको आपके ब्लॉग की लिए Robot.txt file की जरूरत नहीं पड़ती है।
यह इसलिए क्यों की google crawlers आपके ब्लॉग या website के most important pages को automatically crawl और index करता है।
लेकिन इसी के साथ आपको यह भी ध्यान मे रखना है Google ऐसे pages को automatically index और crawl नहीं करता है जो important नहीं होते और जो duplicate version page होते है।
दो कारण जिनकी वजह से आपको Robot.txt File का उपयोग करना चाहिए
- Non Public Pages को Blog करने के लिए: बहूत बार ऐसा होता है की आप अपने ब्लॉग के कुछ contents, कुछ pages को नहीं indexed करना चाहता है। उसे आप internet पर publicy नहीं दिखाना चाहते है।
जैसे: आपके ब्लॉग का login लेकिन आप नहीं चाहते की इस page पर random people visit करे । ऐसे मे इस problem को दूर करने के लिए आपको Robot.txt का उपयोग करना होता है जो की search engine crawlers को ऐसे pages को index और crawl करने से block करता है।
- Resources को Indexing से prevent करना: Meta Directive का उपयोग करके आप pages को indexed से prevent कर सकते हो लेकिन यदि multimedia resources है जैसे PDF, Photos, Videos आदि तब ऐसे case मे आपको txt का उपयोग करना होता है।
आप Google Search Console से check कर सकते है की कितना pages आपके ब्लॉग या website का indexed हुआ है।
Robot.txt किस लिए उपयोग किया जाता है?
खास तौर पर Robot.txt का उपयोग खास तौर पर आपके ब्लॉग या website पर crawler को प्रतिबंधित करने के लिए उपयोग किया जाता है। और यदि इससे संबंधित Google की बात करे तो, Google को page को crawl या index न करने के लिए भी उपयोग किया जाता है।
Robot.txt File कैसे बनाए?
अब ऐसे बारे मे सब कुछ जानने के बाद अब आपका first step है की आप एक robot.txt create करिए।
Robot.txt एक text file होने के कारण आप इसे notepad की मदत से आसानी से बना सकते है।
मै आपको यहा पर Robot.txt File के दो simple rule को बताता हूँ।
# Group 1 User-agent: Googlebot Disallow: /nogooglebot/ # Group 2 User-agent: * Allow: / Sitemap: http://www.example.com/sitemap.xml
- जो ऊपर Googlebot user agent named है वह नहीं allowed करता है http://example.com/nogooglebot/directory or any subdirectories. को crawl करने के लिए।
- और बाकी सभी user agent पूरे website को crawl करते है।
- Website का Sitemap File website के http://www.example.com/sitemap.xml पर located होता है।
Robot.txt का syntax क्या है?
- User Agent: ऐसे robot जो सारी rules को follow करते है और applicable होते है वह user agent कहलाते है जैसे – Googlebot आदि
Adsblock Crawler User Agent Example:
# Example 1: Block only Googlebot User-agent: Googlebot Disallow: / # Example 2: Block Googlebot and Adsbot User-agent: Googlebot User-agent: AdsBot-Google Disallow: / # Example 3: Block all but AdsBot crawlers User-agent: * Disallow: /
- Disallow: इसका मातल है आपके ब्लॉग के ऐसे pages जिन्हे आप चाहते है की crawlers crawl न कर सके यानि की आप उसे block कर दे।
- Allow : Disallow का ठीक उल्टा।
- Sitemap : आपके ब्लॉग का
Example:
Sitemap: https://example.com/sitemap.xml Sitemap: http://www.example.com/sitemap.xml
दूसरा Example robot.txt file का
# Block googlebot from example.com/directory1/... and example.com/directory2/... # but allow access to directory2/subdirectory1/... # All other directories on the site are allowed by default. User-agent: googlebot Disallow: /directory1/ Disallow: /directory2/ Allow: /directory2/subdirectory1/ # Block the entire site from anothercrawler. User-agent: anothercrawler Disallow: /
Useful robot.txt rules
अपने robot.tx file को आसान बनाए खोजने मे
एक बार जब आपका आपके ब्लॉग के लिए robot.txt file बनकर ready हो जाए तब आपको अब उसे live लाना है।
आप आसान रूप से अपने site के main directory मे robot.txt प्लेस करिए।
Errors और Mistakes Check करे
अब आपको अपने robot.txt को check करने है की काही कोई errors तो नहीं है न, इसके लिए आपको Google का tool उपयोग करना पड़ेगा जसिक नाम है Robots Testing Tools
Robot.txt कहा पर locatedहोना चाहिए?
Robot.txt file websiteके root directory मे locatedहोना चाहिए। Robot.txt file का limit कितना है?गूगल के अनूषर Robot.txt File का limit 500 kibibytes (KiB)है। Website का Robot.txt कैसे खोजे?Robot.txt खोजने के लिए सबसे पहले Domain Name डालना है उसके बाद /robot.txt जैसे: yoursite.com/robot.txt
आपको कैसा लगा?
मै उम्मीद करता हूं कि इस पोस्ट के माध्यम से Robot.txt file क्या है ? इसके बारे मे आपको पूरी जानकारी जरूर मिल गया होगी।
मेरा आपसे एक निवेदन है इस पोस्ट को अपने दोस्त और अपने आस पास के सभी लोगो तक और social media ( Facebook, WhatsApp, Pinterest आदि) पर इस पोस्ट को जरूर पहुचाए। जिससे हमारे बीच जागरूकता होगी। और इससे सभी को हिंदी में जानकारी सरलता और आसानी से मिलेगी ।
आपसे मेरा गुंजारिस है की आपको यह information कैसा लगा, आपके लिए यह कितना लाभदायक है और इसमे क्या त्रुटि है उसे आप हमे comment करके जरूर बताए। ताकि मै पोस्ट मे उसे सुधार कर के आपके सामने अच्छे से प्रस्तुत करू जिससे आपको समझने मे और भी आसनी होगी।
धन्यवाद !
FAQ
क्या ब्लॉग के लिए Robot.txt file जरूरी है?
बहूत से websites Robot.txt File का उपयोग नहीं करती है यह इसलिए क्यों की google आपके ब्लॉग के importants pages को index और crawl कर लेता है। और वह dublicate versionऔर unimportant pages को automatically नहीं index करता है। ऐसे मे आपको Advanced SEO के लिए Robot.txt File का उपयोग करना चाहिए।
क्या गूगल बिना Robot.txt के crawl कर सकता है?
यदि किसी website का Robot.txt file नहीं exists है तो गूगल crawlers आपके website का सभी Urls Crawl कर लेगा लेकिन यदि आप सब url को नहीं crawl करना चाहते है तो ऐसे मे Robot.txt file आता है।
Robot.txt File क्या करता है?
Robot.txt एक file है जो की search engines को बताता है की आपके website के कौन से pages, URLs को crawl/index करना है कौन से को नहीं।
Robot.txt कहा पर locatedहोना चाहिए?
Robot.txt file websiteके root directory मे locatedहोना चाहिए।
Robot.txt file का limit कितना है?
गूगल के अनूषर Robot.txt File का limit 500 kibibytes (KiB)है
Website का Robot.txt कैसे खोजे?
?Robot.txt खोजने के लिए सबसे पहले Domain Name डालना है उसके बाद /robot.txt जैसे: yoursite.com/robot.txt