ਵੈੱਬ ਨੂੰ ਕੈਪਚਰ ਅਤੇ ਕਨਵਰਟ ਕਰਨ ਲਈ ਟੂਲ

ਕੀ ਗਰੈਬਜ਼ਿਟ ਦਾ ਵੈੱਬ ਸਕੈਪਰ ਰੋਬੋਟਸ.ਟੈਕਸਟ ਫਾਈਲਾਂ ਦਾ ਸਤਿਕਾਰ ਕਰਦਾ ਹੈ?

ਸਾਡੇ ਵੈੱਬ ਸਕ੍ਰੈਪਰ ਨੂੰ ਵੈਬਸਾਈਟਾਂ ਦੀ robots.txt ਫਾਈਲ ਵਿੱਚ ਪਾਏ ਗਏ ਨਿਯਮਾਂ ਦਾ ਆਦਰ ਕਰਨਾ ਪੈਂਦਾ ਹੈ। ਇਸਦੇ ਮੁੱਖ ਕਾਰਨਾਂ ਵਿੱਚੋਂ ਇੱਕ, ਚੰਗੇ ਹੋਣ ਤੋਂ ਇਲਾਵਾ, ਇਹ ਹੈ ਕਿ ਵੈੱਬ ਸਕ੍ਰੈਪਰ ਜੋ robots.txt ਫਾਈਲ ਦੀ ਪਾਲਣਾ ਨਹੀਂ ਕਰਦੇ ਹਨ, ਆਪਣੇ ਆਪ ਨੂੰ ਹਨੀਪੌਟ ਸੇਵਾ ਦੁਆਰਾ ਬਲੈਕਲਿਸਟ ਕੀਤੇ ਜਾ ਸਕਦੇ ਹਨ।

ਇਹ ਸੇਵਾਵਾਂ robots.txt ਦੀ ਵਰਤੋਂ ਵੈੱਬ ਸਕ੍ਰੈਪਰ ਨੂੰ ਇਹ ਦੱਸਣ ਲਈ ਕਰਦੀਆਂ ਹਨ ਕਿ ਉਹ ਵੈਬਸਾਈਟ ਤੋਂ ਲਿੰਕ ਕੀਤੀ ਗਈ ਕਿਸੇ ਖਾਸ ਫਾਈਲ 'ਤੇ ਨਾ ਜਾਣ। ਜੇਕਰ ਵੈਬ ਸਕ੍ਰੈਪਰ ਅਜੇ ਵੀ ਫਾਈਲ 'ਤੇ ਜਾਂਦਾ ਹੈ ਤਾਂ ਵੈਬ ਸਕ੍ਰੈਪਰ ਦਾ IP ਐਡਰੈੱਸ ਬਲੈਕਲਿਸਟ ਕੀਤਾ ਜਾਂਦਾ ਹੈ, ਭਵਿੱਖ ਵਿੱਚ ਵੈਬ ਸਕ੍ਰੈਪਰ ਨੂੰ ਵੈੱਬ ਸਾਈਟ 'ਤੇ ਜਾਣ ਤੋਂ ਰੋਕਦਾ ਹੈ।