ਗਰੈਬਜ਼ਿਟ ਦਾ ਵੈਬ ਸਕ੍ਰੈਪਰ ਇਹ ਬਹੁਤ ਹੀ ਲਚਕਦਾਰ ਹੈ ਜਿਸ ਨਾਲ ਇਹ ਕਈਂ ਤਰ੍ਹਾਂ ਦੇ tasksਨਲਾਈਨ ਕੰਮਾਂ ਨੂੰ ਕਰਨ ਦੀ ਆਗਿਆ ਦਿੰਦਾ ਹੈ, ਜਿਵੇਂ ਕਿ ਇੱਕ ਵੈਬਸਾਈਟ ਲਿੰਕਾਂ ਦੀ ਜਾਂਚ ਕਰਨਾ ਅਤੇ ਰਿਪੋਰਟ ਕਰਨਾ ਜੋ ਟੁੱਟੇ ਹੋਏ ਹਨ.
ਸਭ ਤੋਂ ਪਹਿਲਾਂ ਕੰਮ ਕਰਨਾ ਹੈ a ਉਕਸਾਓ ਅਤੇ ਟੀਚੇ ਦੀ ਵੈਬਸਾਈਟ ਨੂੰ ਨਿਰਧਾਰਤ ਕਰੋ ਜਿਸਦੀ ਤੁਸੀਂ ਜਾਂਚ ਕਰਨਾ ਚਾਹੁੰਦੇ ਹੋ, ਫਿਰ ਸਕ੍ਰੈਪ ਨਿਰਦੇਸ਼ਾਂ ਲਈ ਹੇਠਾਂ ਦਿੱਤੇ ਕੋਡ ਦੀ ਵਰਤੋਂ ਕਰੋ.
var urls = Page.getTagAttributes('href', {"tag":{"equals":"a"}}); urls = Utility.Array.unique(urls); urls = Utility.Array.filter(urls, Data.readColumn("Links", "URL")); for (i = 0; i < urls.length; i++) { var url = urls[i]; Data.save(Page.getUrl(), "Links", "Found On"); Data.save(url, "Links", "URL"); if (Utility.URL.exists(url)) { Data.save("Found", "Links", "Result"); } else { Data.save("Missing", "Links", "Result"); } }
ਪਹਿਲੀ ਲਾਈਨ var urls = Page.getTagAttributes('href', {"tag":{"equals":"a"}});
ਸਾਰੇ ਹਾਈਪਰਲਿੰਕ ਯੂਆਰਐਲ ਐਕਸਟਰੈਕਟ ਕਰਦਾ ਹੈ ਅਤੇ ਉਹਨਾਂ ਵਿੱਚ ਪਾ ਦਿੰਦਾ ਹੈ urls
ਪਰਿਵਰਤਨਸ਼ੀਲ. ਅਗਲੀ ਲਾਈਨ ਸਹੂਲਤ.ਅਰੇ.ਯੂਨੀਕ ਸਾਰੇ ਯੂਆਰਐਲ ਨੂੰ ਵਿਲੱਖਣ ਬਣਾਉਣ ਦਾ ਤਰੀਕਾ.
ਤੀਜੀ ਲਾਈਨ ਇਹ ਸੁਨਿਸ਼ਚਿਤ ਕਰਦੀ ਹੈ ਕਿ ਲਿੰਕਾਂ ਨੂੰ ਦੋ ਵਾਰ ਚੈੱਕ ਨਹੀਂ ਕੀਤਾ ਜਾ ਰਿਹਾ ਹੈ ਅਜਿਹਾ ਕਰਨ ਲਈ ਅਸੀਂ ਯੂਆਰਐਲ ਦੇ ਪਹਿਲਾਂ ਪੜ੍ਹ ਚੁੱਕੇ ਹਾਂ saveਡੀ ਅਤੇ ਇਸ ਨਾਲ ਕੱractedੇ ਲਿੰਕ ਨੂੰ ਫਿਲਟਰ ਕਰੋ. ਜੇ ਤੁਸੀਂ ਚਾਹੁੰਦੇ ਹੋ ਕਿ ਹਰ ਪੰਨੇ 'ਤੇ ਇਕ ਲਿੰਕ ਟੁੱਟ ਗਿਆ ਹੈ ਤਾਂ ਇਸ ਲਾਈਨ ਨੂੰ ਮਿਟਾਓ.
ਯੂਆਰਐਲ ਡਾਟਾ ਸਾਫ਼ ਕਰਨ ਤੋਂ ਬਾਅਦ ਅਸੀਂ ਬਾਕੀ ਬਚੇ ਯੂਆਰਐਲ ਨੂੰ ਪਾਸਪੇਟ ਕਰਕੇ ਇਸ ਨੂੰ ਡੇਟਾਸੇਟ ਵਰਤਮਾਨ ਪੇਜ ਦੇ ਨਾਲ, ਜਾਂਚ ਕਰਨ ਤੋਂ ਪਹਿਲਾਂ ਕਿ ਕੀ URL ਦੀ ਵਰਤੋਂ ਕਰਕੇ ਮੌਜੂਦ ਹੈ Utility.URL.exists
.ੰਗ. ਇਸ ਚੈਕ ਦਾ ਨਤੀਜਾ ਫਿਰ ਹੈ saveਡੈਟਾਸੇਟ ਵਿਚ ਡੀ.
ਵਿਕਲਪਿਕ ਤੌਰ ਤੇ ਤੁਸੀਂ ਜਾਂਚ ਕਰ ਸਕਦੇ ਹੋ ਕਿ ਕੋਡ ਨੂੰ ਬਦਲ ਕੇ ਕੋਈ ਵੈੱਬਸਾਈਟ ਚਿੱਤਰ ਮੌਜੂਦ ਹਨ Page.getTagAttributes('href', {"tag":{"equals":"a"}});
ਨਾਲ Page.getTagAttributes('src', {"tag":{"equals":"img"}});
.