ਗਰੈਬਜ਼ਿਟ ਦਾ ਵੈਬ ਸਕ੍ਰੈਪਰ ਇਹ ਬਹੁਤ ਹੀ ਲਚਕਦਾਰ ਹੈ ਜਿਸ ਨਾਲ ਇਹ ਕਈਂ ਤਰ੍ਹਾਂ ਦੇ tasksਨਲਾਈਨ ਕੰਮਾਂ ਨੂੰ ਕਰਨ ਦੀ ਆਗਿਆ ਦਿੰਦਾ ਹੈ, ਜਿਵੇਂ ਕਿ ਇੱਕ ਵੈਬਸਾਈਟ ਲਿੰਕਾਂ ਦੀ ਜਾਂਚ ਕਰਨਾ ਅਤੇ ਰਿਪੋਰਟ ਕਰਨਾ ਜੋ ਟੁੱਟੇ ਹੋਏ ਹਨ.
ਸਭ ਤੋਂ ਪਹਿਲਾਂ ਕੰਮ ਕਰਨਾ ਹੈ a ਉਕਸਾਓ ਅਤੇ ਟੀਚੇ ਦੀ ਵੈਬਸਾਈਟ ਨੂੰ ਨਿਰਧਾਰਤ ਕਰੋ ਜਿਸਦੀ ਤੁਸੀਂ ਜਾਂਚ ਕਰਨਾ ਚਾਹੁੰਦੇ ਹੋ, ਫਿਰ ਸਕ੍ਰੈਪ ਨਿਰਦੇਸ਼ਾਂ ਲਈ ਹੇਠਾਂ ਦਿੱਤੇ ਕੋਡ ਦੀ ਵਰਤੋਂ ਕਰੋ.
var urls = Page.getTagAttributes('href', {"tag":{"equals":"a"}}); urls = Utility.Array.unique(urls); urls = Utility.Array.filter(urls, Data.readColumn("Links", "URL")); for (i = 0; i < urls.length; i++) { var url = urls[i]; Data.save(Page.getUrl(), "Links", "Found On"); Data.save(url, "Links", "URL"); if (Utility.URL.exists(url)) { Data.save("Found", "Links", "Result"); } else { Data.save("Missing", "Links", "Result"); } }
ਪਹਿਲੀ ਲਾਈਨ var urls = Page.getTagAttributes('href', {"tag":{"equals":"a"}}); ਸਾਰੇ ਹਾਈਪਰਲਿੰਕ ਯੂਆਰਐਲ ਐਕਸਟਰੈਕਟ ਕਰਦਾ ਹੈ ਅਤੇ ਉਹਨਾਂ ਵਿੱਚ ਪਾ ਦਿੰਦਾ ਹੈ urls ਪਰਿਵਰਤਨਸ਼ੀਲ. ਅਗਲੀ ਲਾਈਨ ਸਹੂਲਤ.ਅਰੇ.ਯੂਨੀਕ ਸਾਰੇ ਯੂਆਰਐਲ ਨੂੰ ਵਿਲੱਖਣ ਬਣਾਉਣ ਦਾ ਤਰੀਕਾ.
var urls = Page.getTagAttributes('href', {"tag":{"equals":"a"}});
urls
ਤੀਜੀ ਲਾਈਨ ਇਹ ਸੁਨਿਸ਼ਚਿਤ ਕਰਦੀ ਹੈ ਕਿ ਲਿੰਕਾਂ ਨੂੰ ਦੋ ਵਾਰ ਚੈੱਕ ਨਹੀਂ ਕੀਤਾ ਜਾ ਰਿਹਾ ਹੈ ਅਜਿਹਾ ਕਰਨ ਲਈ ਅਸੀਂ ਯੂਆਰਐਲ ਦੇ ਪਹਿਲਾਂ ਪੜ੍ਹ ਚੁੱਕੇ ਹਾਂ saveਡੀ ਅਤੇ ਇਸ ਨਾਲ ਕੱractedੇ ਲਿੰਕ ਨੂੰ ਫਿਲਟਰ ਕਰੋ. ਜੇ ਤੁਸੀਂ ਚਾਹੁੰਦੇ ਹੋ ਕਿ ਹਰ ਪੰਨੇ 'ਤੇ ਇਕ ਲਿੰਕ ਟੁੱਟ ਗਿਆ ਹੈ ਤਾਂ ਇਸ ਲਾਈਨ ਨੂੰ ਮਿਟਾਓ.
ਯੂਆਰਐਲ ਡਾਟਾ ਸਾਫ਼ ਕਰਨ ਤੋਂ ਬਾਅਦ ਅਸੀਂ ਬਾਕੀ ਬਚੇ ਯੂਆਰਐਲ ਨੂੰ ਪਾਸਪੇਟ ਕਰਕੇ ਇਸ ਨੂੰ ਡੇਟਾਸੇਟ ਵਰਤਮਾਨ ਪੇਜ ਦੇ ਨਾਲ, ਜਾਂਚ ਕਰਨ ਤੋਂ ਪਹਿਲਾਂ ਕਿ ਕੀ URL ਦੀ ਵਰਤੋਂ ਕਰਕੇ ਮੌਜੂਦ ਹੈ Utility.URL.exists .ੰਗ. ਇਸ ਚੈਕ ਦਾ ਨਤੀਜਾ ਫਿਰ ਹੈ saveਡੈਟਾਸੇਟ ਵਿਚ ਡੀ.
Utility.URL.exists
ਵਿਕਲਪਿਕ ਤੌਰ ਤੇ ਤੁਸੀਂ ਜਾਂਚ ਕਰ ਸਕਦੇ ਹੋ ਕਿ ਕੋਡ ਨੂੰ ਬਦਲ ਕੇ ਕੋਈ ਵੈੱਬਸਾਈਟ ਚਿੱਤਰ ਮੌਜੂਦ ਹਨ Page.getTagAttributes('href', {"tag":{"equals":"a"}}); ਨਾਲ Page.getTagAttributes('src', {"tag":{"equals":"img"}});.
Page.getTagAttributes('href', {"tag":{"equals":"a"}});
Page.getTagAttributes('src', {"tag":{"equals":"img"}});