ਵੈੱਬ ਨੂੰ ਕੈਪਚਰ ਅਤੇ ਕਨਵਰਟ ਕਰਨ ਲਈ ਟੂਲ

ਇੱਕ ਕਸਟਮ ਲਿੰਕ ਚੈਕਰ ਬਣਾਓ

ਇਹ ਉਦਾਹਰਣ ਇੱਕ ਦੇ ਰੂਪ ਵਿੱਚ ਵੀ ਉਪਲਬਧ ਹੈ ਟੈਪਲੇਟ.

ਗਰੈਬਜ਼ਿਟ ਦਾ ਵੈਬ ਸਕ੍ਰੈਪਰ ਇਹ ਬਹੁਤ ਹੀ ਲਚਕਦਾਰ ਹੈ ਜਿਸ ਨਾਲ ਇਹ ਕਈਂ ਤਰ੍ਹਾਂ ਦੇ tasksਨਲਾਈਨ ਕੰਮਾਂ ਨੂੰ ਕਰਨ ਦੀ ਆਗਿਆ ਦਿੰਦਾ ਹੈ, ਜਿਵੇਂ ਕਿ ਇੱਕ ਵੈਬਸਾਈਟ ਲਿੰਕਾਂ ਦੀ ਜਾਂਚ ਕਰਨਾ ਅਤੇ ਰਿਪੋਰਟ ਕਰਨਾ ਜੋ ਟੁੱਟੇ ਹੋਏ ਹਨ.

ਸਭ ਤੋਂ ਪਹਿਲਾਂ ਕੰਮ ਕਰਨਾ ਹੈ a ਉਕਸਾਓ ਅਤੇ ਟੀਚੇ ਦੀ ਵੈਬਸਾਈਟ ਨੂੰ ਨਿਰਧਾਰਤ ਕਰੋ ਜਿਸਦੀ ਤੁਸੀਂ ਜਾਂਚ ਕਰਨਾ ਚਾਹੁੰਦੇ ਹੋ, ਫਿਰ ਸਕ੍ਰੈਪ ਨਿਰਦੇਸ਼ਾਂ ਲਈ ਹੇਠਾਂ ਦਿੱਤੇ ਕੋਡ ਦੀ ਵਰਤੋਂ ਕਰੋ.

        var urls = Page.getTagAttributes('href', {"tag":{"equals":"a"}});
        urls = Utility.Array.unique(urls);
        urls = Utility.Array.filter(urls, Data.readColumn("Links", "URL"));

        for (i = 0; i < urls.length; i++) 
        {
          var url = urls[i];

          Data.save(Page.getUrl(), "Links", "Found On");
          Data.save(url, "Links", "URL");

          if (Utility.URL.exists(url))
          {
            Data.save("Found", "Links", "Result");
          }
          else
          {
            Data.save("Missing", "Links", "Result");
          }
        }
    

ਪਹਿਲੀ ਲਾਈਨ var urls = Page.getTagAttributes('href', {"tag":{"equals":"a"}}); ਸਾਰੇ ਹਾਈਪਰਲਿੰਕ ਯੂਆਰਐਲ ਐਕਸਟਰੈਕਟ ਕਰਦਾ ਹੈ ਅਤੇ ਉਹਨਾਂ ਵਿੱਚ ਪਾ ਦਿੰਦਾ ਹੈ urls ਪਰਿਵਰਤਨਸ਼ੀਲ. ਅਗਲੀ ਲਾਈਨ ਸਹੂਲਤ.ਅਰੇ.ਯੂਨੀਕ ਸਾਰੇ ਯੂਆਰਐਲ ਨੂੰ ਵਿਲੱਖਣ ਬਣਾਉਣ ਦਾ ਤਰੀਕਾ.

ਤੀਜੀ ਲਾਈਨ ਇਹ ਸੁਨਿਸ਼ਚਿਤ ਕਰਦੀ ਹੈ ਕਿ ਲਿੰਕਾਂ ਨੂੰ ਦੋ ਵਾਰ ਚੈੱਕ ਨਹੀਂ ਕੀਤਾ ਜਾ ਰਿਹਾ ਹੈ ਅਜਿਹਾ ਕਰਨ ਲਈ ਅਸੀਂ ਯੂਆਰਐਲ ਦੇ ਪਹਿਲਾਂ ਪੜ੍ਹ ਚੁੱਕੇ ਹਾਂ saveਡੀ ਅਤੇ ਇਸ ਨਾਲ ਕੱractedੇ ਲਿੰਕ ਨੂੰ ਫਿਲਟਰ ਕਰੋ. ਜੇ ਤੁਸੀਂ ਚਾਹੁੰਦੇ ਹੋ ਕਿ ਹਰ ਪੰਨੇ 'ਤੇ ਇਕ ਲਿੰਕ ਟੁੱਟ ਗਿਆ ਹੈ ਤਾਂ ਇਸ ਲਾਈਨ ਨੂੰ ਮਿਟਾਓ.

ਯੂਆਰਐਲ ਡਾਟਾ ਸਾਫ਼ ਕਰਨ ਤੋਂ ਬਾਅਦ ਅਸੀਂ ਬਾਕੀ ਬਚੇ ਯੂਆਰਐਲ ਨੂੰ ਪਾਸਪੇਟ ਕਰਕੇ ਇਸ ਨੂੰ ਡੇਟਾਸੇਟ ਵਰਤਮਾਨ ਪੇਜ ਦੇ ਨਾਲ, ਜਾਂਚ ਕਰਨ ਤੋਂ ਪਹਿਲਾਂ ਕਿ ਕੀ URL ਦੀ ਵਰਤੋਂ ਕਰਕੇ ਮੌਜੂਦ ਹੈ Utility.URL.exists .ੰਗ. ਇਸ ਚੈਕ ਦਾ ਨਤੀਜਾ ਫਿਰ ਹੈ saveਡੈਟਾਸੇਟ ਵਿਚ ਡੀ.

ਵਿਕਲਪਿਕ ਤੌਰ ਤੇ ਤੁਸੀਂ ਜਾਂਚ ਕਰ ਸਕਦੇ ਹੋ ਕਿ ਕੋਡ ਨੂੰ ਬਦਲ ਕੇ ਕੋਈ ਵੈੱਬਸਾਈਟ ਚਿੱਤਰ ਮੌਜੂਦ ਹਨ Page.getTagAttributes('href', {"tag":{"equals":"a"}}); ਨਾਲ Page.getTagAttributes('src', {"tag":{"equals":"img"}});.