ਗਰੈਬਜ਼ਿਟ ਦਾ ਵੈਬ ਸਕ੍ਰੈਪਰ ਕਿਸੇ ਵੈਬਸਾਈਟ ਤੋਂ ਈਮੇਲ ਪਤੇ ਕੱractਣਾ ਸੌਖਾ ਬਣਾਉਣ ਲਈ ਕਈ ਵਿਸ਼ੇਸ਼ ਸਹੂਲਤਾਂ ਦੇ providesੰਗ ਪ੍ਰਦਾਨ ਕਰਦੇ ਹਨ. ਹੇਠਾਂ ਦਿੱਤੀ ਉਦਾਹਰਣ ਵੈਬ ਪੇਜ ਤੋਂ ਸਾਰੀ HTML ਸਮੱਗਰੀ ਪ੍ਰਾਪਤ ਕਰਦੀ ਹੈ ਅਤੇ ਫਿਰ ਇਸ ਨੂੰ ਪਾਸ ਕਰਦੀ ਹੈ Utility.Text.extractAddresses
ਪਤੇ ਨੂੰ ਸੁਰੱਖਿਅਤ ਕਰਨ ਤੋਂ ਪਹਿਲਾਂ ਸਾਰੇ ਵੈਧ ਈਮੇਲ ਪਤਿਆਂ ਨੂੰ ਲੱਭਣ ਦਾ ਤਰੀਕਾ intਓਏ ਡੈਟਾਸੇਟ, ਜੋ ਫਿਰ ਉਪਭੋਗਤਾ ਨੂੰ ਭੇਜਿਆ ਜਾਂਦਾ ਹੈ.
ਇਸ ਦੇ ਉਲਟ, ਸਿਰਫ ਪਹਿਲੇ ਮੇਲ ਮੇਲ ਪਤੇ ਨੂੰ ਵਰਤ ਕੇ ਕੱractedਿਆ ਜਾ ਸਕਦਾ ਹੈ Utility.Text.extractAddress
ਵਿਧੀ
Data.save(Utility.Text.extractAddresses(Page.getHtml()));
ਪੀ ਡੀ ਐਫ ਦਸਤਾਵੇਜ਼ ਵੀ ਖਤਮ ਕੀਤੇ ਜਾ ਸਕਦੇ ਹਨ ਈਮੇਲ ਪਤਿਆਂ ਲਈ ਇਕੋ ਤਰੀਕੇ ਨਾਲ ਕਿਵੇਂ ਵੈਬ ਪੇਜਾਂ ਨੂੰ ਸਕ੍ਰੈਪ ਕੀਤਾ ਜਾਂਦਾ ਹੈ. ਜਿਵੇਂ ਕਿ ਤੁਸੀਂ ਹੇਠਾਂ ਦਿੱਤੀ ਉਦਾਹਰਣ ਵਿੱਚ ਵੇਖ ਸਕਦੇ ਹੋ ਪ੍ਰਕਿਰਿਆ ਬਿਲਕੁਲ ਉਹੀ ਹੈ ਸਿਵਾਏ ਇਸਦੇ PDF.getText()
methodੰਗ ਦੀ ਬਜਾਏ ਵਰਤਿਆ ਜਾਂਦਾ ਹੈ Page.getHtml()
ਵਿਧੀ
Data.save(Utility.Text.extractAddresses(PDF.getText()));
ਗਰੈਬਜ਼ਿਟ ਵਿਚ ਯੋਗਤਾ ਹੈ ਚਿੱਤਰਾਂ ਤੋਂ ਟੈਕਸਟ ਕੱractੋ ਇਸਦਾ ਅਰਥ ਇਹ ਹੈ ਕਿ ਚਿੱਤਰਾਂ ਤੋਂ ਈਮੇਲ ਪਤੇ ਕੱractਣ ਲਈ ਵੀ ਇਸ ਯੋਗਤਾ ਦਾ ਲਾਭ ਲਿਆ ਜਾ ਸਕਦਾ ਹੈ. ਹੇਠਾਂ ਦਿੱਤੀ ਉਦਾਹਰਣ ਵੈਬ ਪੇਜ ਤੇ ਸਾਰੇ ਚਿੱਤਰਾਂ ਦੇ ਕਿਸੇ ਵੀ ਈਮੇਲ ਪਤੇ ਨੂੰ ਕੱractsਦੀ ਹੈ.
Data.save(Utility.Text.extractAddresses(Utility.Image.extractText(Page.getTagAttributes('src', {"tag":{"equals":"img"}}))));
ਜਦੋਂ ਕਿ ਹੇਠਾਂ ਦਿੱਤੀਆਂ ਗਈਆਂ ਖੁਰਚੀਆਂ ਹਿਦਾਇਤਾਂ ਪੀ ਡੀ ਐੱਫ ਦਸਤਾਵੇਜ਼ਾਂ ਵਿਚ ਪਾਏ ਗਏ ਚਿੱਤਰਾਂ ਵਿਚੋਂ ਕੋਈ ਈਮੇਲ ਐਡਰੈੱਸ ਕੱ extਦੀਆਂ ਹਨ.
Data.save(Utility.Text.extractAddresses(Utility.Image.extractText(PDF.getValue({"type":"image"}))));