PDF ਦਸਤਾਵੇਜ਼ਾਂ ਦੀ ਸਮੱਗਰੀ ਤੋਂ ਡੇਟਾ ਨੂੰ ਖਤਮ ਕਰਨਾ ਇੰਨਾ ਲਚਕਦਾਰ ਨਹੀਂ ਹੈ ਜਿੰਨਾ ਕਿ HTML ਦਸਤਾਵੇਜ਼ਾਂ ਤੋਂ ਕਰਨਾ ਇਸ ਤਰਾਂ ਹੈ ਪਰ ਅਜੇ ਵੀ ਬਹੁਤ ਸਾਰੇ ਤਰੀਕੇ ਹਨ ਜੋ ਇਸਦੀ ਵਰਤੋਂ ਕਰਕੇ ਪ੍ਰਾਪਤ ਕੀਤੇ ਜਾ ਸਕਦੇ ਹਨ ਗਰੈਬਜ਼ਿਟ ਦਾ ਵੈਬ ਸਕ੍ਰੈਪਰ. ਪੀਡੀਐਫ ਸਮਗਰੀ ਨੂੰ ਖੁਰਚਣ ਤੋਂ ਪਹਿਲਾਂ ਜਿਸ ਦੀ ਤੁਸੀਂ ਵਰਤੋਂ ਕਰਦੇ ਹੋ PDF
ਕਾਰਜ ਦੀ ਬਜਾਏ Page
ਫੰਕਸ਼ਨ, ਪਰ ਨਹੀਂ ਤਾਂ ਫੰਕਸ਼ਨ ਆਮ ਤੌਰ 'ਤੇ ਉਸੇ ਤਰ੍ਹਾਂ ਕੰਮ ਕਰਦੇ ਹਨ.
ਇੱਕ PDF ਦਸਤਾਵੇਜ਼ ਲਈ ਇੱਕ ਫਿਲਟਰ ਇੱਕ HTML ਦਸਤਾਵੇਜ਼ ਦੇ ਲਈ ਇਸ ਤੋਂ ਬਹੁਤ ਸੌਖਾ ਹੈ ਸਭ ਤੋਂ ਪਹਿਲਾਂ ਤੁਹਾਨੂੰ ਇਹ ਨਿਰਧਾਰਤ ਕਰਨਾ ਪਏਗਾ ਕਿ ਤੁਸੀਂ ਕਿਸ ਕਿਸਮ ਦੀ ਸਮੱਗਰੀ ਕੱractਣੀ ਚਾਹੁੰਦੇ ਹੋ: ਲਿੰਕ, ਚਿੱਤਰ ਜਾਂ ਟੈਕਸਟ.
//Extract images PDF.getValue({"type":"image"}); //Extract links PDF.getValue({"type":"link"}); //Extract text PDF.getValue({"type":"text"});
ਲਿੰਕ ਅਤੇ ਚਿੱਤਰਾਂ ਲਈ ਤੁਸੀਂ ਇਸ ਨੂੰ ਸੀਮਤ ਕਰ ਸਕਦੇ ਹੋ ਕਿ ਕਿਹੜੀ ਸਥਿਤੀ ਜਾਂ ਲਿੰਕ ਨੂੰ ਇਸਦੀ ਸਥਿਤੀ ਦੱਸ ਕੇ ਵਾਪਸ ਕੀਤਾ ਜਾਂਦਾ ਹੈ.
PDF.getValue({"type":"image","position":"2"});
ਇੱਕ ਦਸਤਾਵੇਜ਼ ਵਿੱਚ ਦੂਜਾ ਚਿੱਤਰ ਪ੍ਰਾਪਤ ਕਰਦਾ ਹੈ. ਟੈਕਸਟ, ਚਿੱਤਰਾਂ ਅਤੇ ਲਿੰਕਾਂ ਲਈ ਤੁਸੀਂ ਇੱਕ ਪੰਨਾ ਨੰਬਰ ਦਰਸਾਉਂਦੇ ਹੋਏ ਵਾਪਸ ਕੀਤੇ ਗਏ ਡੇਟਾ ਤੇ ਪਾਬੰਦੀ ਲਗਾ ਸਕਦੇ ਹੋ.
PDF.getValue({"type":"image","position":"2","page":"5"});
ਇਹ ਪੰਜਵੇਂ ਪੇਜ ਤੋਂ ਦੂਜੀ ਤਸਵੀਰ ਵਾਪਸ ਕਰੇਗਾ. ਟੈਕਸਟ ਲਾਈਨ ਨੰਬਰ ਦੇ ਸ਼ਾਮਲ ਕੀਤੇ ਵਿਕਲਪ ਦੇ ਨਾਲ ਆਉਂਦਾ ਹੈ, ਹਾਲਾਂਕਿ ਟੈਕਸਟ ਸਥਿਤੀ ਦਾ ਸਮਰਥਨ ਨਹੀਂ ਕਰਦਾ.
PDF.getValue({"type":"text","page":"5","line":"10"});
ਇਹ ਪੰਜਵੇਂ ਪੰਨੇ ਤੋਂ ਪਾਠ ਦੀ ਦਸਵੀਂ ਲਾਈਨ ਪ੍ਰਾਪਤ ਕਰਦਾ ਹੈ. ਇਹਨਾਂ ਫਿਲਟਰ ਵਿਕਲਪਾਂ ਤੋਂ ਇਲਾਵਾ ਪੀਡੀਐਫ ਦਸਤਾਵੇਜ਼ਾਂ ਵਿਚੋਂ ਡੇਟਾ ਨੂੰ ਸਕ੍ਰੈਪਿੰਗ ਕਰਨ ਦੇ ਤਰੀਕੇ ਬਹੁਤ ਕੰਮ ਕਰਦੇ ਹਨ HTML ਦਸਤਾਵੇਜ਼ਾਂ ਤੋਂ ਡੇਟਾ ਨੂੰ ਸਕ੍ਰੈਪ ਕਰਨਾਹਾਲਾਂਕਿ, ਕਿਉਂਕਿ ਤੁਸੀਂ ਐਨਾ ਖਾਸ ਨਹੀਂ ਹੋ ਸਕਦੇ ਕਿ ਤੁਸੀਂ ਇੱਕ ਪੀਡੀਐਫ ਫਿਲਟਰ ਨਾਲ ਕੀ ਕੱractਦੇ ਹੋ ਜਿਸ ਲਈ ਤੁਹਾਨੂੰ ਇੱਕ ਨਿਰਧਾਰਤ ਕਰਨ ਦੀ ਜ਼ਰੂਰਤ ਹੋ ਸਕਦੀ ਹੈ ਪੈਟਰਨ ਟੈਕਸਟ ਤੋਂ ਸਹੀ ਜਾਣਕਾਰੀ ਕੱ toਣ ਲਈ.