ਵੈੱਬ ਨੂੰ ਕੈਪਚਰ ਅਤੇ ਕਨਵਰਟ ਕਰਨ ਲਈ ਟੂਲ

PDF ਦਸਤਾਵੇਜ਼ਾਂ ਤੋਂ ਡਾਟਾ ਕੱ data ਰਿਹਾ ਹੈ

PDF ਦਸਤਾਵੇਜ਼ਾਂ ਦੀ ਸਮੱਗਰੀ ਤੋਂ ਡੇਟਾ ਨੂੰ ਖਤਮ ਕਰਨਾ ਇੰਨਾ ਲਚਕਦਾਰ ਨਹੀਂ ਹੈ ਜਿੰਨਾ ਕਿ HTML ਦਸਤਾਵੇਜ਼ਾਂ ਤੋਂ ਕਰਨਾ ਇਸ ਤਰਾਂ ਹੈ ਪਰ ਅਜੇ ਵੀ ਬਹੁਤ ਸਾਰੇ ਤਰੀਕੇ ਹਨ ਜੋ ਇਸਦੀ ਵਰਤੋਂ ਕਰਕੇ ਪ੍ਰਾਪਤ ਕੀਤੇ ਜਾ ਸਕਦੇ ਹਨ ਗਰੈਬਜ਼ਿਟ ਦਾ ਵੈਬ ਸਕ੍ਰੈਪਰ. ਪੀਡੀਐਫ ਸਮਗਰੀ ਨੂੰ ਖੁਰਚਣ ਤੋਂ ਪਹਿਲਾਂ ਜਿਸ ਦੀ ਤੁਸੀਂ ਵਰਤੋਂ ਕਰਦੇ ਹੋ PDF ਕਾਰਜ ਦੀ ਬਜਾਏ Page ਫੰਕਸ਼ਨ, ਪਰ ਨਹੀਂ ਤਾਂ ਫੰਕਸ਼ਨ ਆਮ ਤੌਰ 'ਤੇ ਉਸੇ ਤਰ੍ਹਾਂ ਕੰਮ ਕਰਦੇ ਹਨ.

ਇੱਕ PDF ਦਸਤਾਵੇਜ਼ ਲਈ ਇੱਕ ਫਿਲਟਰ ਇੱਕ HTML ਦਸਤਾਵੇਜ਼ ਦੇ ਲਈ ਇਸ ਤੋਂ ਬਹੁਤ ਸੌਖਾ ਹੈ ਸਭ ਤੋਂ ਪਹਿਲਾਂ ਤੁਹਾਨੂੰ ਇਹ ਨਿਰਧਾਰਤ ਕਰਨਾ ਪਏਗਾ ਕਿ ਤੁਸੀਂ ਕਿਸ ਕਿਸਮ ਦੀ ਸਮੱਗਰੀ ਕੱractਣੀ ਚਾਹੁੰਦੇ ਹੋ: ਲਿੰਕ, ਚਿੱਤਰ ਜਾਂ ਟੈਕਸਟ.

//Extract images
PDF.getValue({"type":"image"});
//Extract links
PDF.getValue({"type":"link"});
//Extract text
PDF.getValue({"type":"text"});

ਲਿੰਕ ਅਤੇ ਚਿੱਤਰਾਂ ਲਈ ਤੁਸੀਂ ਇਸ ਨੂੰ ਸੀਮਤ ਕਰ ਸਕਦੇ ਹੋ ਕਿ ਕਿਹੜੀ ਸਥਿਤੀ ਜਾਂ ਲਿੰਕ ਨੂੰ ਇਸਦੀ ਸਥਿਤੀ ਦੱਸ ਕੇ ਵਾਪਸ ਕੀਤਾ ਜਾਂਦਾ ਹੈ.

PDF.getValue({"type":"image","position":"2"});

ਇੱਕ ਦਸਤਾਵੇਜ਼ ਵਿੱਚ ਦੂਜਾ ਚਿੱਤਰ ਪ੍ਰਾਪਤ ਕਰਦਾ ਹੈ. ਟੈਕਸਟ, ਚਿੱਤਰਾਂ ਅਤੇ ਲਿੰਕਾਂ ਲਈ ਤੁਸੀਂ ਇੱਕ ਪੰਨਾ ਨੰਬਰ ਦਰਸਾਉਂਦੇ ਹੋਏ ਵਾਪਸ ਕੀਤੇ ਗਏ ਡੇਟਾ ਤੇ ਪਾਬੰਦੀ ਲਗਾ ਸਕਦੇ ਹੋ.

PDF.getValue({"type":"image","position":"2","page":"5"});

ਇਹ ਪੰਜਵੇਂ ਪੇਜ ਤੋਂ ਦੂਜੀ ਤਸਵੀਰ ਵਾਪਸ ਕਰੇਗਾ. ਟੈਕਸਟ ਲਾਈਨ ਨੰਬਰ ਦੇ ਸ਼ਾਮਲ ਕੀਤੇ ਵਿਕਲਪ ਦੇ ਨਾਲ ਆਉਂਦਾ ਹੈ, ਹਾਲਾਂਕਿ ਟੈਕਸਟ ਸਥਿਤੀ ਦਾ ਸਮਰਥਨ ਨਹੀਂ ਕਰਦਾ.

PDF.getValue({"type":"text","page":"5","line":"10"});

ਇਹ ਪੰਜਵੇਂ ਪੰਨੇ ਤੋਂ ਪਾਠ ਦੀ ਦਸਵੀਂ ਲਾਈਨ ਪ੍ਰਾਪਤ ਕਰਦਾ ਹੈ. ਇਹਨਾਂ ਫਿਲਟਰ ਵਿਕਲਪਾਂ ਤੋਂ ਇਲਾਵਾ ਪੀਡੀਐਫ ਦਸਤਾਵੇਜ਼ਾਂ ਵਿਚੋਂ ਡੇਟਾ ਨੂੰ ਸਕ੍ਰੈਪਿੰਗ ਕਰਨ ਦੇ ਤਰੀਕੇ ਬਹੁਤ ਕੰਮ ਕਰਦੇ ਹਨ HTML ਦਸਤਾਵੇਜ਼ਾਂ ਤੋਂ ਡੇਟਾ ਨੂੰ ਸਕ੍ਰੈਪ ਕਰਨਾਹਾਲਾਂਕਿ, ਕਿਉਂਕਿ ਤੁਸੀਂ ਐਨਾ ਖਾਸ ਨਹੀਂ ਹੋ ਸਕਦੇ ਕਿ ਤੁਸੀਂ ਇੱਕ ਪੀਡੀਐਫ ਫਿਲਟਰ ਨਾਲ ਕੀ ਕੱractਦੇ ਹੋ ਜਿਸ ਲਈ ਤੁਹਾਨੂੰ ਇੱਕ ਨਿਰਧਾਰਤ ਕਰਨ ਦੀ ਜ਼ਰੂਰਤ ਹੋ ਸਕਦੀ ਹੈ ਪੈਟਰਨ ਟੈਕਸਟ ਤੋਂ ਸਹੀ ਜਾਣਕਾਰੀ ਕੱ toਣ ਲਈ.