ਸਧਾਰਣ ਲਿਖਤ ਪਾਠ ਵਿਚ ਬਹੁਤ ਸਾਰੀ ਜਾਣਕਾਰੀ ਸ਼ਾਮਲ ਹੋ ਸਕਦੀ ਹੈ ਜੋ ਅਸਾਨੀ ਨਾਲ ਕੱractਣਯੋਗ ਨਹੀਂ ਹੁੰਦੀ. ਉਦਾਹਰਣ ਵਜੋਂ ਇੱਕ ਵਾਕ ਸ਼ਾਇਦ ਕਿਸੇ ਕੰਪਨੀ ਬਾਰੇ ਸਮੀਖਿਆ ਕਰਦਾ ਹੈ ਪਰ ਤੁਸੀਂ ਕਿਵੇਂ ਜਾਣਦੇ ਹੋ ਕਿ ਇਹ ਚੰਗੀ ਹੈ ਜਾਂ ਮਾੜੀ ਸਮੀਖਿਆ?
ਸਧਾਰਣ ਵੈੱਬ ਸਕ੍ਰੈਪਰ ਇਸ ਜਾਣਕਾਰੀ ਨੂੰ ਬਾਹਰ ਕੱ .ਣ ਦੇ ਯੋਗ ਨਹੀਂ ਹੁੰਦਾ. ਹਾਲਾਂਕਿ ਗਰੈਬਜ਼ਟ ਇਸ ਦੀ ਵਰਤੋਂ ਕਰਕੇ ਇਸ ਨੂੰ ਕੁਦਰਤੀ ਭਾਸ਼ਾ ਪ੍ਰੋਸੈਸਿੰਗ ਯੋਗਤਾਵਾਂ ਵਿੱਚ ਬਣਾਇਆ ਜਾ ਸਕਦਾ ਹੈ. ਜਿਵੇਂ ਕਿ ਹੇਠਾਂ ਦਿੱਤੀ ਉਦਾਹਰਣ ਵਿੱਚ ਦਿਖਾਇਆ ਗਿਆ ਹੈ, ਪੇਜ ਟੈਕਸਟ ਦਾ ਵਿਸ਼ਲੇਸ਼ਣ ਕੀਤਾ ਗਿਆ ਹੈ ਅਤੇ ਹੇਠਾਂ ਦਿੱਤੇ ਇੱਕ ਮੁੱਲ ਨੂੰ ਬਹੁਤ ਨਕਾਰਾਤਮਕ, ਨਕਾਰਾਤਮਕ, ਨਿਰਪੱਖ, ਸਕਾਰਾਤਮਕ ਅਤੇ ਬਹੁਤ ਸਕਾਰਾਤਮਕ ਵਾਪਸ ਕਰਦਾ ਹੈ.
Data.save(Utility.Text.extractSentiment(Page.getText()), 'Dataset', 'Sentiment');
ਪਰ ਗਰੈਬਜ਼ਿਟ ਦਾ ਵੈਬ ਸਕ੍ਰੈਪਰ ਭਾਸ਼ਾ ਖੋਜ, ਸਥਾਨਾਂ ਦੇ ਨਾਮ, ਲੋਕਾਂ ਦੇ ਨਾਮ ਅਤੇ ਸੰਗਠਨਾਂ ਦੇ ਨਾਮ ਸਮੇਤ ਟੈਕਸਟ ਤੋਂ ਹੋਰ ਵੀ ਬਹੁਤ ਕੁਝ ਕੱ. ਸਕਦਾ ਹੈ. ਜਿਸ ਦੀਆਂ ਉਦਾਹਰਣਾਂ ਹੇਠਾਂ ਦਰਸਾਈਆਂ ਗਈਆਂ ਹਨ.
//Language Detection Data.save(Utility.Text.extractLanguageName(Page.getText()), 'Dataset', 'Language'); //Identify Geographic Locations Data.save(Utility.Text.extractLocations(Page.getText()), 'Dataset', 'Locations'); //Identify People's Names Data.save(Utility.Text.extractNames(Page.getText()), 'Dataset', 'Names'); //Identify Organizations Names Data.save(Utility.Text.extractOrganizations(Page.getText()), 'Dataset', 'Organizations');
ਤੁਹਾਨੂੰ ਇਹਨਾਂ ਵਿੱਚੋਂ ਕੋਈ ਵੀ ਸਕ੍ਰੈਪ ਨਿਰਦੇਸ਼ ਆਪਣੇ ਆਪ ਲਿਖਣ ਦੀ ਜ਼ਰੂਰਤ ਨਹੀਂ ਹੈ, ਕਿਉਂਕਿ ਜਦੋਂ ਉਹ ਸਾਡੇ ਸਕ੍ਰੈਪਰ ਵਿਜ਼ਾਰਡ ਵਿੱਚ ਲਾਗੂ ਹੋਣ ਵਾਲੇ HTML ਐਲੀਮੈਂਟ ਦੀ ਚੋਣ ਕਰਦੇ ਹਨ ਤਾਂ ਉਹ ਆਪਣੇ ਆਪ ਪ੍ਰਗਟ ਹੋਣਗੇ.