ਵੈੱਬ ਨੂੰ ਕੈਪਚਰ ਅਤੇ ਕਨਵਰਟ ਕਰਨ ਲਈ ਟੂਲ

ਗੈਰ ਸੰਗਠਿਤ ਟੈਕਸਟ ਤੋਂ ਸਵੈਚਾਲਤ Autoਾਂਚਾਗਤ ਜਾਣਕਾਰੀ ਕਿਵੇਂ ਕੱractੀਏ?

ਸਧਾਰਣ ਲਿਖਤ ਪਾਠ ਵਿਚ ਬਹੁਤ ਸਾਰੀ ਜਾਣਕਾਰੀ ਸ਼ਾਮਲ ਹੋ ਸਕਦੀ ਹੈ ਜੋ ਅਸਾਨੀ ਨਾਲ ਕੱractਣਯੋਗ ਨਹੀਂ ਹੁੰਦੀ. ਉਦਾਹਰਣ ਵਜੋਂ ਇੱਕ ਵਾਕ ਸ਼ਾਇਦ ਕਿਸੇ ਕੰਪਨੀ ਬਾਰੇ ਸਮੀਖਿਆ ਕਰਦਾ ਹੈ ਪਰ ਤੁਸੀਂ ਕਿਵੇਂ ਜਾਣਦੇ ਹੋ ਕਿ ਇਹ ਚੰਗੀ ਹੈ ਜਾਂ ਮਾੜੀ ਸਮੀਖਿਆ?

ਸਧਾਰਣ ਵੈੱਬ ਸਕ੍ਰੈਪਰ ਇਸ ਜਾਣਕਾਰੀ ਨੂੰ ਬਾਹਰ ਕੱ .ਣ ਦੇ ਯੋਗ ਨਹੀਂ ਹੁੰਦਾ. ਹਾਲਾਂਕਿ ਗਰੈਬਜ਼ਟ ਇਸ ਦੀ ਵਰਤੋਂ ਕਰਕੇ ਇਸ ਨੂੰ ਕੁਦਰਤੀ ਭਾਸ਼ਾ ਪ੍ਰੋਸੈਸਿੰਗ ਯੋਗਤਾਵਾਂ ਵਿੱਚ ਬਣਾਇਆ ਜਾ ਸਕਦਾ ਹੈ. ਜਿਵੇਂ ਕਿ ਹੇਠਾਂ ਦਿੱਤੀ ਉਦਾਹਰਣ ਵਿੱਚ ਦਿਖਾਇਆ ਗਿਆ ਹੈ, ਪੇਜ ਟੈਕਸਟ ਦਾ ਵਿਸ਼ਲੇਸ਼ਣ ਕੀਤਾ ਗਿਆ ਹੈ ਅਤੇ ਹੇਠਾਂ ਦਿੱਤੇ ਇੱਕ ਮੁੱਲ ਨੂੰ ਬਹੁਤ ਨਕਾਰਾਤਮਕ, ਨਕਾਰਾਤਮਕ, ਨਿਰਪੱਖ, ਸਕਾਰਾਤਮਕ ਅਤੇ ਬਹੁਤ ਸਕਾਰਾਤਮਕ ਵਾਪਸ ਕਰਦਾ ਹੈ.

Data.save(Utility.Text.extractSentiment(Page.getText()), 'Dataset', 'Sentiment');

ਪਰ ਗਰੈਬਜ਼ਿਟ ਦਾ ਵੈਬ ਸਕ੍ਰੈਪਰ ਭਾਸ਼ਾ ਖੋਜ, ਸਥਾਨਾਂ ਦੇ ਨਾਮ, ਲੋਕਾਂ ਦੇ ਨਾਮ ਅਤੇ ਸੰਗਠਨਾਂ ਦੇ ਨਾਮ ਸਮੇਤ ਟੈਕਸਟ ਤੋਂ ਹੋਰ ਵੀ ਬਹੁਤ ਕੁਝ ਕੱ. ਸਕਦਾ ਹੈ. ਜਿਸ ਦੀਆਂ ਉਦਾਹਰਣਾਂ ਹੇਠਾਂ ਦਰਸਾਈਆਂ ਗਈਆਂ ਹਨ.

//Language Detection
Data.save(Utility.Text.extractLanguageName(Page.getText()), 'Dataset', 'Language');
//Identify Geographic Locations
Data.save(Utility.Text.extractLocations(Page.getText()), 'Dataset', 'Locations');
//Identify People's Names
Data.save(Utility.Text.extractNames(Page.getText()), 'Dataset', 'Names');
//Identify Organizations Names
Data.save(Utility.Text.extractOrganizations(Page.getText()), 'Dataset', 'Organizations');

ਤੁਹਾਨੂੰ ਇਹਨਾਂ ਵਿੱਚੋਂ ਕੋਈ ਵੀ ਸਕ੍ਰੈਪ ਨਿਰਦੇਸ਼ ਆਪਣੇ ਆਪ ਲਿਖਣ ਦੀ ਜ਼ਰੂਰਤ ਨਹੀਂ ਹੈ, ਕਿਉਂਕਿ ਜਦੋਂ ਉਹ ਸਾਡੇ ਸਕ੍ਰੈਪਰ ਵਿਜ਼ਾਰਡ ਵਿੱਚ ਲਾਗੂ ਹੋਣ ਵਾਲੇ HTML ਐਲੀਮੈਂਟ ਦੀ ਚੋਣ ਕਰਦੇ ਹਨ ਤਾਂ ਉਹ ਆਪਣੇ ਆਪ ਪ੍ਰਗਟ ਹੋਣਗੇ.