ਸੇਮਲਟ ਨੇ ਵੈਬਸਾਈਟਾਂ ਤੋਂ ਜਾਣਕਾਰੀ ਕੱractਣ ਦਾ ਸੌਖਾ ਤਰੀਕਾ ਸਾਂਝਾ ਕੀਤਾ

ਵੈਬ ਸਕ੍ਰੈਪਿੰਗ ਵੈਬਸਾਈਟਾਂ ਤੋਂ ਸਮੱਗਰੀ ਪ੍ਰਾਪਤ ਕਰਨ ਦਾ ਇੱਕ ਪ੍ਰਸਿੱਧ .ੰਗ ਹੈ. ਇਕ ਵਿਸ਼ੇਸ਼ ਤੌਰ 'ਤੇ ਯੋਜਨਾਬੱਧ ਐਲਗੋਰਿਦਮ ਸਾਈਟ ਦੇ ਮੁੱਖ ਪੰਨੇ' ਤੇ ਆਉਂਦਾ ਹੈ ਅਤੇ ਸਾਰੇ ਅੰਦਰੂਨੀ ਲਿੰਕਾਂ ਦੀ ਪਾਲਣਾ ਕਰਨਾ ਅਰੰਭ ਕਰਦਾ ਹੈ, ਤੁਹਾਡੇ ਦੁਆਰਾ ਨਿਰਧਾਰਤ ਕੀਤੇ ਡਿਵ ਦੇ ਅੰਦਰੂਨੀ ਇਕੱਠਿਆਂ. ਨਤੀਜੇ ਵੱਜੋਂ - ਤਿਆਰ ਸੀਐਸਵੀ ਫਾਈਲ ਜਿਸ ਵਿੱਚ ਸਾਰੀ ਲੋੜੀਂਦੀ ਜਾਣਕਾਰੀ ਸਖਤ ਕ੍ਰਮ ਵਿੱਚ ਪਈ ਹੈ. ਨਤੀਜੇ ਵਜੋਂ ਆਉਣ ਵਾਲੀਆਂ ਸੀਐਸਵੀ ਦੀ ਵਰਤੋਂ ਭਵਿੱਖ ਵਿੱਚ ਲਗਭਗ ਵਿਲੱਖਣ ਸਮਗਰੀ ਬਣਾਉਣ ਲਈ ਕੀਤੀ ਜਾ ਸਕਦੀ ਹੈ. ਅਤੇ ਆਮ ਤੌਰ ਤੇ, ਇੱਕ ਟੇਬਲ ਦੇ ਰੂਪ ਵਿੱਚ, ਅਜਿਹੇ ਡੇਟਾ ਦੀ ਬਹੁਤ ਕੀਮਤ ਹੁੰਦੀ ਹੈ. ਕਲਪਨਾ ਕਰੋ ਕਿ ਇਕ ਨਿਰਮਾਣ ਦੁਕਾਨ ਦੀ ਪੂਰੀ ਉਤਪਾਦ ਸੂਚੀ ਇੱਕ ਟੇਬਲ ਵਿੱਚ ਪੇਸ਼ ਕੀਤੀ ਗਈ ਹੈ. ਇਸ ਤੋਂ ਇਲਾਵਾ, ਹਰੇਕ ਉਤਪਾਦ ਲਈ, ਉਤਪਾਦ ਦੇ ਹਰੇਕ ਕਿਸਮ ਅਤੇ ਬ੍ਰਾਂਡ ਲਈ, ਸਾਰੇ ਖੇਤਰ ਅਤੇ ਵਿਸ਼ੇਸ਼ਤਾਵਾਂ ਭਰੀਆਂ ਜਾਂਦੀਆਂ ਹਨ. Storeਨਲਾਈਨ ਸਟੋਰ ਲਈ ਕੰਮ ਕਰਨ ਵਾਲਾ ਕੋਈ ਵੀ ਕਾੱਪੀਰਾਈਟਰ ਅਜਿਹੀ ਸੀਐਸਵੀ ਫਾਈਲ ਕਰਕੇ ਖੁਸ਼ ਹੋਵੇਗਾ.

ਵੈਬਸਾਈਟਾਂ ਜਾਂ ਵੈਬ ਸਕ੍ਰੈਪਿੰਗ ਤੋਂ ਡਾਟਾ ਕੱractਣ ਲਈ ਬਹੁਤ ਸਾਰੇ ਸਾਧਨ ਹਨ ਅਤੇ ਚਿੰਤਾ ਨਾ ਕਰੋ ਜੇ ਤੁਸੀਂ ਕਿਸੇ ਪ੍ਰੋਗ੍ਰਾਮਿੰਗ ਭਾਸ਼ਾਵਾਂ ਤੋਂ ਜਾਣੂ ਨਹੀਂ ਹੋ, ਤਾਂ ਇਸ ਲੇਖ ਵਿਚ ਮੈਂ ਇਕ ਸੌਖਾ ਤਰੀਕਾ ਦਿਖਾਵਾਂਗਾ - ਸਕ੍ਰੈਪਿੰਗਹਬ ਦੀ ਵਰਤੋਂ ਕਰਕੇ.

ਸਭ ਤੋਂ ਪਹਿਲਾਂ, scrapinghub.com, ਰਜਿਸਟਰ, ਅਤੇ ਲੌਗਇਨ ਤੇ ਜਾਓ.

ਤੁਹਾਡੀ ਸੰਸਥਾ ਬਾਰੇ ਅਗਲਾ ਕਦਮ ਹੁਣੇ ਛੱਡਿਆ ਜਾ ਸਕਦਾ ਹੈ.

ਫਿਰ ਤੁਸੀਂ ਆਪਣੀ ਪ੍ਰੋਫਾਈਲ ਤੇ ਪਹੁੰਚੋ. ਤੁਹਾਨੂੰ ਇੱਕ ਪ੍ਰੋਜੈਕਟ ਬਣਾਉਣ ਦੀ ਜ਼ਰੂਰਤ ਹੈ.

ਇੱਥੇ ਤੁਹਾਨੂੰ ਇੱਕ ਐਲਗੋਰਿਦਮ ਦੀ ਚੋਣ ਕਰਨ ਦੀ ਜ਼ਰੂਰਤ ਹੈ (ਅਸੀਂ ਐਲਗੋਰਿਦਮ "ਪੋਰਟੀਆ" ਦੀ ਵਰਤੋਂ ਕਰਾਂਗੇ) ਅਤੇ ਪ੍ਰੋਜੈਕਟ ਨੂੰ ਇੱਕ ਨਾਮ ਦੇਵਾਂਗੇ. ਆਓ ਇਸ ਨੂੰ ਕਿਸੇ ਤਰ੍ਹਾਂ ਅਸਾਧਾਰਣ ਕਹਿੰਦੇ ਹਾਂ. ਉਦਾਹਰਣ ਲਈ, "111".

ਹੁਣ ਅਸੀਂ ਐਲਗੋਰਿਦਮ ਦੇ ਕੰਮ ਕਰਨ ਵਾਲੀ ਜਗ੍ਹਾ ਵਿਚ ਪਹੁੰਚ ਜਾਂਦੇ ਹਾਂ ਜਿੱਥੇ ਤੁਹਾਨੂੰ ਉਸ ਵੈਬਸਾਈਟ ਦਾ URL ਟਾਈਪ ਕਰਨ ਦੀ ਜ਼ਰੂਰਤ ਹੁੰਦੀ ਹੈ ਜਿਸ ਤੋਂ ਤੁਸੀਂ ਡੇਟਾ ਕੱractਣਾ ਚਾਹੁੰਦੇ ਹੋ. ਫਿਰ "ਨਵਾਂ ਸਪਾਈਡਰ" ਤੇ ਕਲਿਕ ਕਰੋ.

ਅਸੀਂ ਉਸ ਪੰਨੇ 'ਤੇ ਜਾਵਾਂਗੇ ਜੋ ਇਕ ਉਦਾਹਰਣ ਵਜੋਂ ਕੰਮ ਕਰਨ ਜਾ ਰਿਹਾ ਹੈ. ਸਿਰਲੇਖ ਵਿੱਚ ਪਤਾ ਅਪਡੇਟ ਕੀਤਾ ਗਿਆ ਹੈ. "ਇਸ ਪੇਜ ਨੂੰ ਐਨੋਟੇਟ ਕਰੋ" ਤੇ ਕਲਿਕ ਕਰੋ.

ਆਪਣੇ ਮਾ mouseਸ ਕਰਸਰ ਨੂੰ ਸੱਜੇ ਭੇਜੋ, ਜੋ ਕਿ ਮੇਨੂ ਨੂੰ ਵਿਖਾਈ ਦੇਵੇਗਾ. ਇੱਥੇ ਅਸੀਂ "ਐਕਸਟਰੈਕਟਡ ਆਈਟਮ" ਟੈਬ ਵਿੱਚ ਦਿਲਚਸਪੀ ਰੱਖਦੇ ਹਾਂ, ਜਿੱਥੇ ਤੁਹਾਨੂੰ "ਆਈਟਮਾਂ ਸੋਧੋ" ਕਲਿੱਕ ਕਰਨ ਦੀ ਜ਼ਰੂਰਤ ਹੈ.

ਫਿਰ ਵੀ ਸਾਡੇ ਖੇਤਰਾਂ ਦੀ ਖਾਲੀ ਸੂਚੀ ਪ੍ਰਦਰਸ਼ਤ ਹੈ. "+ ਫੀਲਡ" ਤੇ ਕਲਿਕ ਕਰੋ.

ਇੱਥੇ ਸਭ ਕੁਝ ਸਧਾਰਣ ਹੈ: ਤੁਹਾਨੂੰ ਖੇਤਰਾਂ ਦੀ ਸੂਚੀ ਬਣਾਉਣ ਦੀ ਜ਼ਰੂਰਤ ਹੈ. ਹਰੇਕ ਆਈਟਮ ਲਈ, ਤੁਹਾਨੂੰ ਇੱਕ ਨਾਮ (ਇਸ ਕੇਸ ਵਿੱਚ, ਇੱਕ ਸਿਰਲੇਖ ਅਤੇ ਸਮਗਰੀ) ਦੇਣਾ ਪਵੇਗਾ, ਨਿਰਧਾਰਤ ਕਰੋ ਕਿ ਕੀ ਇਹ ਖੇਤਰ ਲੋੜੀਂਦਾ ਹੈ ("ਲੋੜੀਂਦਾ") ਅਤੇ ਕੀ ਇਹ ਵੱਖਰੇ ਹੋ ਸਕਦੇ ਹਨ ("ਵੱਖਰੇ"). ਜੇ ਤੁਸੀਂ ਨਿਰਧਾਰਤ ਕਰਦੇ ਹੋ ਕਿ ਇਕ ਚੀਜ਼ "ਲੋੜੀਂਦੀ" ਹੈ, ਤਾਂ ਐਲਗੋਰਿਦਮ ਕੇਵਲ ਉਹਨਾਂ ਪੰਨਿਆਂ ਨੂੰ ਛੱਡ ਦੇਵੇਗਾ ਜਿੱਥੇ ਇਹ ਇਸ ਖੇਤਰ ਨੂੰ ਨਹੀਂ ਭਰ ਸਕੇਗਾ. ਜੇ ਫਲੈਗ ਨਾ ਕੀਤਾ ਗਿਆ ਤਾਂ ਇਹ ਪ੍ਰਕਿਰਿਆ ਸਦਾ ਲਈ ਰਹਿ ਸਕਦੀ ਹੈ.

ਹੁਣ ਸਿਰਫ ਉਸ ਖੇਤ ਤੇ ਕਲਿਕ ਕਰੋ ਜਿਸਦੀ ਸਾਨੂੰ ਲੋੜ ਹੈ ਅਤੇ ਸੰਕੇਤ ਦਿਓ ਕਿ ਇਹ ਕੀ ਹੈ:

ਹੋ ਗਿਆ? ਫਿਰ ਵੈਬਸਾਈਟ ਦੇ ਸਿਰਲੇਖ ਵਿੱਚ "ਸੈਂਪਲ ਨੂੰ ਸੇਵ ਕਰੋ" ਤੇ ਕਲਿਕ ਕਰੋ. ਇਸ ਤੋਂ ਬਾਅਦ, ਤੁਸੀਂ ਕੰਮ ਕਰਨ ਵਾਲੀ ਥਾਂ ਤੇ ਵਾਪਸ ਜਾ ਸਕਦੇ ਹੋ. ਹੁਣ ਐਲਗੋਰਿਦਮ ਜਾਣਦਾ ਹੈ ਕਿ ਕੁਝ ਪ੍ਰਾਪਤ ਕਰਨਾ ਹੈ, ਸਾਨੂੰ ਇਸਦੇ ਲਈ ਕਾਰਜ ਨਿਰਧਾਰਤ ਕਰਨ ਦੀ ਜ਼ਰੂਰਤ ਹੈ. ਅਜਿਹਾ ਕਰਨ ਲਈ, "ਬਦਲਾਅ ਪ੍ਰਕਾਸ਼ਤ ਕਰੋ" ਤੇ ਕਲਿਕ ਕਰੋ.

ਟਾਸਕ ਬੋਰਡ ਤੇ ਜਾਓ, "ਸਪਾਈਡਰ ਚਲਾਓ" ਤੇ ਕਲਿਕ ਕਰੋ. ਵੈਬਸਾਈਟ, ਤਰਜੀਹ ਚੁਣੋ ਅਤੇ "ਚਲਾਓ" ਤੇ ਕਲਿਕ ਕਰੋ.

ਖੈਰ, ਸਕ੍ਰੈਪਿੰਗ ਹੁਣ ਪ੍ਰਕਿਰਿਆ ਵਿੱਚ ਹੈ. ਇਸ ਦੀ ਗਤੀ ਭੇਜੀ ਗਈ ਬੇਨਤੀਆਂ ਦੀ ਸੰਖਿਆ ਤੇ ਤੁਹਾਡੇ ਕਰਸਰ ਨੂੰ ਇਸ਼ਾਰਾ ਕਰਕੇ ਦਰਸਾਈ ਗਈ ਹੈ:

ਸੀਐਸਵੀ ਵਿੱਚ ਤਾਰਾਂ ਤਿਆਰ ਹੋਣ ਦੀ ਗਤੀ - ਕਿਸੇ ਹੋਰ ਨੰਬਰ ਵੱਲ ਇਸ਼ਾਰਾ ਕਰਕੇ.

ਪਹਿਲਾਂ ਤੋਂ ਬਣੀਆਂ ਚੀਜ਼ਾਂ ਦੀ ਸੂਚੀ ਵੇਖਣ ਲਈ ਇਸ ਨੰਬਰ ਤੇ ਕਲਿੱਕ ਕਰੋ. ਤੁਸੀਂ ਕੁਝ ਅਜਿਹਾ ਦੇਖੋਗੇ:

ਜਦੋਂ ਇਹ ਖਤਮ ਹੋ ਜਾਂਦਾ ਹੈ, ਨਤੀਜਾ ਇਸ ਬਟਨ ਨੂੰ ਦਬਾ ਕੇ ਸੁਰੱਖਿਅਤ ਕੀਤਾ ਜਾ ਸਕਦਾ ਹੈ:

ਇਹ ਹੀ ਗੱਲ ਹੈ! ਹੁਣ ਤੁਸੀਂ ਵੈਬਸਾਈਟਾਂ ਤੋਂ ਪ੍ਰੋਗਰਾਮਿੰਗ ਵਿਚ ਤਜ਼ੁਰਬੇ ਤੋਂ ਬਿਨਾਂ ਜਾਣਕਾਰੀ ਕੱ without ਸਕਦੇ ਹੋ.

mass gmail