What is parsing? | The Secret Grotto

What is parsing? Nov 11, 2024 3:46:41 GMT -5

Quote

Post by iamin1200 on Nov 11, 2024 3:46:41 GMT -5

Stručná história parsovania

Hovorí sa, že web scraping (teraz široko používaný automatizovaný spôsob získavania údajov) je starý ako internet sám. Nie je to však úplne presné. World Wide Web bol vytvorený v roku 1989, prvý webový prehliadač v roku 1991 a prvý webový prehľadávač v roku 1993. Tento prehľadávač (prvý webový robot) bol známy ako Wanderer (alebo World Wide Web Wanderer pre tých, ktorí majú radi aliteráciu) a jeho účelom bolo zmerať veľkosť webu. Neskôr v tom istom roku bol svet svedkom predstavenia prvého vyhľadávacieho nástroja založeného na prehľadávaní, JumpStation (prvý vyhľadávací nástroj založený na robotoch).

Na prelome storočia boli vytvorené prvé Zoznam e-mailov krajín webové rozhrania API a prehľadávače API. A čoskoro po roku 2004 a spustení Beautiful Soup, populárneho analyzátora HTML napísaného v programovacom jazyku Python, sa zrodila analýza tak, ako ju poznáme dnes.

Odvtedy sa web scraping zmenil z vyvrheľov na súčasť technologického balíka takmer každého podniku, ktorý pracuje s veľkými dátami. Nehnuteľnosti, elektronický obchod, marketing a médiá, výskum a vzdelávanie, umelá inteligencia a strojové učenie: dáta sú osou, na ktorej sa tieto svety otáčajú. Bez webového zoškrabovania by ľudia, ktorí pracujú a pohybujú sa v týchto odvetviach, nemohli získať a ukladať nevyspytateľné množstvo digitálnych informácií, ktoré potrebujú na inteligentné rozhodnutia alebo výkon nástrojov svojho odvetvia.

Je zoškrabovanie legálne?

Aj keď sa zoškrabovanie webu stalo neoddeliteľnou súčasťou mnohých podnikov, častou otázkou je, či je legálne. Krátka odpoveď je áno, ale to neznamená, že neexistujú žiadne obmedzenia. Rovnako ako riadenie auta je legálne, ale prekročenie rýchlosti nie, aj zoškrabovanie webu je legálne, pokiaľ neporušujete zákony týkajúce sa vecí, ako sú osobné údaje alebo autorské práva. Ak sa chcete hlbšie ponoriť do právnych obmedzení a etických zásad webového zoškrabovania, viac sa dočítate v článkoch nižšie.

Je zoškrabovanie webu jednoduché?

Začal som s najbežnejšou definíciou web scrapingu: automatizovanou metódou extrahovania údajov z webu. Ale akokoľvek bežná je táto definícia, ide o prílišné zjednodušenie. Extrahovanie údajov je jednoduché. Výzvou je, že musíte preskočiť cez obruče, aby ste sa dostali k údajom. Jednoduché ručné kopírovanie a vkladanie (najprimitívnejšia forma zoškrabovania webu) je dosť jednoduché, ale dnes vývojári a spoločnosti potrebujú extrahovať a spracovať obrovské množstvo údajov z tisícok alebo dokonca miliónov webových stránok denne. Na to potrebujete roboty, ktoré otvárajú webové stránky a extrahujú obsah, ktorý je relevantný pre váš účel. Keďže množstvo generovaných údajov naďalej exponenciálne rastie a bezpečnostné opatrenia webových stránok sa zlepšujú, je čoraz ťažšie získať prístup k týmto informáciám a kopírovať ich pomocou robotov.

Je teda zoškrabovanie webu naozaj také ťažké? Odpoveď je áno a nie. Odoberanie údajov z webu je jednoduché, ale prinútiť roboty na zoškrabovanie webu otvárať stránky na extrakciu údajov vo veľkom meradle počas dlhého časového obdobia si vyžaduje poriadnu dávku prefíkanosti. Pozrime sa teda na najbežnejšie dnešné problémy so zoškrabávaním webu.

Problémy súvisiace s analýzou

Obmedzenia rýchlosti IP a CAPTCHA

Webové stránky často implementujú bezpečnostné opatrenia proti botom ako obranu proti malvéru a iným škodlivým entitám na webe. V dôsledku toho budete pravdepodobne zablokovaní, ak odošlete veľké množstvo požiadaviek z jednej IP adresy v krátkom čase. Prípadne môžete získať test CAPTCHA (a všetci vieme, akí zlí roboti sú na tom).

Prečo sa to môže stať? Pretože pre človeka je nemožné rýchlo odoslať stovky požiadaviek z jednej IP adresy. Takéto neľudské správanie nevyhnutne povedie k odhaleniu vášho bota. Nezáleží na tom, že váš robot pracuje pre dobro a nie pre zlo. Webové stránky zvyčajne nediskriminujú: robot je robot. Je dokonca možné, že vaša IP adresa bude zablokovaná skôr, ako začne fungovať, ak bola označená alebo zaradená na čiernu listinu pre minulé akcie.

Riešením tohto problému je cloudový analyzátor, ktorý odošle každú požiadavku s inou IP adresou, a na to budete potrebovať poskytovateľa proxy.

Hlavičky prehliadača a odtlačky prstov

Ochrana proti analýze kontroluje hlavičky HTTP požiadaviek, aby zistila, či požiadavky prichádzajú zo skutočného prehliadača. Ak nie sú, budú označené ako podozrivé a IP adresa bude zablokovaná. Ak chcete obísť túto ochranu, štruktúra hlavičky robota sa musí zhodovať so zadaným užívateľským agentom.

S nedávnym pokrokom v online súkromí sa reťazce používateľských agentov postupne vyraďujú, pretože obsahujú informácie, ktoré možno použiť na identifikáciu osôb. Stále však môžete získať všetky rovnaké informácie a ešte viac pomocou odtlačkov prstov prehliadača.

Snímanie odtlačkov prstov prehliadača je technika, ktorú možno použiť na identifikáciu webového prehliadača. Zahŕňa zhromažďovanie informácií o prehliadači a zariadení, na ktorom beží, a vytváranie jedinečného „odtlačku prsta“ na základe týchto informácií. Tento odtlačok prsta možno použiť na sledovanie akcií používateľa na rôznych stránkach a zariadeniach a na určenie, či je prehliadač robot alebo skutočný používateľ. To je dôvod, prečo zmena prehliadača f