Škrabanie webových stránok pomocou Pythonu a BeautifulSoup - Semalt Advice

Na internete je viac ako dosť informácií o tom, ako správne zoškrabať webové stránky a blogy. Potrebujeme nielen prístup k týmto údajom, ale aj škálovateľné spôsoby ich zhromažďovania, analýzy a organizácie. Python a BeautifulSoup sú dva úžasné nástroje na zoškrabovanie webových stránok a extrahovanie údajov. Pri webovom zoškrabovaní môžete údaje ľahko extrahovať a prezentovať vo formáte, ktorý potrebujete. Ak ste vášnivým investorom, ktorý si cení svoj čas a peniaze, určite musíte zrýchliť proces webového škrabania a urobiť ho tak optimalizovaným, ako by mohol byť.

Začíname

Ako hlavný zoškrabovací jazyk použijeme Python aj BeautifulSoup.

  • 1. Pre používateľov počítačov Mac je Python predinštalovaný v OS X. Stačí otvoriť terminál a napísať python -verziu . Týmto spôsobom uvidia verziu Python 2.7.
  • 2. Používateľom Windows odporúčame nainštalovať Python cez oficiálnu stránku.
  • 3. Ďalej musíte pristupovať do knižnice BeautifulSoup pomocou pip. Tento nástroj na správu balíkov bol vyrobený špeciálne pre Python.

Do terminálu musíte vložiť nasledujúci kód:

easy_install pip

pip nainštalujte BeautifulSoup4

Pravidlá stierania:

Hlavné pravidlá oškrabania, o ktoré by ste sa mali postarať, sú:

  • 1. Predtým, ako začnete so škrabaním, musíte skontrolovať pravidlá a pravidlá webu. Takže buďte veľmi opatrní!
  • 2. Údaje zo stránok by ste nemali požadovať príliš agresívne. Uistite sa, že nástroj, ktorý používate, sa správa primerane. V opačnom prípade môžete web rozbiť.
  • 3. Jedna žiadosť za sekundu je správna prax.
  • 4. Rozloženie blogu alebo webu sa dá kedykoľvek zmeniť. Možno budete musieť znova navštíviť túto stránku a podľa potreby prepísať svoj vlastný kód.

Skontrolujte stránku

Umiestnením kurzora myši na stránku Cena pochopíte, čo by sa malo urobiť. Prečítajte si text, ktorý sa týka HTML aj Pythonu, a z výsledkov uvidíte ceny vnútri značiek HTML.

Export do Excelu CSV

Po extrahovaní údajov je ďalším krokom ich uloženie v režime offline. Formát oddelený čiarkami Excel je v tomto ohľade najlepšou voľbou a môžete ho ľahko otvoriť v hárku Excel. Najskôr by ste však museli naimportovať moduly CSV Python a moduly dátumu a času, aby ste svoje údaje zaznamenali správne. Do sekcie importu je možné vložiť nasledujúci kód:

importovať csv

z importu datetime na datetime

Pokročilé techniky škrabania

BeautifulSoup je jedným z najjednoduchších a najkomplexnejších nástrojov na vytváranie webových stránok. Ak však potrebujete zozbierať veľké množstvo údajov, zvážte niekoľko ďalších alternatív:

  • 1. Scrapy je výkonný a úžasný python stierací rámec.
  • 2. Kód môžete tiež integrovať do verejného rozhrania API. Účinnosť vašich údajov bude dôležitá. Môžete napríklad vyskúšať rozhranie Facebook Graph API, ktoré pomáha skryť údaje a nezobrazuje ich na stránkach Facebooku.
  • 3. Okrem toho môžete používať programy typu backend, ako je MySQL, a ukladať údaje vo veľkom množstve s veľkou presnosťou.
  • 4. DRY je skratka pre „Don't Repeat Yourself“ a pomocou tejto techniky sa môžete pokúsiť automatizovať pravidelné úlohy.

mass gmail