Semalt: Web lapas nokasīšana, izmantojot Google Chrome paplašinājumu

Ekrāna skrāpis ir skripts, kas nolasa vietnes un no Web iegūst noderīgu informāciju. Ekrāna nokasīšana ir labākais risinājums reālu datu iegūšanai no vietnēm un Web lapām uz Microsoft Excel. Google Chrome paplašinājumu skrāpis ir jaudīgs ekrāna nokasīšanas rīks, kas darbojas gan Windows, gan Mac OS.

Kāpēc Google Chrome paplašinājumu skrāpis?

Google Chrome paplašinājumu skrāpis ir spēcīgs ekrāna nokasīšanas rīks, kas bez maksas tiek atvērts Chrome interneta veikalā. Šis nokasīšanas rīks ir instalēts pārlūkā Chrome kā spraudnis. Spraudnis ļauj emuāru autoriem un tirgotājiem iegūt datus no tīmekļa lapām, ar peles labo pogu noklikšķinot uz elementa. Ja ar peles labo pogu noklikšķiniet uz elementa, ekrānā vajadzētu parādīties '' Scrape Similar ''.

Ievads XPaths

XPath ir programmēšanas valoda, ko izmanto, lai atrastu būtisku informāciju XML struktūrās. HTML fails ir lielisks XML struktūras piemērs. XPath parasti izmanto mērķa mezglu atlasīšanai. Šajā kontekstā XPaths tiks izmantots, lai noteiktu tekstu, kas jāizvelk Web lapā. XPaths arī palīdzēs noteikt partiju vārdus un Zviedrijas parlamenta deputātu tālruņu numurus.

Izmantojot Google Chrome skrāpi, lai piekļūtu 349 Zviedrijas parlamenta deputātu adresēm

Izmantojot pārlūka Chrome skrāpi, informācijas iegūšana no tīmekļa lapas ir ne tikai vienkārša, bet arī fantastiska. Jums patiks process un pati tehnika.

Vietnē ir uzskaitīti visi Zviedrijas biedri un viņu adreses. Lai sāktu, ar peles labo pogu noklikšķiniet uz jebkura MP un atlasiet “Scrape Similar”. Jums ekrānā vajadzētu redzēt šādu displeju.

Soli pa solim norādiet, kā ekrānot nokasīt Web lapu

Ja ar peles labo pogu noklikšķiniet uz viena MP un atlasāt "Pārbaudīt elementu", klasē "" grid_6 alfa omega meklēšanas rezultātu konteinera saraksts "tiks izveidots alfabētisks saraksts. Šīs tīmekļa lapas nokasīšanai tiks izmantotas divas darbības. Pirmajā solī tiks atlasīta atlase. tagi, kas sastāv no MP datiem ar XPath. Otrajā posmā tiks atlasītas konkrētas datu daļas, piemēram, partiju vārdi, vārdi un tālruņa numurs, un dati tiks sakārtoti kolonnās.

1. solis

Iedziļinieties HTML struktūrā un saglabājiet elementus neskartus. Pavērsiet tagus, lai identificētu tagu skaitu, kas atbilst jūsu struktūras elementiem. Identificējiet pēdējo tagu, kas sastāv no atlasītajiem datiem. Izpildiet struktūras XPath pārbaudi, noklikšķinot uz "Nokasīt".

Ekrānā parādīsies saraksts ar 349 rindām. 349 pārstāv Zviedrijas parlamenta locekļu kopskaitu.

2. solis

Sadaliet iesniegtos datus kolonnās. Pārbaudiet HTML kodu jūsu izmantotajā vietnē. Šajā gadījumā ekstrahējamie gabali šobrīd ir izcelti dzeltenā krāsā. Izveidotajā sleju laukā ievietojiet XPaths un noklikšķiniet uz "Scrape", lai palaistu spraudni.

Ja jums ir pamatzināšanas par XPaths, izpratne par programmēšanu jums nebūs drudžains uzdevums. Iepriekš izceltās darbības sniedz norādījumus par Web lapas nokasīšanu ekrānā. Ja strādājat pie vairāku Web lapu nokasīšanas, jums jābūt programmēšanas prasmēm.

mass gmail