Semalt: HTML Скрапинг боюнча колдонмо - Мыкты кеңештер

Веб мазмуну негизинен структураланган же HTML форматында болот. Ар бир барак андагы мазмундун түрүнө жараша өзгөчө тартипте уюштурулган. Эгерде кимдир-бирөө веб-маалыматты алгысы келсе, анда ар бир адамдын маалыматты структураланган жана уюшкандыкта алгысы келет. Бул документти бөлүшүүдөн мурун аны карап чыгууга, талдоого жана уюштурууга талап кылынган убакытты үнөмдөөгө жардам берет. Бирок, структураланган форматка ээ болуу оңой эмес, анткени көпчүлүк веб-сайттарда адамдардын көп маалыматтарды алуусуна жол бербөө үчүн мындай мүмкүнчүлүк жок. Айрым сайттар адамдарга тез жана оңой процессте маалыматтарды алуу мүмкүнчүлүгүн берген APIлерди беришет.

Мындай иш-чараларда сиз кыргыч деп аталган программалык камсыздоонун жардамы менен колдонуудан башка арга калбайсыз. Бул колдонуучуларга маалыматты пайдалуу форматта чогултууга жана маалыматтын структурасын сактоого жардам берген компьютердик программанын ыкмасы.

Lxml жана Request

Бул кеңири масштабдуу кыргыч китепкана, ал XML жана HTML ылдамдыгын анализдөөгө жана баалоого жардам берет жана убакытты үнөмдөөгө жардам берет. Анализдөө процесси аралашып кеткен тегтер менен иштөөдө дагы пайдалуу. Бул процедурада сиз орнотулган urllib2 ордуна Lxml сурамдарын колдоносуз, анткени ал тезирээк, бекем жана даяр. Lxml орнотуу жана pip орнотуу сурамдары аркылуу аны орнотуу оңой.

HTML кыргыч үчүн бул кадамдарды аткарыңыз

Импорттон баштаңыз - бул жерде HTML файлын Lxmlден импорттойсуз, андан кийин импорттоо суранычы. Сураныч колдонуп, андан кийин чыгаргыңыз келген маалыматтарды камтыган веб-баракчасына көз чаптырып, HTML модулу боюнча анализдеп, талдаган маалыматты даракта сактаңыз.

HTML байт менен киргизүүнү күтөт, анткени текстти эмес, барак мазмунун колдонушуңуз керек. Сиз анализдеген маалыматтарды сактап калган даракта HTML дарагы дарактын түзүлүшүндө болот. Дарактардын түзүлүшүн ар кандай ыкмалар менен, XPath жана CSSelect аркылуу өтсөңүз болот.

XPath маалыматты калыбына келтирүүгө же аны HTML же XML сыяктуу структураланган форматта алууга жардам берет. XPath элементтерин алуунун ар кандай жолдору бар. Алардын ичинде Firefox же Chrome инспектору үчүн Firebug бар. Chrome'ду колдонууда, текшерүү маалыматын алуу оңой, анткени текшерүүнү талап кылган элементти "оң баскычын" чыкылдатып, "Текшерүү элементин" тандап, берилген кодду белгилеп, оң баскыч менен чыкылдатып, XPath көчүрмөсүн тандаңыз. Бул процесс баракчаңызда кайсы элементтер камтылганын билүүгө жардам берет жана ал жерден XPath сурамын түзүп, Lxml XPath программасын туура колдонуу оңой болот.

Ушул кадамдарды жасасаңыз, белгилүү бир интернеттен Lxml жана Requests жардамы менен чыгаргыңыз келген бардык маалыматтарды кыркып алгандыгыңыз кепил болот. Сиз эки маалыматтын эс тутумунда сакталган маалыматка ээ болосуз, эми ал иреттөөгө даяр. Python сыяктуу программалоо тили аркылуу анализдеп, сактап, бөлүшө аласыз. Маалыматты бөлүшүүдөн мурун, анын айрым бөлүктөрүн кайра жазууну же түзөтүүнү кааласаңыз болот.