Подредено в Python

Съдържание
The Остъргване на екрана или изстъргване на екрана, ни позволява да извличаме информация от уеб страница, като изтегляме споменатата страница и впоследствие я обработваме с програма; Това е много полезно, особено когато се нуждаем от актуализирана информация от уебсайт, който няма такава API налични или някои Уеб сервиз.
За извършване на a Остъргване на екрана, ние просто трябва да изтеглим съдържанието и да можем да го манипулираме, за да можем да извлечем това, което ни интересува, за това можем да използваме различни техники като използването на регулярни изрази или може би да си помогнем с други библиотеки, като например Подредено.
Какво е Tidy?
За да можете да четете а HTML Трябва да се доверим на неговата структура, защото защото не знаем точно какво съдържание има, поне знаем, че ако търсим структури HTML нещо, което можем да получим, обаче не винаги HTML той е добре оформен, или поради грешка в пропуска, или защото програмистът знае, че някои браузъри са склонни да интерпретират HTML, дори ако има някои недостатъци.
В този момент влиза в игра Подредено, което не е нищо повече от инструмент, който ни позволява да поправяме деформиран HTML, той е силно конфигурируем и ни позволява да персонализираме начина, по който трябва да тълкува корекциите, които може да направи, по този начин ще знаем със сигурност какъв тип документ ще доведе в крайна сметка.
Нека първо да видим изображение на код HTML С много грешки този код може да се интерпретира от някои браузъри, но не е правилен код при формирането му:

Както виждаме, всеки ред на практика има грешка, най-често срещаното е незатварянето на тагове, след това виждаме тагове, които се затварят на грешното място и т.н.
След това използваме Подредено и нека видим кода вече коригиран, там ще осъзнаем колко важна е тази библиотека и цялата помощ, която може да ни даде:

На изображението виждаме как е коригирано Подредено, трябва да отбележим, че въпреки че Tidy е голяма библиотека, тя вероятно не може да реши всички грешки на HTMLТова обаче ни помага много, когато става въпрос за изграждането на добре оформения ни HTML.
Подредете се
Има няколко начина да получите Tidy чрез официалната му страница http: / /tidy.sf.net. можем да получим библиотеката, но в този източник няма начин да я интегрираме Python така че трябва да прибегнем до алтернативен източник, за това имаме две възможности: uTidy достъпно на http: / /utidylib.berlios.de и mxTidy достъпен на http://egenix.com/files/python/mxTidy.html, uTidy изглежда е най-актуалният от двата, но mxTidy е малко по-лесен за инсталиране, всеки трябва да види кой от тях да използвам.
Нека видим пример за това как да се използва Подредено След като го инсталираме, в следния код ще отворим HTML с грешки и ще го прочетем с помощта на Tidy, след което ще покажем информацията на екрана.
 от подпроцес импортиране Popen, PIPE text = open ('messy.html'). read () tidy = Popen ('tidy', stdin = PIPE, stdout = PIPE, stderr = PIPE) tidy.stdin.write (text) подреден. stdin.close () печат tidy.stdout.read () 

Както виждаме, той е доста лесен за използване ПодреденоСлед като имаме достатъчно доверие в него, като познаваме добре поведението на библиотеката, можем да постигнем много интересни неща.Хареса ли ви и помогнахте на този урок?Можете да възнаградите автора, като натиснете този бутон, за да му дадете положителна точка
wave wave wave wave wave