ä¾å¦ å ·æå¦ä¸ç»æçhtmlæä»¶
代ç å¦ä¸:
æå ´è¶£å 容1
æå ´è¶£å 容2
â¦â¦
æå ´è¶£å 容n
å 容1
å 容2
â¦â¦
å 容n
æä»¬å°è¯è·å¾’æå ´è¶£å 容’ å¯¹äºææ¬å 容,æä»¬ä¿åå°idlistä¸ã 坿¯å¦ä½æ è®°æä»¬éå°çææ¬æ¯æå ´è¶£çå 容å¢ï¼ä¹å°±æ¯ï¼å¤äº
代ç å¦ä¸:
è¿éçå 容
è¿æè¿é
â¦â¦
以åè¿éçå 容
æè·¯å¦ä¸
éå°
设置æ è®°flag = true
éå°
å 设置æ è®°flag = false
å½flag 为trueæ¶éå°
设置æ è®°getdata = true
éå°
ä¸getdata = true,设置getdata = false
python为æä»¬æä¾äºsgmlparserç±»ï¼sgmlparser å° html åææ 8 ç±»æ°æ®[1]ï¼ç¶å对æ¯ä¸ç±»è°ç¨åç¬çæ¹æ³:ä½¿ç¨æ¶åªéç»§æ¿sgmlparser ç±»ï¼å¹¶ç¼å页é¢ä¿¡æ¯çå¤ç彿°ã
å¯ç¨çå¤ç彿°å¦ä¸ï¼
å¼å§æ è®° (start tag)
æ¯ä¸ä¸ªå¼å§ä¸ä¸ªåç html æ è®°ï¼è±¡ ï¼ï¼ æ çï¼ææ¯ä¸ä¸ªç¬ä¸çæ è®°ï¼è±¡ æ çãå½å®æ¾å°ä¸ä¸ªå¼å§æ è®° tagnameï¼sgmlparser å°æ¥æ¾å为 start_tagname æ do_tagname çæ¹æ³ãä¾å¦ï¼å½å®æ¾å°ä¸ä¸ª æ è®°ï¼å®å°æ¥æ¾ä¸ä¸ª start_pre æ do_pre çæ¹æ³ã妿æ¾å°äºï¼sgmlparser ä¼ä½¿ç¨è¿ä¸ªæ è®°ç屿§å表æ¥è°ç¨è¿ä¸ªæ¹æ³ï¼å¦åï¼å®ç¨è¿ä¸ªæ è®°çååå屿§å表æ¥è°ç¨ unknown_starttag æ¹æ³ã
ç»ææ è®° (end tag)
æ¯ç»æä¸ä¸ªåç html æ è®°ï¼è±¡ ï¼ï¼ æ çã彿¾å°ä¸ä¸ªç»ææ è®°æ¶ï¼sgmlparser å°æ¥æ¾å为 end_tagname çæ¹æ³ã妿æ¾å°ï¼sgmlparser è°ç¨è¿ä¸ªæ¹æ³ï¼å¦åå®ä½¿ç¨æ è®°çå忥è°ç¨ unknown_endtag ã
å符å¼ç¨ (character reference)
ç¨å符çåè¿å¶æçåçåå
è¿å¶æ¥è¡¨ç¤ºç转ä¹å符ï¼è±¡ ã彿¾å°ï¼sgmlparser 使ç¨åè¿å¶æçåçåå
è¿å¶åç¬¦ææ¬æ¥è°ç¨ handle_charref ã
å®ä½å¼ç¨ (entity reference)
html å®ä½ï¼è±¡ ©ã彿¾å°ï¼sgmlparser ä½¿ç¨ html å®ä½çå忥è°ç¨ handle_entityref ã
注é (comment)
html 注é, å
æ¬å¨ ä¹é´ã彿¾å°ï¼sgmlparser ç¨æ³¨éå
容æ¥è°ç¨ handle_commentã
å¤çæä»¤ (processing instruction)
html å¤çæä»¤ï¼å
æ¬å¨