我有一个我从< table>解析出来的元素.

target="_blank">

5548U


Power La Vaca
(M8025K)
Linux 4.2.x.x

我试图从这个元素(包括空格)中提取“55488 Power La Vaca(8025K)Linux 4.2.x.x”.

import lxml.etree as ET

td_html = """

target="_blank">

5548U


Power La Vaca
(M8025K)
Linux 4.2.x.x

"""

td_elem = ET.fromstring(td_html)

fail_1 = td_elem.find('a').text + td_elem.text

print "FAIL_1", fail_1

print "FAIL_2"

for elem in td_elem.iterchildren():

print elem.tag, elem.text

结果

$python textxml.py

FAIL_1

5548U

FAIL_2

a

5548U

br None

br None

br None

br None

$

令人羞愧的是,我不得不问这个问题,因为它似乎不应该很难.

如何从td_elem元素(包括空格)中提取“Power La Vaca(8025K)Linux 4.2.x.x”?

请,没有正则表达式解决方案.

显式解决方案(使用Finn的itertext()建议):

import lxml.etree as ET

td_html = """

target="_blank">

5548U


Power La Vaca
(M8025K)
Linux 4.2.x.x

"""

td_elem = ET.fromstring(td_html)

print "SUCCESS", ' '.join([txt.strip() for txt in td_elem.itertext()])

Logo

魔乐社区(Modelers.cn) 是一个中立、公益的人工智能社区,提供人工智能工具、模型、数据的托管、展示与应用协同服务,为人工智能开发及爱好者搭建开放的学习交流平台。社区通过理事会方式运作,由全产业链共同建设、共同运营、共同享有,推动国产AI生态繁荣发展。

更多推荐