在网页上爬文本后要注意清洗

HTML 标签 和 HTML的特殊实体字符

import re

def clean_html_and_special_chars(text):
    # 去除 HTML 标签
    cleaned_text = re.sub(r'<[^>]*>', '', text)
    # 去除特殊字符
    cleaned_text = re.sub(r'&[a-zA-Z]+;', '', cleaned_text)
    return cleaned_text

# 示例文本
example_text = "<p>Hello, &nbsp;World! This is a <em>sample</em> text.</p>"
cleaned_text = clean_html_and_special_chars(example_text)
print(cleaned_text)
# 输出:Hello, World! This is a sample text.

HTML 中还有许多其他特殊字符,它们都可以通过 HTML 实体表示。这些特殊字符是为了避免在 HTML 中与标签或其他特殊含义的字符冲突而引入的。以下是一些常见的 HTML 特殊字符以及它们的 HTML 实体表示:

  1. 小于号:<br> HTML 实体:&lt;

  2. 大于号:><br> HTML 实体:&gt;

  3. 和号(&):<br> HTML 实体:&amp;

  4. 引号("):<br> HTML 实体:&quot;

  5. 单引号('):<br> HTML 实体:&apos;(在HTML5中已不推荐使用,可以使用&rsquo;代替)

  6. 版权符号(©):<br> HTML 实体:&copy;

  7. 注册商标符号(®):<br> HTML 实体:&reg;

  8. 不等号(≠):<br> HTML 实体:&ne;

  9. 省略号(…):<br> HTML 实体:&hellip;

  10. 版权符号(©):<br> HTML 实体:&copy;

  11. 分号(;):<br> HTML 实体:&semi;&num;(用于分隔实体名和实体编号)

这些 HTML 特殊字符主要用于在 HTML 中表示特殊含义的字符,或者用于显示特殊符号,避免与 HTML 标签或其他语法冲突。在网页爬取和处理过程中,如果需要处理这些特殊字符,可以使用相应的 HTML 实体表示或逆向转换成原始字符。

Logo

魔乐社区(Modelers.cn) 是一个中立、公益的人工智能社区,提供人工智能工具、模型、数据的托管、展示与应用协同服务,为人工智能开发及爱好者搭建开放的学习交流平台。社区通过理事会方式运作,由全产业链共同建设、共同运营、共同享有,推动国产AI生态繁荣发展。

更多推荐