前言

        在把爬虫爬到的数据存入Excel之后,有遇到过文本有很多空行的情况,在文章的中间和前面后面,如下图:

         我觉得Excel的替换又不好用,所以写了这么一个小工具去处理这样的一个格式的数据,省得自己一个个去去删(不现实别去干  )

代码如下:

# 去除Excel文本中多余的空行,并且写入到原来的位置
def remove_emptyrow(path=r'', rcolumn=1):  # path=路径,rcolum=要处理的列
    wb = openpyxl.load_workbook(path)  # 加载文件
    ws = wb.active
    for i in range(1, ws.max_row + 1):
        data = []
        old = ws.cell(i, rcolumn).value
        r = re.split(r'\s+', old)  # 去除文本中间的空行
        for j in r:  # 去除文本前后的空行
            if j == '':
                pass
            else:
                data.append(j)
        ws.cell(i, rcolumn).value = '\n'.join(data)  # 写入
    wb.save(path)  # 保存
    wb.close()
    print("处理完成")
remove_emptyrow()

         其实这代码不但会去删换行(\n),也可以把也可以把爬虫爬到的\t,\r,这种格式删除,其实很大一部分空行就是这些分隔符引起的。

Logo

魔乐社区(Modelers.cn) 是一个中立、公益的人工智能社区,提供人工智能工具、模型、数据的托管、展示与应用协同服务,为人工智能开发及爱好者搭建开放的学习交流平台。社区通过理事会方式运作,由全产业链共同建设、共同运营、共同享有,推动国产AI生态繁荣发展。

更多推荐