c++判断字符串是否为utf8编码

如果想要查看文本文件的编码方式，可以用记事本打开文件，然后选择"另存为"菜单，即可查看当前的编码方式。在windows平台下，win7系统文本文件默认为ANSI即多字节编码，而win10和win11默认为utf-8编码。不论是ANSI，还是UTF-8，在打开文件之前，都无法得知其编码方式。常用的方法是先按照ANSI读取，然后判断字符串是否UTF-8编码，如果是，再转换为ANSI编码。1、bool

ljy338

2080人浏览 · 2024-01-31 16:05:23

ljy338 · 2024-01-31 16:05:23 发布

在解析文本文件时，如果不能提前知道它的编码方式，就有可能出现乱码的情况。在windows平台下，win7系统文本文件默认为ANSI即多字节编码，而win10和win11默认为utf-8编码。

如果想要查看文本文件的编码方式，可以用记事本打开文件，然后选择"另存为"菜单，即可查看当前的编码方式。如下图所示，文件为utf-8编码。在winwin11系统下，也可以直接从右下角状态栏获取编码方式。

不论是ANSI，还是UTF-8，在打开文件之前，都无法得知其编码方式。常用的方法是先按照ANSI读取，然后判断字符串是否UTF-8编码，如果是，再转换为ANSI编码。

判断字符串是否为UTF-8编码，参考下面博客：

https://blog.csdn.net/zison_sun/article/details/5815746

代码如下：

bool IsUTF8(const void *pBuffer, int size)
{
	bool IsUTF8 = false;
	unsigned char *start = (unsigned char *)pBuffer;
	unsigned char *end = (unsigned char *)pBuffer + size;
	while (start < end)
	{
		if (*start < 0x80) // (10000000): 值小于0x80的为ASCII字符 
		{
			start++;
		}
		else if (*start < (0xC0)) // (11000000): 值介于0x80与0xC0之间的为无效UTF-8字符 
		{
			IsUTF8 = false;
			break;
		}
		else if (*start < (0xE0)) // (11100000): 此范围内为2字节UTF-8字符 
		{
			IsUTF8 = true;
			if (start >= end - 1)
				break;
			if ((start[1] & (0xC0)) != 0x80)
			{
				IsUTF8 = false;
				break;
			}
			start += 2;
		}
		else if (*start < (0xF0)) // (11110000): 此范围内为3字节UTF-8字符 
		{
			IsUTF8 = true;
			if (start >= end - 2) break;
			if ((start[1] & (0xC0)) != 0x80 || (start[2] & (0xC0)) != 0x80)
			{
				IsUTF8 = false; break;
			}
			start += 3;
		}
		else if (*start < (0xF8)) // (11111000): 此范围内为4字节UTF-8字符 
		{
			IsUTF8 = true;
			if (start >= end - 3) break;
			if ((start[1] & (0xC0)) != 0x80 || (start[2] & (0xC0)) != 0x80 || (start[3] & (0xC0)) != 0x80)
			{
				IsUTF8 = false; break;
			}
			start += 4;
		}
		else
		{
			IsUTF8 = false;
			break;
		}
	}
	return IsUTF8;
}

与原始代码相比，做了两处修正。

1、bool IsUTF8 = false，默认为非UFT8，直到遇到UFT8为止，这样更加准确。

2、增加4字节长度判断，即 else if (*start < (0xF8))行。

魔乐社区

魔乐社区（Modelers.cn) 是一个中立、公益的人工智能社区，提供人工智能工具、模型、数据的托管、展示与应用协同服务，为人工智能开发及爱好者搭建开放的学习交流平台。社区通过理事会方式运作，由全产业链共同建设、共同运营、共同享有，推动国产AI生态繁荣发展。

更多推荐

全家桶集齐！Qwen3.5四款小模型上线魔乐社区，附昇腾全套实践教程

魔乐社区

Pont - 搭建前后端之桥：高效、灵活的接口管理工具

Pont 是一款强大的数据服务层解决方案，它能够帮助开发者快速搭建前后端之间的桥梁，实现接口的高效管理和代码自动生成。无论是新手还是有经验的开发者，都能通过 Pont 轻松处理接口文档、生成类型安全的 API 代码，从而显著提升开发效率。[![Pont 工具标志](https://raw.gitcode.com/gh_mirrors/po/pont/raw/3f1b7d4bbba3fd2dda