2021数据结构课程设计--问题 I: 单词检查(Ⅰ)- 顺序表实现
问题 I: 单词检查(Ⅰ)- 顺序表实现题目描述许多应用程序,如字处理软件,邮件客户端等,都包含了单词检查特性。单词检查是根据字典,找出输入文本中拼错的单词,我们认为凡是不出现在字典中的单词都是错误单词。不仅如此,一些检查程序还能给出类似拼错单词的修改建议单词。 例如字典由下面几个单词组成:bake cake main rain vase如果输入文件中有词vake ,检查程序就能发现其是一个错误的
问题 I: 单词检查(Ⅰ)- 顺序表实现
题目描述
许多应用程序,如字处理软件,邮件客户端等,都包含了单词检查特性。单词检查是根据字典,找出输入文本中拼错的单词,我们认为凡是不出现在字典中的单词都是错误单词。不仅如此,一些检查程序还能给出类似拼错单词的修改建议单词。 例如字典由下面几个单词组成:
bake cake main rain vase
如果输入文件中有词vake ,检查程序就能发现其是一个错误的单词,并且给出 bake, cake或vase做为修改建议单词。
修改建议单词可以采用如下生成技术:
(1)在每一个可能位置插入‘a-‘z’中的一者
(2)删除单词中的一个字符
(3)用‘a’-'z’中的一者取代单词中的任一字符
很明显拼写检查程序的核心操作是在字典中查找某个单词,如果字典很大,性能无疑是非常关键的。
你写的程序要求读入字典文件,然后对一个输入文件的单词进行检查,列出其中的错误单词并给出修改建议。
课程设计必须采用如下技术完成并进行复杂度分析及性能比较。
(1)朴素的算法,用线性表维护字典
(2)使用二叉排序树维护字典
(3)采用hash技术维护字典
本题要求使用顺序表实现。
输入
输入分为两部分。
第一部分是字典,每个单词占据一行,最后以仅包含’#'的一行表示结束。所有的单词都是不同的,字典中最多10000个单词。
输入的第二部分包含了所有待检测的单词,单词数目不超过50。每个单词占据一行,最后以仅包含’#'的一行表示结束。
字典中的单词和待检测的单词均由小写字母组成,并且单词最大长度为15。
输出
按照检查次序每个单词输出一行,该行首先输出单词自身。如果单词在字典中出现,接着输出" is correct"。如果单词是错误的,那么接着输出’:’,如果字典中有建议修改单词,则按照字典中出现的先后次序输出所有的建议修改单词(每个前面都添加一个空格),如果无建议修改单词,在’:'后直接换行。
样例输入
i
is
has
have
be
my
more
contest
me
too
if
award
#
me
aware
m
contest
hav
oo
or
i
fi
mre
#
样例输出
me is correct
aware: award
m: i my me
contest is correct
hav: has have
oo: too
or:
i is correct
fi: i
mre: more me
解题过程
思路
首先我们来分析题目要求,本题要求我们用线性表来维护字典,所以我们首先就要创建一个符合要求的线性表
typedef struct
{
char elem[17]; //用于储存单词
int length; //用于储存该字符串的长度
}Wqlist;
Wqlist L[10001], S; //L是字典,S是要检测的词
接下来我们来构造用于检查单词的函数 InitList
- 判断是否完全匹配
for (i = 0; i < n; i++) //判断是否完全匹配(也就是判断输入的单词是完全正确的)
{
//(常见错误)if (L[i].elem == S.elem) //字符串不能这么比较,要用strcmp函数对比
if (strcmp(L[i].elem, S.elem) == 0)
{
printf("%s is correct\n", S.elem);
flag = 0; //flag是标志,若flag = 1则说明不完全匹配,要寻找近似项,否则完全匹配,直接输出correct
break;
}
}
2) 若不完全匹配则分别考虑三种情况
- 寻找比不完全匹配项多一个字符的近似项
if (S.length == L[i].length + 1)//寻找比不完全匹配项多一个字符的近似项
{
sum = 0;
//每次判断结束后要把 sum 初始化,要不然第一次循环以后 sum 就变了,要放到for循环的外面
//注意是判断结束后 sum 初始化,不是循环中每次都初始化,那sum就失去意义了
//错误示范:for(j = 0,t = 0.sum = 0; L[i].elem[j] != '\0'; j++, t++)
//否则每进行一次循环sum就初始化一次,那就实现不了 sum 计数的目的了
for (j = 0, t = 0; L[i].elem[j] != '\0'; j++, t++) //因为近似项比匹配项短,所以循环的截止条件是近似项(字典中的项)结束
{
if (L[i].elem[j] != S.elem[t])//记录有几个字符不匹配
{
sum++; //计数
j--; //用于比较的匹配字符的那个字母不变,为了应对have与behave的类似情况匹配
}
if (sum >= 2) //超过2个就不用比较了
break;
}
if (sum <= 1)
printf(" %s", L[i].elem); //输出符合条件的字符
}
- 寻找比匹配项少一个字符的近似项
if (S.length == L[i].length - 1) //寻找比匹配项少一个字符的近似项
{
sum = 0; //初始化sum
for (j = 0, t = 0; S.elem[t] != '\0'; j++, t++)//因为匹配项比近似项短,所以循环的截止条件是匹配项(参与比较判断的项)结束
{
if (L[i].elem[j] != S.elem[t]) //记录有几个字符不匹配
{
sum++;
t--;
}
if (sum >= 2)
break;
}
if (sum <= 1)
printf(" %s", L[i].elem);
}
- 寻找长度相同但只有一个字符不同的匹配项
if (S.length == L[i].length) //寻找长度相同但只有一个字符不同的匹配项
{
sum = 0;
for (j = 0, t = 0; L[i].elem[j] != '\0'; j++, t++)
{
if (L[i].elem[j] != S.elem[t]) //记录有几个字符不匹配
sum++;
//因为一样长所以只要有超过2个匹配不上就直接错了,不存在匹配项是近似项子串的问题
if (sum >= 2)
break;
}
if (sum <= 1)
printf(" %s", L[i].elem);
}
最终实现代码(AC通过,严禁复制)
#include <stdio.h>
#include <stdlib.h>
#include <string.h>
#pragma warning (disable:4996)
#define MAXN 10001
typedef struct
{
char elem[MAXN];
int length;
}Wqlist;
Wqlist L[MAXN], S; //L是字典,S是要检测的词
int n = 0, m = 0;
void InitList(Wqlist S)//查验函数
{
int i, j, t, sum, flag = 1;
for (i = 0; i < n; i++) //判断是否完全匹配(也就是判断输入的单词是完全正确的)
{
/*
if (L[i].elem == S.elem) //字符串不能这么比较,要用strcmp函数对比
{
printf("%s is correct\n", S.elem);
flag = 0;
break;
}
*/
if (strcmp(L[i].elem, S.elem) == 0)
{
printf("%s is correct\n", S.elem);
flag = 0; //flag是标志,若flag = 1则说明不完全匹配,要寻找近似项,否则完全匹配,直接输出correct
break;
}
}
if (flag)
{
printf("%s:", S.elem);
for (i = 0; i < n; i++)
{
// printf("%s:", S.elem);//这句话要放到for循环的外面,因为这个for循环只是针对一个单词进行的,所以只需要输出一个标题
if (S.length == L[i].length + 1)//寻找比不完全匹配项多一个字符的近似项
{
sum = 0; //每次判断结束后要把 sum 初始化,要不然第一次循环以后 sum 就变了,要放到for循环的外面
//注意是判断结束后 sum 初始化,不是循环中每次都初始化,那sum就失去意义了
//你写的for(j = 0,t = 0.sum = 0; L[i].elem[j] != '\0'; j++, t++)每进行一次循环sum就初始化一次,那就实现不了 sum 计数的目的了
for (j = 0, t = 0; L[i].elem[j] != '\0'; j++, t++) //因为近似项比匹配项短,所以循环的截止条件是近似项(字典中的项)结束
{
if (L[i].elem[j] != S.elem[t])//记录有几个字符不匹配
{
sum++; //计数
j--; //用于比较的匹配字符的那个字母不变,为了应对have与behave的类似情况匹配
}
if (sum >= 2) //超过2个就不用比较了
break;
}
if (sum <= 1)
printf(" %s", L[i].elem); //输出符合条件的字符
}
if (S.length == L[i].length - 1) //寻找比匹配项少一个字符的近似项
{
sum = 0; //初始化sum
for (j = 0, t = 0; S.elem[t] != '\0'; j++, t++) //因为匹配项比近似项短,所以循环的截止条件是匹配项(参与比较判断的项)结束
{
if (L[i].elem[j] != S.elem[t]) //记录有几个字符不匹配
{
sum++;
t--;
}
if (sum >= 2)
break;
}
if (sum <= 1)
printf(" %s", L[i].elem);
}
if (S.length == L[i].length) //寻找长度相同但只有一个字符不同的匹配项
{
sum = 0;
for (j = 0, t = 0; L[i].elem[j] != '\0'; j++, t++)
{
if (L[i].elem[j] != S.elem[t]) //记录有几个字符不匹配
sum++;
//因为一样长所以只要有超过2个匹配不上就直接错了,不存在匹配项是近似项子串的问题
if (sum >= 2)
break;
}
if (sum <= 1)
printf(" %s", L[i].elem);
}
}
printf("\n");
}
}
int main()
{
while (scanf("%s", L[n].elem) != EOF)//要添加截止条件,要不然就输出超限
{
if (L[n].elem[0] == '#')
break;
L[n].length = strlen(L[n].elem);
n++;
}
while (scanf("%s", S.elem) != EOF)
{
if (S.elem[0] == '#')
break;
S.length = strlen(S.elem);
InitList(S);
}
return 0;
}
算法分析
后续补充,敬请关注
声明:本文由博主原创,请同学们自己借鉴思考后,独立完成课程设计的有关题目,请勿直接复制粘贴,祝同学们课程设计顺利(课程设计后的期末考试也要加油哦!)
如果发现本文有那些错误和问题请及时私信博主,感谢各位大佬批评指正!
看都看了,点个赞再走吧!
魔乐社区(Modelers.cn) 是一个中立、公益的人工智能社区,提供人工智能工具、模型、数据的托管、展示与应用协同服务,为人工智能开发及爱好者搭建开放的学习交流平台。社区通过理事会方式运作,由全产业链共同建设、共同运营、共同享有,推动国产AI生态繁荣发展。
更多推荐


所有评论(0)