1、错位为nlkt缺少数据包,使用了nltk自动下载也是失败;

2、解决方案:

在github下载nlkt_data数据包

链接:nlkt_data

3、在主目录新建一个nlkt_data文件夹,将packages下的所有文件放入该文件夹

4、解压nlkt_data的压缩文件,脚本如下,注意修改自己的路径:

import os
import zipfile

# 定义要处理的根目录
root_dir = os.path.expanduser('/home/li/nltk_data')

# 递归遍历目录及其子目录
for root, dirs, files in os.walk(root_dir):
    for file in files:
        if file.endswith('.zip'):
            print(f"发现压缩包 {file}")
            zip_file_path = os.path.join(root, file)
            try:
                # 打开压缩包
                with zipfile.ZipFile(zip_file_path, 'r') as zip_ref:
                    # 解压到当前目录
                    zip_ref.extractall(root)
                print(f"已解压 {zip_file_path}")
            except zipfile.BadZipFile:
                print(f"无法解压 {zip_file_path},可能是损坏的压缩包。")

5、在~/.bashr文件夹下添加环境变量

sudo vi ~/.bashrc
export NLTK_DATA="/home/li/nltk_data"
source ~/.bashrc

6、测试

from langchain_community.document_loaders import UnstructuredMarkdownLoader
loader = UnstructuredMarkdownLoader('./123.md',mode="elements",
    strategy="fast",)
documents = loader.load()
documents[0].page_content

 

 

 

Logo

魔乐社区(Modelers.cn) 是一个中立、公益的人工智能社区,提供人工智能工具、模型、数据的托管、展示与应用协同服务,为人工智能开发及爱好者搭建开放的学习交流平台。社区通过理事会方式运作,由全产业链共同建设、共同运营、共同享有,推动国产AI生态繁荣发展。

更多推荐