langchain导入markdown文档报错
1、错位为nlkt缺少数据包,使用了nltk自动下载也是失败;在github下载nlkt_data数据包,也可在我这下载。3、解压nltk_data-gh-pages.zip。再次执行代码即可成功。
·
1、错位为nlkt缺少数据包,使用了nltk自动下载也是失败;
2、解决方案:
在github下载nlkt_data数据包
链接:nlkt_data
3、在主目录新建一个nlkt_data文件夹,将packages下的所有文件放入该文件夹
4、解压nlkt_data的压缩文件,脚本如下,注意修改自己的路径:
import os
import zipfile
# 定义要处理的根目录
root_dir = os.path.expanduser('/home/li/nltk_data')
# 递归遍历目录及其子目录
for root, dirs, files in os.walk(root_dir):
for file in files:
if file.endswith('.zip'):
print(f"发现压缩包 {file}")
zip_file_path = os.path.join(root, file)
try:
# 打开压缩包
with zipfile.ZipFile(zip_file_path, 'r') as zip_ref:
# 解压到当前目录
zip_ref.extractall(root)
print(f"已解压 {zip_file_path}")
except zipfile.BadZipFile:
print(f"无法解压 {zip_file_path},可能是损坏的压缩包。")
5、在~/.bashr文件夹下添加环境变量
sudo vi ~/.bashrc
export NLTK_DATA="/home/li/nltk_data"
source ~/.bashrc
6、测试
from langchain_community.document_loaders import UnstructuredMarkdownLoader
loader = UnstructuredMarkdownLoader('./123.md',mode="elements",
strategy="fast",)
documents = loader.load()
documents[0].page_content
魔乐社区(Modelers.cn) 是一个中立、公益的人工智能社区,提供人工智能工具、模型、数据的托管、展示与应用协同服务,为人工智能开发及爱好者搭建开放的学习交流平台。社区通过理事会方式运作,由全产业链共同建设、共同运营、共同享有,推动国产AI生态繁荣发展。
更多推荐

所有评论(0)