Что такое document loader в LangChain и как работают text splitters (RecursiveCharacterTextSplitter)?

Question

Accepted Answer

Document Loaders — загрузка документов

Document Loader загружает данные из источника и возвращает список объектов Document(page_content: str, metadata: dict). Все лоадеры реализуют метод load() (или lazy_load() для больших файлов).

from langchain_community.document_loaders import (
    TextLoader,
    PyPDFLoader,
    WebBaseLoader,
    CSVLoader,
)

# Загрузка текстового файла
loader = TextLoader("readme.txt", encoding="utf-8")
docs = loader.load()
print(docs[0].page_content[:100])
print(docs[0].metadata)  # {'source': 'readme.txt'}

# Загрузка PDF (каждая страница = отдельный Document)
pdf_loader = PyPDFLoader("report.pdf")
pdf_docs = pdf_loader.load()  # len == кол-во страниц

# Ленивая загрузка большого CSV
csv_loader = CSVLoader("data.csv", encoding="utf-8")
for doc in csv_loader.lazy_load():
    print(doc.page_content[:80])

RecursiveCharacterTextSplitter — рекурсивное разбиение

RecursiveCharacterTextSplitter — рекомендуемый по умолчанию сплиттер. Пробует разбить по [" ", " ", " ", ""] — от крупных структур (абзацы) к символам.

from langchain_text_splitters import RecursiveCharacterTextSplitter

splitter = RecursiveCharacterTextSplitter(
    chunk_size=1000,       # максимальный размер чанка в символах
    chunk_overlap=200,     # перекрытие между чанками (сохраняет контекст)
    separators=["

", "
", ". ", " ", ""],  # порядок разделителей
    length_function=len,   # можно заменить на tiktoken-счётчик токенов
)

text = """Первый абзац текста.

Второй абзац.
Продолжение второго абзаца. Ещё предложение."""

chunks = splitter.split_text(text)
print(len(chunks), chunks[0])

# Разбиение загруженных Document-объектов
from langchain_community.document_loaders import TextLoader
loader = TextLoader("big_doc.txt")
docs = loader.load()
split_docs = splitter.split_documents(docs)
# metadata['source'] и metadata['start_index'] сохраняются

Счётчик токенов вместо символов

import tiktoken
from langchain_text_splitters import RecursiveCharacterTextSplitter

enc = tiktoken.encoding_for_model("gpt-4o")

def tiktoken_len(text: str) -> int:
    return len(enc.encode(text))

splitter = RecursiveCharacterTextSplitter(
    chunk_size=512,        # токены, а не символы
    chunk_overlap=50,
    length_function=tiktoken_len,
)

Специализированные сплиттеры

CharacterTextSplitter — разбивает строго по одному разделителю (например, " ").
MarkdownHeaderTextSplitter — сохраняет структуру заголовков в metadata.
HTMLHeaderTextSplitter — разбивает по тегам
–
.
SemanticChunker (langchain-experimental) — разбивает по семантическому сходству эмбеддингов.

Подводные камни

chunk_overlap=0 теряет контекст на границах — факты, начатые в конце одного чанка, не попадут в следующий; рекомендуется 10–20% от chunk_size.
Счётчик по символам (len) и по токенам (tiktoken) дают разные размеры — для GPT-моделей с контекстным лимитом в токенах нужен tiktoken.
PyPDFLoader плохо обрабатывает колоночный PDF и таблицы — для сложных PDF используйте UnstructuredPDFLoader или PDFMinerLoader.
WebBaseLoader парсит HTML через BeautifulSoup — теги, скрипты и стили попадают в page_content, если не настроить bs_kwargs.
lazy_load() не поддерживается всеми лоадерами — проверяйте, иначе получите NotImplementedError в runtime.
metadata['source'] из лоадера теряется, если вызывать split_text() вместо split_documents() — используйте второй метод для сохранения источника.
Слишком маленький chunk_size (< 200 символов) приводит к потере контекста в ответах RAG и росту числа чанков, что замедляет retrieval.

Что такое document loader в LangChain и как работают text splitters (RecursiveCharacterTextSplitter)?

Document Loaders — загрузка документов

RecursiveCharacterTextSplitter — рекурсивное разбиение

Счётчик токенов вместо символов

Специализированные сплиттеры

Подводные камни

Common mistakes

What the interviewer is testing

Sources

Related topics