Чтобы бот мог отвечать на вопросы по вашей предметной области, необходимо предоставить ему базу знаний, которая может быть представлена в виде веб-сайта, google документа, файлов, либо произвольных текстовых данных.

Чем полнее и точнее ваша база знаний, тем лучше отвечает бот.

Добавление веб-сайта

Для добавления веб-сайта необходимо указать адрес сайта и выбрать парсер.

Парсер по умолчанию подходит для большинства веб-сайтов. Также доступны парсеры, подходящие под конкретные платформы, например Google Sheets или Notion.

Можно выбрать стратегию обхода веб-сайта:

  • Весь сайт - парсинг всех страниц с тем же доменом.
  • Одна страница - парсинг только этой страницы.
  • Папка - парсинг всех страниц, которые начинаются также, как заданный URL.

Документ Google Sheet

Документ Google Sheet должен содержать два столбца:

  • первый столбец - заголовок статьи;
  • второй столбец - тело статьи.

Таким образом, каждая строка документа - это как одна статья в базе знаний.

Сайты и html страницы, опубликованные google документы

Страницы разбиваются на части (фрагменты) по заголовкам h1, h2, … Например, для такой структуры статьи:

Главный заголовок

Общие данные

подзаголовок 1

Данные 1

подзаголовок 2

Данные 2

получится 3 чанка,

  1. title = h1, headings = [h1], content = “Общие данные”
  2. title = h1, headings = [h1, h2], content = “Данные 1”
  3. title = h1, headings = [h1, h2], content = “Данные 2”

Это важно учитывать при написании страниц, т.к. при поиске ответов Wikibot ищет фрагменты похожие на вопрос пользователя. Если фрагменты будут очень маленькие, то каждый из них не будет содержать всего ответа.

Если у вас нет Базы знаний, то самым простым вариантом обучения бота будет создать Google документ. Опишите в нем всё, что должен знать бот. Обязательно добавьте стили заголовков для смысловых групп. Опубликуйте документ Файл -> Поделиться -> Опубликовать в интернете. Используйте полученную ссылку для добавления источника данных.

Добавление файла

Добавление текстовых данных из файла. На данный момент поддерживаются форматы pdf и docx.

Для лучшей индексации docx для всех смысловых заголовков в вашем тексте рекомендуется использовать стили Заголовок 1, Заголовок 2, Заголовок 3 (Heading 1, Heading 2, Heading 3).

После добавления файла он будет автоматически проиндексирован.

Максимальный размер файла - 10 МБ.

Для каждого типа файлов автоматически создается один источник данных:

  • PDF
  • DOCX

Добавление произвольных данных

Укажите заголовок и произвольные текстовые данные, нажмите добавить. Данные будут автоматически добавлены в индекс бота. Также автоматически будет создан источник данных - PRIVATEDATA.

Работа с индексом

Индекс представляет собой набор всех данных, доступных боту для генерации ответа.

Удаление отдельных веб-страниц из индекса невозможно, так как они будут перекачены при следующей перезагрузке веб-сайта. Если какая-то страница является нежелательной, то её можно исключить из индекса. Для этого установите галочку напротив этой страницы и нажмите Удалить из индекса. Добавить в индекс вернет удаленные страницы обратно в индекс.

Вы можете перезагрузить отдельные веб-страницы, если внесли в них какие-то изменения. Для этого поставьте галочки напротив нужных страниц и нажмите Перезагрузить страницы.

Работа со страницами

Справа от каждой загруженной страницы есть меню, через которое можно добавить дополнительный контент для лучшего поиска страницы, а также сгенерировать вопросы и ответы для Первой линии.

Дополнительный контент

Дополнительный контент добавляется в начало каждого фрагмента и позволяет точнее находить статью по время генерации ответа.

Для этого нажмите кнопку Добавить контент в выпадающем меню напротив каждого документа.

Генерация вопросов и ответов

Вы можете сгенерировать вопросы и ответы для Первой линии на основе содержимого страницы. Для этого на странице просмотра нажмите Сгенерировать интенты.

В зависимости от содержимого страницы будет сгенерировано до 10 вопросов и ответов. Стоимость такой генерации составляет 1 кредит.

Во время процесса генерации будет показан желтый баннер загрузки. По завершении процесса на этом баннере появится кнопка Просмотреть, которая перенаправит вас на страницу с итоговым списком вопросов и ответов, где вы сможете добавить их в Первую линию.

Управление источниками данных

Нажмите Редактировать источники данных, чтобы посмотреть все подключенные источники данных.

В этом окне вы можете удалить, перезагрузить или скопировать источник данных.

Удаление источника данных удалит все связанные с ним страницы данных из индекса. Например, удаление источника данных PDF удалит все загруженные файлы формата pdf.