Jump to content

LangExtract 1.1.1

¿Quieres enterarte al momento de las nuevas descargas? Síguenos en Twitter, Mastodon o Threads!

LangExtract es una biblioteca de Python que utiliza LLMs para extraer información estructurada de documentos de texto no estructurados basándose en las instrucciones definidas por el usuario.

Procesa materiales como notas clínicas o informes, identificando y organizando detalles clave mientras garantiza que los datos extraídos correspondan al texto original.

¿Por qué LangExtract?

  • Fundamentación precisa en la fuente: Mapea cada extracción a su ubicación exacta en el texto original, permitiendo el resaltado visual para facilitar la trazabilidad y la verificación.
  • Resultados estructurados fiables: Impone un esquema de salida consistente basado en tus ejemplos de pocos disparos (few-shot), aprovechando la generación controlada en modelos compatibles como Gemini para garantizar resultados robustos y estructurados.
  • Optimizado para documentos largos: Supera el desafío de la "aguja en el pajar" en la extracción de documentos grandes mediante el uso de una estrategia optimizada de fragmentación de texto, procesamiento en paralelo y múltiples pasadas para una mayor recuperación de datos.
  • Visualización interactiva: Genera instantáneamente un archivo HTML interactivo e independiente para visualizar y revisar miles de entidades extraídas en su contexto original.
  • Soporte flexible de LLM: Admite tus modelos preferidos, desde LLMs basados en la nube como la familia Google Gemini hasta modelos locales de código abierto a través de la interfaz integrada de Ollama.
  • Adaptable a cualquier dominio: Define tareas de extracción para cualquier sector utilizando solo unos pocos ejemplos. LangExtract se adapta a tus necesidades sin requerir ningún ajuste fino (fine-tuning) del modelo.
  • Aprovecha el conocimiento general del LLM: Utiliza una redacción precisa en las instrucciones (prompts) y ejemplos de pocos disparos para influir en cómo la tarea de extracción puede utilizar el conocimiento del LLM. La precisión de cualquier información inferida y su cumplimiento con la especificación de la tarea dependen del LLM seleccionado, la complejidad de la tarea, la claridad de las instrucciones y la naturaleza de los ejemplos proporcionados.

LangExtract es un proyecto de Google.


Que novedades incluye la versión 1.1.1   See changelog

Released

Mejoras

  • Se ha añadido soporte para tokenizador multiidioma con Unicode y Regex (#284).
  • Se ha mejorado significativamente el soporte para idiomas CJK (chino, japonés y coreano).
  • Se ha optimizado el procesamiento de escrituras no latinas.

Corrección de errores

  • Se ha corregido el paso del parámetro de proyecto en la API de lotes de Gemini (#286).
  • Se ha resuelto el error "Required parameter: project" al utilizar Vertex AI.
No te pierdas nada, síguenos en Twitter, Mastodon o Threads!
Preguntas, aportes y peticiones en el foro.

×
×
  • Crear nuevo...