Glossary

0-9

6DoF pose estimation 4D data 5G + AI 1-shot learning 0-shot learning 3D convolution 8-bit quantization 7D representation 2-stage detector 9-layer network

A

Artificial Intelligence (AI)AGI / Artificial General Intelligence Autoencoder Attention Algorithm

B

Backpropagation BERT Bias Boosting Batch Normalization

C

Classifier / Classification CNN / Convolutional Neural Network Clustering Cross-Validation Chatbot

D

Data Augmentation Deep Learning Deepfake Deterministic Model Discriminative Model

E

Ensemble Learning Encoder Embedding Epoch Explainable AI (XAI)

F

Fine-tuning Fusion / Multimodal Fusion Feature Extraction Forward Propagation Foundation Model

G

GAN / Generative Adversarial Network Gradient Descent Grounding Generative AI Graph Neural Network (GNN)

H

Hierarchical Model Heuristic Hallucination Hidden Layer Hyperparameter

I

Instance / Sample Instruction tuning Intelligence Amplification / Augmentation Interpretability Imbalanced Data

J

Juxtaposition Jittering JAX Joint Embedding JSONL / JSON-lines

K

K-Shot Learning Kernel Trick K-means Clustering Knowledge Distillation KL Divergence (Kullback–Leibler Divergence)

L

Learning Rate Large Language Model (LLM)Loss Function Latent Variable LSTM / Long Short-Term Memory

M

Machine Learning (ML)Meta-learning Model Multi-head Attention Multimodal / Multimodality

N

NLP / Natural Language Processing Novelty Detection / Anomaly Detection NLU / Natural Language Understanding Normalization Neural Network

O

Online Learning Objective Function One-hot Encoding Overfitting Optimizer

P

Pretraining Pooling Parameter Policy / Reinforcement Learning Policy Prompt

Q

Q-learning Queue / Buffer Quantization Quality Estimation Query

R

Reinforcement Learning (RL)Retrieval Augmented Generation (RAG)Representation Learning Regularization RNN / Recurrent Neural Network

S

Self-Supervised Learning Supervised Learning Sequence Modeling Sampling Softmax

T

Tuning / Hyperparameter Tuning Tokenizer Training Data Transfer Learning Transformer

U

Unsupervised Learning Universal Approximation Theorem Underfitting Uncertainty Estimation U-Net

V

Vector Embedding Variational Autoencoder (VAE)Validation Set Vision Transformer (ViT)Vanishing / Exploding Gradient

W

Weight Decay Weak Supervision Whitening / Whitening Transformation Word Embedding Workflow

X

XOR problem XAI / Explainable AI X-axis / feature axis XLM XLNet

Y

Y-axis / feature axis Yield (model yield / throughput)YAGNI (You Aren't Gonna Need It)Y-transform / YUV Yoga of AI

Z

Zero-shot Learning / Zero-shot inference Zero-centric / Zero-bias initialization Z-score Normalization Zero-gradient phenomenon Zygosity in augmentation

Qué es LSTM / Memoria a Largo y Corto Plazo

LSTM (Memoria a Largo y Corto Plazo) es un tipo especial de red neuronal recurrente (RNN) diseñada para procesar y predecir secuencias de datos. Introducida por Hochreiter y Schmidhuber en 1997, aborda los problemas de desvanecimiento y explosión del gradiente que suelen encontrarse en las RNN tradicionales al manejar secuencias largas. La estructura de LSTM permite que retenga información durante largos períodos, lo que lo hace adecuado para tareas que implican series temporales, procesamiento de lenguaje natural y reconocimiento de voz.

El núcleo de LSTM reside en su estructura de celda única, que incluye una puerta de entrada, una puerta de olvido y una puerta de salida. Estos mecanismos de puerta ayudan a LSTM a decidir cuándo mantener, actualizar o descartar información. Este mecanismo operativo permite que LSTM sobresalga en tareas que requieren memoria a largo plazo, como generación de texto y traducción automática.

En la práctica, LSTM se ha utilizado ampliamente en varios campos, como previsión de datos financieros, modelado climático, reconocimiento de voz y análisis de video. Sin embargo, su estructura compleja y altas demandas computacionales son desventajas significativas.

De cara al futuro, a medida que las tecnologías de aprendizaje profundo continúan evolucionando, LSTM puede combinarse con otras tecnologías emergentes, como modelos Transformer, para mejorar aún más la eficiencia y eficacia del procesamiento. Por lo tanto, comprender la mecánica operativa de LSTM y sus aplicaciones en el aprendizaje profundo moderno es crucial.