Aspectos generales del procesamiento de archivos (A3C34B1D04)

Introducción

Los archivos son estructuras que permiten el almacenamiento de datos persistentes en el tiempo, es decir, aunque el ordenador esté apagado su información no se pierde.

Sobre los archivos se pueden ejecutar distintas operaciones como el acceso o la modificación de los datos, pero para ejecutarlas lo primero que debemos saber es cuál es la estructura del archivo, es decir, como están organizados los datos.

Aunque no es obligatorio que los archivos sigan una estructura concreta, la mayoría de los archivos siguen una estructura bien definida para facilitar las operaciones a realizar sobre él.

Atención

En muchas ocasiones nos referimos a los archivos con los términos: ficheros o documentos.

Estructura de un archivo

Normalmente, los archivos se organizan mediante registros. Cada registro representa la unidad de información que se quiere almacenar. Estas unidades normalmente son compuestas, es decir, pueden subdividirse en otros datos más simples. Estos datos se conocen técnicamente como campos. Normalmente, un campo suele referirse a un valor simple como podría ser un valor numérico o una palabra o texto. Además, cuando un campo identifica de forma unívoca un registro, este recibe el nombre de campo clave.

De una forma más gráfica, un archivo podría ser visto de esta manera.

Ejemplo

Suponiendo que tenemos que gestionar la información de un hospital, entre la información crítica a guardar están los informes clínicos de todos sus pacientes. En este caso, cada paciente representará un registro, es decir, una fila en el archivo. Así pues, ¿cuántas filas tendrá este archivo? Pues tantas como pacientes tenga el hospital.

Los campos del archivo son los datos particulares que se guardan sobre cada paciente concreto. Algunos ejemplos de estos datos serían el DNI del paciente, su nombre, su domicilio, o su fecha de nacimiento, entre otros.

En este caso, si quisiéramos localizar de forma única a un paciente, a través de su DNI podríamos hacerlo. Este sería el campo clave de este archivo.

Atención

No es obligatorio que exista un campo clave en un fichero.

La estructura lógica de un archivo sirve para que el programador entienda cómo están ordenados los datos en el archivo.

Así, desde un punto de vista lógico, la estructura interna de los historiales clínicos tendría una forma como esta.

Sin embargo, un archivo normalmente no guarda esta información, sino solo los datos de cada paciente. Es tarea del programador conocer la organización del archivo para entender los datos. Así, un ejemplo del posible contenido que tendría un archivo real siguiendo esta estructura de datos sería este.

Existen excepciones de archivos que contienen toda la información, tanto la estructura del archivo como los datos. Un ejemplo son los archivos XML. XML es un metalenguaje que permite definir lenguajes de marcas y permite almacenar grandes cantidades de información de forma legible y compartirla entre distintos sistemas operativos y plataformas. Cada marca tiene la forma <marca contenido </marca> como se aprecia en esta imagen.

Tipos de archivos

Existen distintos tipos de archivos. Según la forma en la que almacenan los datos, hay dos tipos principales: archivos binarios y archivos de texto plano.

Los archivos de texto plano son aquellos en los que puedes ver su contenido simplemente abriéndolos con un simple editor de texto plano como Notepad. El ejemplo típico son los archivos con la extensión “.txt”. Su gran ventaja es que son fácilmente legibles por cualquier persona.

Atención

Aunque no es obligatorio, los archivos suelen tener una extensión que los asocia con la aplicación que permite abrirlos.

Los archivos binarios guardan la información en formato binario, es decir, el que procesa el microprocesador de cualquier ordenador, por lo que son más eficientes. Por el contrario, los archivos de texto deben traducirse a código binario para que lo entienda el ordenador, por lo que son menos eficientes. Ejemplos típicos son los archivos de video “.mp4”, los archivos de imagen “.jpg” o los archivos de Microsoft Office “.doc”.

Según la forma en la que se leen los datos, los archivos pueden clasificarse como secuenciales o de acceso aleatorio. Un archivo de acceso secuencial es aquel en el que, para acceder a un dato, previamente es necesario recorrer todos los datos anteriores. Por el contrario, un archivo de acceso aleatorio permite acceder a cualquier dato de forma inmediata.

Dependiendo del tipo de aplicación que se quiere implementar, deberá seleccionarse el tipo de archivo que resulte más adecuado.