Script en Python para obtener datos de un Post y generar Markdown c...

Existen tareas que realizamos diariamente que podrían automatizarse, esto nos ahorraría mucho tiempo para usar en otras cosas productivas, nos evitaría cometer errores y eliminaríamos esa sensación de fastidio de tener que repetir lo mismo día tras día.

Esta es una forma perfecta de mantener la práctica de escribir código en Python para seguir aprendiendo y realizar ejercicios útiles en las tareas cotidianas.

En esta ocasión, creé un script usando el método de web scraping, para obtener la información necesaria para crear los post de curación de la cuenta @visualblock. Esta información se obtiene usando los enlaces de cada post, donde el script se interna en el HTML del post y extrae los datos que les pedimos.

Para este Script me apoyé en la biblioteca requests y beautifulsoup4, esta última la consideré la forma más sencilla de obtener los datos y más fácil de entender para mi.

El flujo del script es el siguiente:

Se inicializa un contador que nos va enumerar los post.
Se abre el archivo de texto para escribir la salida (salida.txt) y se leen los enlaces del archivo de texto enlaces.txt.

Se recorre cada enlace con un ciclo for de la lista de enlaces de enlaces.txt. Se envía la solicitud GET a la URL, usando la biblioteca requests. Luego se crea un objecto BeautifulSoup (ver documentación) a partir de la respuesta. Los datos nombre de usuario, título y URL de la imagen principal se guardan en variables. Si existe un ellos en un enlace, se imprime la respuesta en el archivo salida.txt.

Es importante comentar que este script funciona con enlaces de https://ecency.com. Me ha dado algunos errores con https://peakd.com y https://hive.blog , pero es algo que se puede solucionar más adelante.

Al final imprime la salida tanto en la terminal como en el archivo salida.txt.

Código fuente:


import requests
from bs4 import BeautifulSoup

contador = 0

# Abrir el archivo de texto para escribir la salida
with open('salida.txt', 'w') as file:
  
  # Leer los enlaces desde un archivo de texto
  with open('enlaces.txt', 'r') as f:
    enlaces = [line.strip() for line in f]

  for url in enlaces:

    contador += 1
    response = requests.get(url)
    soup = BeautifulSoup(response.content, 'html.parser')

    try:
      # Obtener el nombre de usuario
      username = soup.find('span', class_='author-name').text.strip()

      # Obtener el título del artículo
      title = soup.find('meta', property='og:title')['content']

      # Obtener la URL de la imagen principal
      image_url = soup.find('meta', property='og:image')['content']

      # Escribir la salida en el archivo de texto
      file.write(f"""

---

{image_url}

---

#### Post #{contador}

[{title}]({url})
by @{username}

---

""")

# Imprimir la salida en la consola
      
      print(f"""
#{contador}
Usuario: {username}
Título del Post: {title}
Url de la imagen: {image_url}
---
""")

    except Exception as e:
      # Manejar los errores y escribirlos en el archivo de texto
      file.write(f"Error procesando el enlace {url}: {e}\n")
      print(f"Error procesando el enlace {url}: {e}\n")

  print("La salida se ha generado exitosamente en el archivo 'salida.txt'")

Salida de ejemplo:

Esto me automatiza la tarea diaria de crear los post de curación de @visualblock,. El siguiente paso será ejecutar este script a través de un bot de discord, leyendo los últimos post de un canal determinando y generar todo el texto del post de curación. Además de usar la API de Hive.

Espero que le sea de utilidad. Puede clonar el código fuente desde los repositorios de Github para su libre uso. Ver aquí. Allí obtendrá información adicional para instalación del entorno virtual e instalación de bibliotecas. Cualquier comentario o aporte para el código es bienvenido.

Las imágenes son mías o capturas de pantalla tomadas por mí, a menos que se indiquen fuentes externas.

Discord: alberto0607#6813
Twitter: Twitter

Script en Python para obtener datos de un Post y generar Markdown con un clic

Código fuente: