How to extract some data from web with Python?

Hi everyone,

I’m trying to extract data from the web. But it’s a particular process that I’m asked to do.

  • I’m trying to extract data from this web search: “boe se desestima declaración de impacto ambiental Dirección General de Política Energética y Minas”.

    • Then, I have to open the BOE.es links, which usually link to this kind of webpage, the structure is identical from year to year. From there, I need to extract to a .csv file the text that is found under:

“TEXTO ORIGINAL, I. Hechos”:
“Primero. Solicitud de autorización administrativa previa.”
The text found there.

I also need to extract the publication date from the BOE, which is given at the top of the web page in question; and create a column with this word: " desestima", which means “rejects” in English.

I am really new in webscrapping and I need your help, please.

  • Do any of you know how to extract this, please?

I don’t know if this is useful, but each of these webpages has a link to the web page shown in PDF, and also in XML.

I really appreciate your help.
Thank you so much in advance for your help.

I hope that is possible.
Best,

Michael

I think these web pages are simple enough (do not use javascript) that you can use the requests module from PyPI.com to load the page.
Note: if the pages turn out to need Javascript to run then you would need to use selenium and things got a lot more complex.

Then you could use beautifulsoup4 · PyPI to extract data from the page.

You can use the standard python module csv to write out the results.

1 Like

Hi @barry-scott,

Thank you so much for your suggestion. I will give a try.
Lovely day.

Michael

Hi everyone:

Here is what I tried, but not sure it is totally efficient. Indeed, it’s long, and certainly not worthy of a programmer. Some of you will certainly have sore eyes…

from bs4 import BeautifulSoup
import pandas as pd

# Assuming html_source contains your HTML content
html_source = """

from bs4 import BeautifulSoup
import pandas as pd

# Assuming html_source contains your HTML content
html_source = """

<!DOCTYPE html>
<html lang="es">
  <head>
    <meta charset="utf-8" />
    <meta http-equiv="X-UA-Compatible" content="IE=edge" />
    <meta name="format-detection" content="telephone=no">
    <meta name="Description" content="BOE-A-2023-24090 Resolución de 16 de noviembre de 2023, de la Dirección General de Política Energética y Minas, por la que se desestima la solicitud de Green Capital Development I, SL, de autorización administrativa previa del parque eólico Abano, de 76,5 MW de potencia instalada, y de su infraestructura de evacuación, en la provincia de León." />
    <title>BOE-A-2023-24090 Resolución de 16 de noviembre de 2023, de la Dirección General de Política Energética y Minas, por la que se desestima la solicitud de Green Capital Development I, SL, de autorización administrativa previa del parque eólico Abano, de 76,5 MW de potencia instalada, y de su infraestructura de evacuación, en la provincia de León.</title>
    <link rel="shortcut icon" href="/favicon.ico" />
    <link rel="icon" href="/favicon.ico" type="image/x-icon" />
    <link rel="apple-touch-icon" href="/apple-touch-icon.png">
    <base target="_top" />
    <link type="text/css" href="/estilos/boe.css" rel="stylesheet"/>
    <link rel="stylesheet" href="/estilos/texto.css" type="text/css">
    <link rel="stylesheet" href="/estilos/diario-boe.css" type="text/css">
  
    <link rel="canonical" href="https://www.boe.es/diario_boe/txt.php?id=BOE-A-2023-24090"/>
    <!--[if lt IE 10]>
    <link rel="stylesheet" type="text/css" href="/estilos/boe_ie9.css" />
    <![endif]-->
    <!--[if lt IE 9]>
    <link rel="stylesheet" type="text/css" href="/estilos/boe_ie8.css" />
    <![endif]-->
    <meta name="viewport" content="width=device-width, initial-scale=1.0" />
  </head>
  <body>
    <div id="header">
      <h1 class="fuera">Agencia Estatal Bolet&iacute;n Oficial del Estado</h1>
      <ul class="fuera">
        <li><a accesskey="c" href="#contenedor" tabindex="-1">Ir a contenido</a></li>
        <li><a accesskey="5" href="/diario_boe/" tabindex="-1">Consultar el diario oficial BOE</a></li>
      </ul>
      <div id="logosInicio">
        <span id="logoPresidenciaMovil"><a href="http://www.mpr.es/" title="Ir al Ministerio de la Presidencia"><img src="/imagenes/logoMPRmovil.png" srcset="/imagenes/logoMPRmovil.svg" alt="Ministerio de la Presidencia"></a></span>
        <span id="logoPresidencia"><a href="http://www.mpr.es/" title="Ir al Ministerio de la Presidencia"><img src="/imagenes/logoMPR.png" srcset="/imagenes/logoMPR.svg" alt="Ministerio de la Presidencia"></a></span>

        <span id="logoAgencia"><a accesskey="1" href="/" title="Ir a la p&aacute;gina de inicio"><img src="/imagenes/logoBOE.gif" srcset="/imagenes/logoBOE.svg" alt="Agencia Estatal Bolet&iacute;n Oficial del Estado"></a></span>
        
      </div> <!-- #logosInicio -->
    </div> <!-- #header -->
    <div id="top" class="banda-menu">
    <div class="menu-wrapper">
      <div id="logo-movil-boe-container">
        <a href="/" title="Ir a la p&aacute;gina de inicio"><img alt="Agencia Estatal Bolet&iacute;n Oficial del Estado" src="/imagenes/logoBlanco128.png"></a>
      </div>
      <ul class="menu">
        <li class="menu-item menu-idiomas">
          <div id="selector-idioma">
            <p class="fuera">Puede seleccionar otro idioma:</p>
            <input id="activar-idiomas" type="checkbox" class="fuera">
            <label class="idioma-actual" for="activar-idiomas" title="Haga clic o utilice barra espaciadora para abrir o cerrar opciones"><span class="descripcion-idioma pc tablet">Castellano</span><span class="descripcion-idioma movil">es</span><span class="triangulo"><span></span></span></label>
            <ul id="lista-idiomas">
              <li><a href="txt.php?lang=es&amp;id=BOE-A-2023-24090" lang="es" hreflang="es" title="Cambiar a espa&ntilde;ol/castellano"><span aria-hidden="true" class="idioma"><abbr title="espa&ntilde;ol/castellano">es</abbr><em>Castellano</em></span></a></li>
              <li><a href="txt.php?lang=ca&amp;id=BOE-A-2023-24090" lang="ca" hreflang="ca" title="Canviar a catal&agrave;"><span aria-hidden="true" class="idioma"><abbr title="catal&agrave;">ca</abbr><em>Catal&agrave;</em></span></a></li>
              <li><a href="txt.php?lang=gl&amp;id=BOE-A-2023-24090" lang="gl" hreflang="gl" title="Cambiar a galego"><span aria-hidden="true" class="idioma"><abbr title="galego">gl</abbr><em>Galego</em></span></a></li>
              <li><a href="txt.php?lang=eu&amp;id=BOE-A-2023-24090" lang="eu" hreflang="eu" title="-ra aldatu euskara"><span aria-hidden="true" class="idioma"><abbr title="euskara">eu</abbr><em>Euskara</em></span></a></li>
              <li><a href="txt.php?lang=va&amp;id=BOE-A-2023-24090" lang="ca-valencia" hreflang="ca-valencia" title="Canviar a valenci&agrave;"><span aria-hidden="true" class="idioma"><abbr title="valenci&agrave;">va</abbr><em>Valenci&agrave;</em></span></a></li>
              <li><a href="txt.php?lang=en&amp;id=BOE-A-2023-24090" lang="en" hreflang="en" title="Change to English"><span aria-hidden="true" class="idioma"><abbr title="english">en</abbr><em>English</em></span></a></li>
              <li><a href="txt.php?lang=fr&amp;id=BOE-A-2023-24090" lang="fr" hreflang="fr" title="Changer fran&ccedil;ais"><span aria-hidden="true" class="idioma"><abbr title="fran&ccedil;ais">fr</abbr><em>Fran&ccedil;ais</em></span></a></li>
            </ul>
          </div>
        </li>
        <li class="menu-item resto">
          <a accesskey="4" href="/buscar/"><span class="botonBuscar">Buscar</span></a>
        </li>
        <li class="menu-item resto">
          <a href="/mi_boe/">
            <span class="botonMiBOE">Mi BOE <span class="luz">Desconectado.<br/>Pulse para acceder al servicio 'Mi BOE'</span></span>
          </a>
        </li>
        <li class="menu-item movil buscar">
          <a href="/buscar/">
            <img alt="Buscar" src="/imagenes/logoBuscar.png" srcset="/imagenes/logoBuscar.svg">
          </a>
        </li>
        <li class="menu-item movil">
          <a href="/mi_boe/">
            <img alt="Mi BOE" src="/imagenes/logoMiBOE.png" srcset="/imagenes/logoMiBOE.svg">
          </a>
        </li>
        <li class="menu-item menu-menu"><!--  -->
          <input id="activar-menu" name="activar" type="checkbox" title="Desplegar men&uacute;" class="fuera">
          <label class="click-desplegar resto" for="activar-menu" title="Men&uacute;: Haga clic o utilice barra espaciadora para abrir o cerrar opciones">Men&uacute;
            <span></span>
            <span></span>
            <span></span>
          </label>
          <input id="activar-menu-movil" name="activar" type="checkbox" title="Desplegar men&uacute;">
          <label class="click-desplegar movil" for="activar-menu-movil"><em>Men&uacute;</em>
            <span></span>
            <span></span>
            <span></span>
          </label>
          <div class="menu-container">
            <ul class="menu-item-list">
              <li class="menu-item first">
                <p><a href="/index.php#diarios" class="inline">Diarios Oficiales</a></p>
                <ul class="sub-menu">
                  <li><a href="/diario_boe" title="Bolet&iacute;n Oficial del Estado">BOE</a></li>
                  <li><a href="/diario_borme" title="Bolet&iacute;n Oficial del Registro Mercantil">BORME</a></li>
                  <li><a href="/legislacion/otros_diarios_oficiales.php">Otros diarios oficiales</a></li>
                </ul>
              </li>
              <li class="menu-item">
                <p><a href="/index.php#juridico">Informaci&oacute;n Jur&iacute;dica</a></p>
                <ul class="sub-menu">
                  <li><a href="/legislacion/">Todo el Derecho</a></li>
                  <li><a href="/biblioteca_juridica/">Biblioteca Jur&iacute;dica Digital</a></li>
                </ul>
              </li>
              <li class="menu-item last">
                <p><a href="/index.php#servicios-adicionales">Otros servicios</a></p>
                <ul class="sub-menu">
                  <li><a href="/notificaciones">Notificaciones</a></li>
                  <li><a href="/edictos_judiciales">Edictos judiciales</a></li>
                  <li><a href="https://subastas.boe.es">Portal de subastas</a></li>
                  <li><a href="/anuncios">Anunciantes</a></li>
                </ul>
              </li>
            </ul>
          </div> <!-- .menu-container -->
        </li><!--  -->
      </ul>
    </div> <!-- .menu-wrapper -->
    </div> <!-- .banda-menu -->
    <div id="franjaMigas">
      <div class="contMigas">
        <span class="fraseMigas">Est&aacute; <abbr title="usted">Vd.</abbr> en</span>
        <ul class="migas">
<li><a href="/">Inicio</a></li>
<li><a href="/diario_boe/">BOE</a></li>
<li><a href="/diario_boe/calendarios.php?a=2023">Calendario</a></li>
<li><a href="/boe/dias/2023/11/27/">27/11/2023</a></li>
<li class="destino">Documento BOE-A-2023-24090</li>
        </ul>
        <div id="solapa">
<div class="antPost">
  <ul class="listaHoriz">
    <li><a href="../diario_boe/txt.php?id=BOE-A-2023-24089"><span class="linkBack">anterior</span></a></li>
    <li><a href="../diario_boe/txt.php?id=BOE-A-2023-24091"><span class="linkFwd">siguiente</span></a></li>
  </ul>
</div> <!-- .andPost -->
        </div><!-- solapa -->
      </div><!-- contMigas -->
    </div> <!-- #franjaMigas -->
    <div id="contenedor">
      <div id="contenido" class="poolAgencia">
<h2 class="fuera">Documento BOE-A-2023-24090</h2>
<div class="enlacesDoc" id="barraSep">
  <h3 class="documento-tit">Resolución de 16 de noviembre de 2023, de la Dirección General de Política Energética y Minas, por la que se desestima la solicitud de Green Capital Development I, SL, de autorización administrativa previa del parque eólico Abano, de 76,5 MW de potencia instalada, y de su infraestructura de evacuación, en la provincia de León.</h3>
  <div class="metadatosDoc">
    <div class="metadatos">
      <dl>
        <dt>Publicado en:</dt>
        <dd>«<abbr title="Boletín Oficial del Estado">BOE</abbr>» <abbr title="número">núm.</abbr> 283, de 27 de noviembre de 2023, páginas 158087 a 158090 (4 <abbr title="páginas">págs.</abbr>)</dd>
        <dt>Sección:</dt>
        <dd>III. Otras disposiciones</dd>
        <dt>Departamento:</dt>
        <dd>Ministerio para la Transición Ecológica y el Reto Demográfico</dd>
        <dt>Referencia:</dt>
        <dd>BOE-A-2023-24090</dd>
      </dl>
    </div>
    <ul class="enlaces-doc">
      <li class="tit-enlaces">Otros formatos:</li>
      <li class="puntoPDF">
        <a title="Documento PDF de la publicación original" href="/boe/dias/2023/11/27/pdfs/BOE-A-2023-24090.pdf">PDF</a>
      </li>
      <li class="puntoXML">
        <a target="_blank" title="Texto y metadatos en formato XML" href="/diario_boe/xml.php?id=BOE-A-2023-24090">XML</a>
      </li>
    </ul>
  </div>
  <!-- .metadatosDoc -->
</div>
<!-- .enlacesDoc -->
<div id="DOdocText">
  <h4>TEXTO ORIGINAL</h4>
  <div id="textoxslt">
    <p class="parrafo">De acuerdo con lo establecido en el artículo 53 de la Ley 24/2013, de 26 de diciembre, del Sector Eléctrico y en el Real Decreto 1955/2000, de 1 de diciembre, por el que se regulan las actividades de transporte, distribución, comercialización, suministro y procedimientos de autorización de instalaciones de energía eléctrica, el Director General de Política Energética y Minas en base a los siguientes:</p>
    <p class="centro_negrita">I. Hechos</p>
    <h5 class="articulo">Primero. Solicitud de autorización administrativa previa.</h5>
    <p class="parrafo">Green Capital Development I, SL solicita, con fecha 29 de abril de 2021, autorización administrativa previa del parque eólico Abano, de 76,5 MW, junto con su infraestructura de evacuación, en los términos municipales de La Pola de Gordón, Matallana de Torío, Vegacervera y Valdepiélago, en la provincia de León (en adelante también, el proyecto).</p>
    <h5 class="articulo">Segundo. Admisión a trámite.</h5>
    <p class="parrafo">Esta Dirección General acreditó que la solicitud de autorización administrativa previa del proyecto de parque eólico Abano y su infraestructura de evacuación, en la provincia de León, había sido presentada y admitida a trámite.</p>
    <h5 class="articulo">Tercero. Tramitación de la solicitud conforme al Real Decreto 1955/2000, de 1 de diciembre.</h5>
    <p class="parrafo">Esta Dirección General da traslado del expediente a la Dependencia del Área de Industria y Energía de la Subdelegación del Gobierno en León, como órgano competente para la tramitación del expediente de solicitud de autorización conforme a lo dispuesto en el artículo 113 del Real Decreto 1955/2000, de 1 de diciembre.</p>
    <p class="parrafo">Conforme a lo dispuesto en el Real Decreto 1955/2000, de 1 de diciembre, y en la Ley 21/2013, de 9 de diciembre, de evaluación ambiental, la solicitud de autorización administrativa previa, acompañada del proyecto y estudio de impacto ambiental se somete a información pública, con la debida publicación en el «Boletín Oficial del Estado» y Boletín Oficial de las provincias afectadas, habiéndose solicitado igualmente los correspondientes informes a las distintas administraciones, organismos y empresas de servicio público o de servicios de interés general en la parte que la instalación pueda afectar a bienes y derechos a su cargo, así como a los organismos que deben presentar informe conforme a la Ley 21/2013, de 9 de diciembre.</p>
    <p class="parrafo">Con fecha 28 de octubre de 2022, se recibe el informe y el expediente de tramitación de la Dependencia del Área de Industria y Energía de la Subdelegación del Gobierno en León, el cual, con fecha 17 de noviembre de 2022 y complementado con fecha 7 de febrero de 2023 fue remitido a la Subdirección General de Evaluación Ambiental de la Dirección General de Calidad y Evaluación Ambiental del Ministerio para la Transición Ecológica y el Reto Demográfico, a fin de que llevase a cabo el análisis técnico del expediente de impacto ambiental y la formulación de la declaración de impacto ambiental.</p>
    <h5 class="articulo">Cuarto. Permisos de acceso y conexión.</h5>
    <p class="parrafo">El proyecto obtuvo permiso de acceso a la red de transporte mediante la emisión de Informe de Viabilidad de Acceso a la Red (IVA) en la subestación Robla 400 kV, propiedad de Red Eléctrica de España, S.A.U.</p>
    <p class="parrafo">Con fecha de 9 de octubre de 2023 tiene entrada, en el Registro de este Ministerio, escrito de Red Eléctrica de España, S.A.U., por el que se declara la caducidad de los permisos de acceso y conexión otorgados en aplicación de lo dispuesto en el Real Decreto-ley 23/2020, de 23 de junio, por el que se aprueban medidas en materia de energía y en otros ámbitos para la reactivación económica.</p>
    <h5 class="articulo">Quinto. Trámite de audiencia.</h5>
    <p class="parrafo">Con fecha de 16 de octubre de 2023 se notifica el trámite de audiencia sobre la propuesta de resolución por la que se desestima la solicitud de autorización administrativa previa, del proyecto.</p>
    <p class="parrafo">Con fecha de 8 de noviembre de 2023, el promotor presenta alegaciones en las que solicita se requiera al órgano ambiental para que lleve a cabo el proceso de evaluación de impacto ambiental en base a la realidad del proyecto, se proceda a emitir una nueva Declaración de Impacto Ambiental, se deje sin efecto la Propuesta de desestimación de la AAP, se continue con la tramitación administrativa de esta autorización y se realicen las medidas que sean oportunas con la finalidad de conservar la eficacia de los permisos de acceso y conexión del proyecto.</p>
    <p class="parrafo">Analizada la documentación recibida, esta Dirección General de Política Energética y Minas dicta la presente resolución.</p>
    <p class="centro_negrita">II. Fundamentos jurídicos</p>
    <h5 class="articulo">Primero. Normativa aplicable.</h5>
    <p class="parrafo">Tomando en consideración lo establecido en la Ley 24/2013, de 26 de diciembre, en el Real Decreto 1955/2000, de 1 de diciembre, en la Ley 21/2013, de 9 de diciembre, de evaluación de impacto ambiental, en la Ley 39/2015, de 1 de octubre, del Procedimiento Administrativo Común de las Administraciones Públicas, y en el Real Decreto 1183/2020, de 29 de diciembre, de acceso y conexión a las redes de transporte y distribución de energía eléctrica.</p>
    <h5 class="articulo">Segundo. Sobre la autorización de instalaciones de producción de energía eléctrica.</h5>
    <p class="parrafo">La Ley 24/2013, de 26 de diciembre, del Sector Eléctrico dispone, en el artículo 21 relativo a actividades de producción de energía eléctrica, que «La puesta en funcionamiento, modificación, cierre temporal, transmisión y cierre definitivo de cada instalación de producción de energía eléctrica estará sometida, con carácter previo, al régimen de autorizaciones establecido en el artículo 53 y en su normativa de desarrollo.»</p>
    <p class="parrafo">El artículo 53 regula la puesta en funcionamiento de nuevas instalaciones de transporte, distribución, producción y líneas directas, sometiéndola a la obtención de las siguientes autorizaciones administrativas: autorización administrativa previa, autorización administrativa de construcción y autorización de explotación.</p>
    <p class="parrafo">De conformidad con el artículo 3.13 de la Ley 24/2013, de 26 de diciembre, corresponden a la Administración General del Estado, en los términos establecidos en dicha ley, las siguientes competencias:</p>
    <p class="parrafo_2">«Autorizar las siguientes instalaciones eléctricas:</p>
    <p class="parrafo_2">a) Instalaciones peninsulares de producción de energía eléctrica, incluyendo sus infraestructuras de evacuación, de potencia eléctrica instalada superior a 50 MW eléctricos, instalaciones de transporte primario peninsular y acometidas de tensión igual o superior a 380 kV».</p>
    <p class="parrafo_2">[…] b) Instalaciones de producción incluyendo sus infraestructuras de evacuación, … que excedan del ámbito territorial de una Comunidad Autónoma, así como las líneas directas conectadas a instalaciones de generación de competencia estatal.</p>
    <p class="parrafo_2">Sobre la autorización administrativa previa, se dispone en el artículo 53 de la Ley 24/2013, de 26 de diciembre, que se tramitará con el anteproyecto de la instalación como documento técnico y, en su caso, conjuntamente con la evaluación de impacto ambiental, según lo dispuesto en la Ley 21/2013, de 9 de diciembre, y otorgará a la empresa autorizada el derecho a realizar una instalación concreta en determinadas condiciones. La autorización administrativa de instalaciones de generación no podrá ser otorgada si su titular no ha obtenido previamente los permisos de acceso y conexión a las redes de transporte o distribución correspondientes. Asimismo, la solicitud de autorización debe cumplir los requisitos generales administrativos recogidos, con carácter general, en la Ley 39/2015, de 1 de octubre, así como los requisitos generales técnicos que están recogidos en la normativa sectorial de aplicación.</p>
    <p class="parrafo">Por otra parte, el Real Decreto 1955/2000, de 1 de diciembre, regula, con carácter general, en los artículos 121, 122, 123 y 124, cuestiones relativas a la solicitud de autorización administrativa. En particular el artículo 124 del Real Decreto 1955/2000, de 1 de diciembre, establece que los proyectos de instalaciones de producción, transporte y distribución de energía eléctrica se someterán a evaluación de impacto ambiental cuando así lo exija la legislación aplicable en esta materia.</p>
    <p class="parrafo">El artículo 42 de la Ley 21/2013 de 9 de diciembre, establece que este órgano sustantivo deberá tener debidamente en cuenta, en el procedimiento de autorización del proyecto, la evaluación de impacto ambiental efectuada.</p>
    <h5 class="articulo">Tercero. Sobre el cumplimiento de los hitos administrativos para el acceso y conexión a las redes de transporte y distribución de electricidad.</h5>
    <p class="parrafo">El Real Decreto-ley 23/2020, de 23 de junio, por el que se aprueban medidas en materia de energía y en otros ámbitos para la reactivación económica, en su artículo 1, apartado 1 dispone que los titulares de los permisos de acceso para instalaciones de generación de energía eléctrica que hubieran obtenido dichos permisos con posterioridad al 31 de diciembre de 2017 y antes de la entrada en vigor de este real decreto-ley, deberán obtener la declaración de impacto ambiental favorable en un plazo de 31 meses y la autorización administrativa previa en un plazo de 34 meses.</p>
    <p class="parrafo">Lo anterior debe ponerse en relación con el citado artículo 53 de la Ley 24/2013, de 26 de diciembre, conforme al cual la autorización administrativa de instalaciones de generación no podrá ser otorgada si su titular no ha obtenido previamente los permisos de acceso y conexión a las redes de transporte o distribución correspondientes.</p>
    <p class="parrafo">A continuación, se añade, en el apartado 2 del artículo 1 del Real Decreto-ley 23/2020, de 23 de junio, que:</p>
    <p class="parrafo_2">«La no acreditación ante el gestor de la red del cumplimiento de dichos hitos administrativos en tiempo y forma supondrá la caducidad automática de los permisos de acceso y, en su caso, de acceso y conexión concedidos y la ejecución inmediata por el órgano competente para la emisión de las autorizaciones administrativas de las garantías económicas presentadas para la tramitación de la solicitud de acceso a las redes de transporte y distribución. No obstante, si por causas no imputables al promotor, no se produjese una declaración de impacto ambiental favorable, no se procederá a la ejecución de dichas garantías».</p>
    <h5 class="articulo">Cuarto. Sobre la garantía económica aplicable a las solicitudes de acceso y conexión a la red de transporte.</h5>
    <p class="parrafo">El Real Decreto 1183/2020, de 29 de diciembre, de acceso y conexión a las redes de transporte y distribución de energía eléctrica regula, en su artículo 23, las garantías económicas necesarias para la tramitación de los procedimientos de acceso y conexión de instalaciones de generación de electricidad. En concreto, en el apartado 1 de dicho artículo, se dispone que «Para las instalaciones de generación de electricidad, el solicitante, antes de realizar la solicitud de acceso y conexión a la red de transporte, o en su caso a la red de distribución, deberá presentar, ante el órgano competente para otorgar la autorización de la instalación, resguardo acreditativo de haber depositado, con posterioridad a la entrada en vigor de este real decreto, una garantía económica por una cuantía equivalente a 40 €/kW instalado».</p>
    <p class="parrafo">Asimismo, el apartado 6 de este mismo artículo 23, establece que: «La caducidad de los permisos de acceso y de conexión conforme a lo establecido en el artículo 26 de este real decreto, supondrá la ejecución inmediata por el órgano competente para la emisión de las autorizaciones administrativas de las garantías económicas presentadas para la tramitación de la solicitud de acceso a la red de transporte o distribución, según aplique en cada caso.</p>
    <p class="parrafo">No obstante, el órgano competente para la autorización de la instalación podrá exceptuar la ejecución de la garantía depositada si la caducidad de los permisos de acceso y de conexión viene motivada porque un informe o resolución de una administración pública impidiese dicha construcción, y así fuera solicitado por éste.»</p>
    <p class="parrafo_2">A la vista de la documentación aportada, dados los trámites efectuados, y de acuerdo con el artículo 53 de la Ley 24/2013, de 26 de diciembre, esta Dirección General de Política Energética y Minas en el ejercicio de las competencias que le atribuye el referido Real Decreto 1955/2000, de 1 de diciembre, por el que se regulan las actividades de transporte, distribución, comercialización, suministro y procedimientos de autorización de instalaciones de energía eléctrica, resuelve:</p>
    <h5 class="articulo">Único.</h5>
    <p class="parrafo_2">Desestimar la solicitud de Green Capital Development I, SL de autorización administrativa previa del parque eólico Abano, y su infraestructura de evacuación, acordando el archivo del expediente SGEE/PEol-303.</p>
    <p class="parrafo_2">De acuerdo con lo dispuesto en los artículos 121 y 122 de la Ley 39/2015, de 1 de octubre, del Procedimiento Administrativo Común de las Administraciones Públicas y en el artículo 62.2.i) de la Ley 40/2015, de 1 de octubre, de Régimen Jurídico del Sector Público, contra la presente Resolución, que no pone fin a la vía administrativa, puede interponerse recurso de alzada ante la persona titular de la Secretaría de Estado de Energía en el plazo de un mes a partir del día siguiente al de la notificación de la presente resolución.</p>
    <p class="parrafo">Transcurrido dicho plazo sin haberse interpuesto el recurso, la resolución será firme a todos los efectos. Para el cómputo de los plazos por meses habrá de estarse a lo dispuesto en el artículo 30 de la citada Ley 39/2015, de 1 de octubre.</p>
    <p class="parrafo_2">Madrid, 16 de noviembre de 2023.–El Director General de Política Energética y Minas, Manuel García Hernández.</p>
  </div>
  <!-- #textoxslt -->
</div>
<!-- #DOdocText -->
<p class="linkSubir"><a href="#top">subir</a></p>
      </div> <!-- .pool -->
    </div> <!-- #contenedor -->
    <div id="pie">
      <div id="menuPie">
        <div class="otros-enlaces">
          <div class="grupo-otros-enlaces">
            <div class="enlace"><a href="/contactar/" accesskey="3">Contactar</a></div>
            <div class="enlace"><a href="/informacion/index.php" hreflang="es">Sobre esta sede electr&oacute;nica</a></div>
            <div class="enlace"><a href="/informacion/mapa_web/" accesskey="2">Mapa</a></div>
            <div class="enlace"><a href="/informacion/aviso_legal/index.php">Aviso legal</a></div>
            <div class="enlace"><a href="/informacion/accesibilidad/" accesskey="0">Accesibilidad</a></div>
            <div class="enlace"><a href="/informacion/index.php#proteccion-de-datos" hreflang="es">Protecci&oacute;n de datos</a></div>
            <div class="enlace"><a href="/informacion/sistema_interno_informacion.php" hreflang="es">Sistema Interno de Informaci&oacute;n</a></div>
            <div class="enlace"><a href="/informacion/tutoriales/" hreflang="es">Tutoriales</a></div>
          </div>
          <div class="grupo-otros-enlaces">
            <div class="enlace icono"><a href="/rss/" hreflang="es" lang="es" title="RSS"><img src="/imagenes/home/rss_32.png" srcset="/imagenes/home/rss_32.svg" alt="RSS"></a></div>
            <div class="enlace icono"><a href="/redes_sociales?pag=tw" hreflang="es" lang="es" title="boegob, el BOE en Twitter"><img src="/imagenes/home/twitter_32.png" srcset="/imagenes/home/twitter_32.svg"  alt="Twitter"></a></div>
            <div class="enlace icono"><a href="/redes_sociales?pag=fb" hreflang="es" lang="es" title="El BOE en Facebook"><img src="/imagenes/home/facebook_32.png" srcset="/imagenes/home/facebook_32.svg" alt="Facebook"></a></div>
            <div class="enlace icono"><a href="/redes_sociales?pag=ln" hreflang="es" lang="es" title="El BOE en LinkedIn"><img src="/imagenes/home/linkedin_32.png" srcset="/imagenes/home/linkedin_32.svg" alt="LinkedIn"></a></div>
            <div class="enlace icono"><a href="/redes_sociales?pag=yt" hreflang="es" lang="es" title="El BOE en YouTube"><img src="/imagenes/home/youtube_32.png" srcset="/imagenes/home/youtube_32.svg" alt="YouTube"></a></div>
          </div>
        </div> <!-- .franjaMenu -->
      </div> <!-- #menuPie -->
      <div class="franja-pie">
        <p class="nombre-organismo">Agencia Estatal Bolet&iacute;n Oficial del Estado</p>
        <p class="direccion-organismo"><abbr title="Avenida">Avda.</abbr> de Manoteras, 54 - 28050 Madrid</p>
      </div>
    </div> <!-- #pie -->
    <script src="/js/desplegable.js"></script>
  </body>
</html>
"""  # Replace with your actual HTML content

# Parsing the HTML content
soup = BeautifulSoup(html_source, 'html.parser')

# Extracting data from the head section
title_tag = soup.title
title = title_tag.text.strip() if title_tag else None
description = soup.find('meta', {'name': 'Description'})['content']
published_date = soup.find('dt', string='Publicado en:').find_next('dd').text.strip()

# Extracting data from the article section
article_title = soup.find('h5', class_='articulo').text.strip()

# Extracting content from the specific <div>
textoxslt_div = soup.find('div', id='textoxslt')
if textoxslt_div:
    article_content_tag = textoxslt_div.find('h5', class_='articulo')
    if article_content_tag:
        article_content = article_content_tag.find_next('p', class_='parrafo').text.strip()
    else:
        article_content = None
else:
    article_content = None

# Creating a DataFrame
data = {
    'Title': [title],
    'Published Date': [published_date],
    "Article Title" : [article_title],
    'Article Content': [article_content]
}

df = pd.DataFrame(data)

# Save to Excel file
df.to_excel('output.xlsx', index=False)

I have two questions:

1. In my .xlsx file, I got a very long “title” line, is there any way to split it?

2. Also, how can I create a loop from my web searches I mentioned earlier, and do that to append the other information from similar web pages to the XLSX file, please?

If you have any suggestions for improving the code, I’m more than willing! I’m a complete beginner at wescraping (and Python, especially!). So I thank you in advance for your help.

Michael

P.S.: @barry-scott, you were right. It seems these web pages don’t need selenium, thankfully!

Hi @JafriCode,

Amazing! Thank you very much for providing me such snippet. Thank you for your help!
I keep you posted about the code!

Lovely day!
Michael

Thanks again Faisal.

I have taken a look at your blog.
It is very useful indeed.

Thank you so much!

I have one more question about the #5 post, please:

  • Is there any way to make a loop with multiple URLs?

URLs always have the same structure, the only thing that changes is the last part. For example:

The only part that changes systematically is BOE-A-2023-24090.
Thank you in advance for any clarification you can provide.

All the best,

Michael