Jobs_Aggregator/jobs_dashboard/jobs_scraper.py

from bs4 import BeautifulSoup
from selenium import webdriver
from datetime import date, timedelta
from .support import parse_czech_date
from jobs_dashboard.models import Job
from selenium.webdriver.chrome.service import Service
import logging

# Setup logging
logging.basicConfig(level=logging.INFO)
logger = logging.getLogger(__name__)

# Chrome options for Selenium WebDriver
chrome_options = webdriver.ChromeOptions()
chrome_options.add_argument("--no-sandbox")
chrome_options.add_argument("--headless")
chrome_options.add_argument("--disable-gpu")

def save_page_source(page_source, page_num):
    """
    Saves the page source to an HTML file.
    """
    try:
        with open(f"page_{page_num}.html", "w", encoding="utf-8") as file:
            file.write(page_source)
        logger.info(f"Saved page {page_num} as page_{page_num}.html")
    except Exception as e:
        logger.error(f"Failed to save page {page_num}: {e}")

def scrape_jobsCZ(URL):
    """
    Scrapes data from all URL subpages.
    """
    data_total = []
    page_num = 1
    
    # Use context manager for WebDriver to ensure it closes properly
    with webdriver.Chrome(options=chrome_options) as driver:
        headers = {
            "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/91.0.4472.124 Safari/537.36"
        }
        driver.execute_cdp_cmd("Network.setUserAgentOverride", {"userAgent": headers["User-Agent"]})
        
        try:
            while True:
                driver.get(URL + str(page_num))
                page = driver.page_source
                #save_page_source(page, page_num)
                soup = BeautifulSoup(page, "html.parser")
                data_temp = soup.find_all('article', {"class": "SearchResultCard"})
                
                if soup.find_all('div', {"class": "Alert Alert--informative Alert--center mt-800 mb-600"}):
                    break
                
                data_total.extend(data_temp)
                page_num += 1
                
        except Exception as e:
            logger.error(f"An error occurred while scraping data: {e}")
    
    return data_total

def scrape_data(city, title, user):
    """
    Splits data into variables and formats it.
    """
    logger.info("Scrape called")
    clean_data(user)
    
    try:
        url = f"https://www.jobs.cz/prace/{city}/?q%5B%5D={title}&locality[radius]=0&page="
        data = scrape_jobsCZ(url)
        today = date.today()

        for item in data:
            # Extract and clean salary data
            salary_data = item.find("span", {"class": "Tag Tag--success Tag--small Tag--subtle"})
            salary_data = salary_data.string if salary_data else "N/A"
            
            # Extract and format published date
            published = item.find("div", {"class": "SearchResultCard__status SearchResultCard__status--default"})
            if published:
                published = published.string
                if "včera" in published:
                    published = (today - timedelta(days=1)).strftime("%d.%m.")
                elif "Přidáno" in published:
                    published = today.strftime("%d.%m.")
                elif "Aktualizováno" in published:
                    published = "Aktualizováno " + today.strftime("%d.%m.")
                else:
                    published = parse_czech_date(published)
            else:
                published = item.find("div", {"class": "SearchResultCard__status SearchResultCard__status--danger"})
                published = published.string if published else "Unknown"

            # Extract title, company, and link
            title = item.find("a", {"class": "link-primary SearchResultCard__titleLink"}).string
            company = item.find("li", {"class": "SearchResultCard__footerItem"}).find("span").string
            link = item.find("a", {"class": "link-primary SearchResultCard__titleLink"})["href"]
            unique_id = f"{title.lower().replace(' ', '')}_{company.lower().replace(' ', '')}"

            # Save job to the database
            job = Job(
                title=title,
                company=company,
                link=link,
                salary=salary_data,
                published_date=published,
                unique_id=unique_id,
                user=user
            )
            job.save()
    
    except Exception as e:
        logger.error(f"An error occurred while processing data: {e}")

def clean_data(user):
    """
    Cleans up existing job data for the user.
    """
    try:
        Job.objects.filter(user=user).delete()
    except Exception as e:
        logger.info("No data to delete or an error occurred while deleting data.")
        logger.error(e)
Transfer to Gitea 2024-08-10 07:39:16 +00:00			`from bs4 import BeautifulSoup`
			`from selenium import webdriver`
			`from datetime import date, timedelta`
			`from .support import parse_czech_date`
			`from jobs_dashboard.models import Job`
			`from selenium.webdriver.chrome.service import Service`
			`import logging`

			`# Setup logging`
			`logging.basicConfig(level=logging.INFO)`
			`logger = logging.getLogger(__name__)`

			`# Chrome options for Selenium WebDriver`
			`chrome_options = webdriver.ChromeOptions()`
			`chrome_options.add_argument("--no-sandbox")`
			`chrome_options.add_argument("--headless")`
			`chrome_options.add_argument("--disable-gpu")`

			`def save_page_source(page_source, page_num):`
			`"""`
			`Saves the page source to an HTML file.`
			`"""`
			`try:`
			`with open(f"page_{page_num}.html", "w", encoding="utf-8") as file:`
			`file.write(page_source)`
			`logger.info(f"Saved page {page_num} as page_{page_num}.html")`
			`except Exception as e:`
			`logger.error(f"Failed to save page {page_num}: {e}")`

			`def scrape_jobsCZ(URL):`
			`"""`
			`Scrapes data from all URL subpages.`
			`"""`
			`data_total = []`
			`page_num = 1`

			`# Use context manager for WebDriver to ensure it closes properly`
			`with webdriver.Chrome(options=chrome_options) as driver:`
			`headers = {`
			`"User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/91.0.4472.124 Safari/537.36"`
			`}`
			`driver.execute_cdp_cmd("Network.setUserAgentOverride", {"userAgent": headers["User-Agent"]})`

			`try:`
			`while True:`
			`driver.get(URL + str(page_num))`
			`page = driver.page_source`
			`#save_page_source(page, page_num)`
			`soup = BeautifulSoup(page, "html.parser")`
			`data_temp = soup.find_all('article', {"class": "SearchResultCard"})`

			`if soup.find_all('div', {"class": "Alert Alert--informative Alert--center mt-800 mb-600"}):`
			`break`

			`data_total.extend(data_temp)`
			`page_num += 1`

			`except Exception as e:`
			`logger.error(f"An error occurred while scraping data: {e}")`

			`return data_total`

			`def scrape_data(city, title, user):`
			`"""`
			`Splits data into variables and formats it.`
			`"""`
			`logger.info("Scrape called")`
			`clean_data(user)`

			`try:`
			`url = f"https://www.jobs.cz/prace/{city}/?q%5B%5D={title}&locality[radius]=0&page="`
			`data = scrape_jobsCZ(url)`
			`today = date.today()`

			`for item in data:`
			`# Extract and clean salary data`
			`salary_data = item.find("span", {"class": "Tag Tag--success Tag--small Tag--subtle"})`
			`salary_data = salary_data.string if salary_data else "N/A"`

			`# Extract and format published date`
			`published = item.find("div", {"class": "SearchResultCard__status SearchResultCard__status--default"})`
			`if published:`
			`published = published.string`
			`if "včera" in published:`
			`published = (today - timedelta(days=1)).strftime("%d.%m.")`
			`elif "Přidáno" in published:`
			`published = today.strftime("%d.%m.")`
			`elif "Aktualizováno" in published:`
			`published = "Aktualizováno " + today.strftime("%d.%m.")`
			`else:`
			`published = parse_czech_date(published)`
			`else:`
			`published = item.find("div", {"class": "SearchResultCard__status SearchResultCard__status--danger"})`
			`published = published.string if published else "Unknown"`

			`# Extract title, company, and link`
			`title = item.find("a", {"class": "link-primary SearchResultCard__titleLink"}).string`
			`company = item.find("li", {"class": "SearchResultCard__footerItem"}).find("span").string`
			`link = item.find("a", {"class": "link-primary SearchResultCard__titleLink"})["href"]`
			`unique_id = f"{title.lower().replace(' ', '')}_{company.lower().replace(' ', '')}"`

			`# Save job to the database`
			`job = Job(`
			`title=title,`
			`company=company,`
			`link=link,`
			`salary=salary_data,`
			`published_date=published,`
			`unique_id=unique_id,`
			`user=user`
			`)`
			`job.save()`

			`except Exception as e:`
			`logger.error(f"An error occurred while processing data: {e}")`

			`def clean_data(user):`
			`"""`
			`Cleans up existing job data for the user.`
			`"""`
			`try:`
			`Job.objects.filter(user=user).delete()`
			`except Exception as e:`
			`logger.info("No data to delete or an error occurred while deleting data.")`
			`logger.error(e)`