구름 아카이브

전체 글

SQL 문제 풀이 챌린지(1/25) - 크리스마스 게임 찾기 2024.12.02
정규표현식 review 2024.08.21
1978. Employees Whose Manager Left the Company 2024.08.21
정규표현식 2024.06.25
1527. Patients With a Condition 2024.06.25
1251. Average Selling Price 2024.06.03
1341. Movie Rating 2024.05.31
550. Game Play Analysis IV 2024.05.29
511. Game Play Analysis I 2024.03.30
Leetcode 601 - Human Traffic of Stadium 2024.03.26
1321. Restaurant Growth 2024.01.15
180. Consecutive Numbers 2024.01.15
Leetcode 185 - Department Top Three Salaries 2023.09.20
데이터 시각화 9 (END) 2023.09.08
데이터 시각화 8 2023.09.08
데이터시각화 7 2023.09.08
데이터 시각화 6 2023.09.08
데이터 시각화 5 2023.09.08
데이터 시각화 4 2023.09.08
데이터 시각화 3 2023.09.08
데이터 시각화 2 2023.09.08
Leetcode 262 - Trips and Users 2023.09.01
프로그래머스 Lv 3 - 자동차 대여 기록에서 대여중 / 대여 가능 여부 구분하기 2023.08.17
프로그래머스 Lv 4 - 보호소에서 중성화한 동물 (Lv 4 문제 마지막) 2023.08.16
프로그래머스 Lv 4 - 식품분류별 가장 비싼 식품의 정보 조회하기 2023.08.16

SQL 문제 풀이 챌린지(1/25) - 크리스마스 게임 찾기

gooreumsea 2024. 12. 2. 03:44

2024. 12. 2. 03:44

저작권 문제로 인해, 직접 작성한 쿼리문만 공개.

1. 크리스마스 게임 찾기

https://solvesql.com/problems/find-christmas-games/

SELECT 
  game_id,
  name,
  year
FROM games
WHERE name REGEXP '\\bChristmas\\b|\\bSanta\\b'

'sql > Advent of SQL 2024' 카테고리의 다른 글

SQL 문제 풀이 챌린지(6/25) - 게임을 10개 이상 발매한 퍼블리셔 찾기 (0)	2024.12.06
SQL 문제 풀이 챌린지(5/25) - 언더스코어(_)가 포함되지 않은 데이터 찾기 (0)	2024.12.05
SQL 문제 풀이 챌린지(4/25) - 지자체별 따릉이 정류소 개수 세기 (0)	2024.12.04
SQL 문제 풀이 챌린지(3/25) - 제목이 모음으로 끝나지 않는 영화 (0)	2024.12.03
SQL 문제 풀이 챌린지(2/25) - 펭귄 조사하기 (0)	2024.12.02

정규표현식 review

gooreumsea 2024. 8. 21. 19:33

2024. 8. 21. 19:33

기본 정규표현식 기호

1	^	문자열의 시작을 나타냄 패턴이 문자열의 맨 앞에서부터 일치해야 함
2	$	문자열의 끝을 나타냄. 패턴이 문자열의 맨 끝에서 일치해야 함
3	.	임의의 단일 문자와 일치함. 어떤 문자든 한 글자와 일치할 수 있음
4	*	바로 앞의 패턴이 0번 이상 반복될 수 있음을 의미함
5	+	바로 앞의 패턴이 1번 이상 반복될 수 있음을 의미함
6	\|	OR 연산자로, 앞의 패턴 또는 뒤의 패턴 중 하나와 일치하면 됨
7	[ ]	문자 클래스에 해당, 대괄호 안에 있는 문자들 중 하나와 일치하면 됨 - 예: [aeiou]는 "a", "e", "i", "o", "u" 중 하나의 문자와 일치
8	{ }	바로 앞의 패턴이 정확히 n번 반복되는 경우와 일치함 - 예: ([DdIi]){2}는 "D", "d", "I", "i" 중 1개 문자가 두 번 연속 나타남
9	( )	그룹을 나타냄. 패턴의 일부를 그룹으로 묶어서 처리할 수 있음
10	[^....]	대괄호 안에 있는 문자들을 제외한 문자와 일치함 - 예: [^aeiou]는 "a", "e", "i", "o", "u"를 제외한 문자와 일치

기본 패턴

1. ^([DdIi]){2}: 문자열의 시작에서 "D", "d", "I", "i" 중 하나가 두 번 연속으로 나타남

2. ^[aeiou].*[aeiou]$: 문자열이 모음으로 시작하고, 중간에 0개 이상의 임의 문자가 있으며, 마지막에 모음으로 끝

3. ^[aeiou].+[aeiou]$: 문자열이 모음으로 시작하고, 중간에 최소 한 글자의 임의 문자가 있으며, 마지막에 모음으로 끝

4. ^[aeiou]($|.*[aeiou]$): 문자열이 모음으로 시작, 모음 하나로 끝나거나 중간에 0개 이상의 문자, 마지막 모음으로 끝

5. (^[AEIOUaeiou])|([AEIOUaeiou]$): 문자열이 모음(A, E, I, O, U, a, e, i, o, u)으로 시작하거나 끝

6. ^[AEIOUaeiou]: 문자열이 모음으로 시작

'Data Analysis > Regex' 카테고리의 다른 글

정규표현식 (0)	2024.06.25

1978. Employees Whose Manager Left the Company

gooreumsea 2024. 8. 21. 18:45

2024. 8. 21. 18:45

https://leetcode.com/problems/employees-whose-manager-left-the-company/

Find the IDs of the employees whose salary is strictly less than $30000 and whose manager left the company. When a manager leaves the company, their information is deleted from the Employees table, but the reports still have their manager_id set to the manager that left.

내용 요약:

매니저가 퇴사하면, Employess 목록에서 사라지지만, 다른 직원의 매니저로서 기존 설정된 기록은 남아 있다.

퇴사하면 기록이 사라진다는 말 때문에, "NULL" 로 표현된 부분을 오해하기가 너무 쉽다.

("NULL"은 퇴사와 관련이 없음)

Table: Employees

+-------------+----------+
| Column Name | Type     |
+-------------+----------+
| employee_id | int      |
| name        | varchar  |
| manager_id  | int      |
| salary      | int      |
+-------------+----------+
In SQL, employee_id is the primary key for this table.
This table contains information about the employees, their salary, and the ID of their manager. Some employees do not have a manager (manager_id is null).

Return the result table ordered by employee_id.

The result format is in the following example.

Example 1:

Input:  
Employees table:
+-------------+-----------+------------+--------+
| employee_id | name      | manager_id | salary |
+-------------+-----------+------------+--------+
| 3           | Mila      | 9          | 60301  |
| 12          | Antonella | null       | 31000  |
| 13          | Emery     | null       | 67084  |
| 1           | Kalel     | 11         | 21241  |
| 9           | Mikaela   | null       | 50937  |
| 11          | Joziah    | 6          | 28485  |
+-------------+-----------+------------+--------+
Output: 
+-------------+
| employee_id |
+-------------+
| 11          |
+-------------+

1. 수입이 3만보다 작은 직원에 매칭되는 manager_id 선택

2. 선택된 manager_id 중에서, "employee" 테이블의 employee_id에 포함되어 있지 않은 값을 SELECT 문으로 선택

(퇴사한 매니저는 employee_id에 존재하지 않음)

3. 이 과정에서 Employees 테이블을 다시 이용하므로 salary 값이 3만보다 큰 경우가 생길 수 있음.

다시 WHERE 조건에 추가 > (AND Employees.salary < 30000)

4. 아래 작성한 쿼리 처림 카타시안 곱은 사용하면 안됨 > 쿼리성능 저하

예외케이스

----------------------------------------------------------------

| employee_id | name    | manager_id | salary |
| ----------- | ------- | ---------- | ------ |
| 9           | Kamiyah | 2          | 65859  |
| 14          | Russell | 10         | 86740  |
| 11          | Roger   | 7          | 85366  |
| 15          | Alyson  | null       | 91743  |
| 17          | Elyse   | 12         | 10115  |
| 3           | Alivia  | null       | 53679  |
| 1           | Reign   | null       | 77731  |
| 7           | Brooks  | 11         | 89386  |
| 8           | Ryland  | 12         | 61431  |
| 13          | Charlee | null       | 41084  |

----------------------------------------------------------------

# salary가 3만 보다 작은 employee의 manager_id 선택
WITH cond1 AS (
                SELECT manager_id
                FROM Employees 
                WHERE salary < 30000
), 

# cond1 에서 선택한 manager_id 가 Employees 테이블의 employee_id에 존재하지 않는, cond1의 manager_id 선택
cond2 AS(
            SELECT DISTINCT cond1.manager_id
            FROM Employees, cond1                       # 카타시안 곱 사용금지
            WHERE cond1.manager_id NOT IN (SELECT employee_id FROM Employees)
)

# 조건에 맞는 manager_id 만을 최종 선택 후, Employees 테이블에서 해당 manager_id를 가진 employee_id를 선택
# 이 과정에서 Employees 테이블을 다시 이용하므로 salary 값이 3만보다 큰 경우가 생길 수 있어 다시 WHERE 조건에 추가

SELECT Employees.employee_id
FROM Employees
     INNER JOIN cond2 ON Employees.manager_id = cond2.manager_id
WHERE Employees.manager_id = cond2.manager_id
AND Employees.salary < 30000
ORDER BY employee_id

'sql > easy' 카테고리의 다른 글

1527. Patients With a Condition (0)	2024.06.25
1251. Average Selling Price (0)	2024.06.03
1341. Movie Rating (0)	2024.05.31
550. Game Play Analysis IV (0)	2024.05.29
511. Game Play Analysis I (0)	2024.03.30

정규표현식

gooreumsea 2024. 6. 25. 12:54

2024. 6. 25. 12:54

https://medium.com/@jwjin0330
너무 감사하게도,,, 누군가 정규표현식을 이해하기 쉽게 정리해주셨다...

활용이 필요할 때마다 찾아봐야겠다.

https://medium.com/learn-from-data/%ED%95%B5%EC%8B%AC%EB%A7%8C-%EC%A0%95%EB%A6%AC%ED%95%9C-mysql-%EC%A0%95%EA%B7%9C%ED%91%9C%ED%98%84%EC%8B%9D-486c27c19568

핵심만 정리한 MYSQL 정규표현식

regexp, 이름부터 복잡한 너

medium.com

'Data Analysis > Regex' 카테고리의 다른 글

정규표현식 review (0)	2024.08.21

1527. Patients With a Condition

gooreumsea 2024. 6. 25. 12:29

2024. 6. 25. 12:29

https://leetcode.com/problems/patients-with-a-condition/description/

replace, substring, concat, left, right, lower, upper, trim, length, format, instr 정도만 알아도 SQL 데이터 변형에 큰 문제가 없겠지만, Regex 문법 까지 익숙해지면 빠른 전처리에 큰 도움이 될 것 같다.

Write a solution to find the patient_id, patient_name, and conditions of the patients who have Type I Diabetes. Type I Diabetes always starts with DIAB1 prefix.

Return the result table in any order.

The result format is in the following example.

Example 1:

Input: 
Patients table:
+------------+--------------+--------------+
| patient_id | patient_name | conditions   |
+------------+--------------+--------------+
| 1          | Daniel       | YFEV COUGH   |
| 2          | Alice        |              |
| 3          | Bob          | DIAB100 MYOP |
| 4          | George       | ACNE DIAB100 |
| 5          | Alain        | DIAB201      |
+------------+--------------+--------------+
Output: 
+------------+--------------+--------------+
| patient_id | patient_name | conditions   |
+------------+--------------+--------------+
| 3          | Bob          | DIAB100 MYOP |
| 4          | George       | ACNE DIAB100 | 
+------------+--------------+--------------+
Explanation: Bob and George both have a condition that starts with DIAB1.

#  conditions 열에 'DIAB1'이라는 문자열을 포함하는 모든 행을 선택

SELECT * 
FROM patients 
WHERE conditions REGEXP '\\bDIAB1'

'sql > easy' 카테고리의 다른 글

1978. Employees Whose Manager Left the Company (0)	2024.08.21
1251. Average Selling Price (0)	2024.06.03
1341. Movie Rating (0)	2024.05.31
550. Game Play Analysis IV (0)	2024.05.29
511. Game Play Analysis I (0)	2024.03.30

1251. Average Selling Price

gooreumsea 2024. 6. 3. 18:29

2024. 6. 3. 18:29

https://leetcode.com/problems/average-selling-price/description/

15번째 케이스에서 Prices 테이블의 product_id가 3이상으로 추가되면서,

UnitSold 테이블에 없는 데이터 값도 결과값에 으로 나타나야 했기에 INNER 를 LEFT로 수정하고,

조건 결과값으로, Null값도 함께 나타날 수 있도록 WHERE문 끝에 "or UnitsSold.product_id IS NULL" 을 이어붙인 뒤 COALESCE를 ROUND 앞에 씌워 NULL값 처리를 해야했다.

잠깐 생각하게 만들었던 문제

다음부턴 예시에 보이지 않는 테스트 케이스를 예상해서 작성해봐야겠다.

*** JOIN에 AND 조건을 덧붙이는 방식보다, WHERE로 조건을 추가 작성하는 것이 확실히 쿼리속도가 더 빨랐다.

Write a solution to find the average selling price for each product. average_price should be rounded to 2 decimal places.

Return the result table in any order.

The result format is in the following example.

Example 1:

Input: 
Prices table:
+------------+------------+------------+--------+
| product_id | start_date | end_date   | price  |
+------------+------------+------------+--------+
| 1          | 2019-02-17 | 2019-02-28 | 5      |
| 1          | 2019-03-01 | 2019-03-22 | 20     |
| 2          | 2019-02-01 | 2019-02-20 | 15     |
| 2          | 2019-02-21 | 2019-03-31 | 30     |
+------------+------------+------------+--------+
UnitsSold table:
+------------+---------------+-------+
| product_id | purchase_date | units |
+------------+---------------+-------+
| 1          | 2019-02-25    | 100   |
| 1          | 2019-03-01    | 15    |
| 2          | 2019-02-10    | 200   |
| 2          | 2019-03-22    | 30    |
+------------+---------------+-------+
Output: 
+------------+---------------+
| product_id | average_price |
+------------+---------------+
| 1          | 6.96          |
| 2          | 16.96         |
+------------+---------------+
Explanation: 
Average selling price = Total Price of Product / Number of products sold.
Average selling price for product 1 = ((100 * 5) + (15 * 20)) / 115 = 6.96
Average selling price for product 2 = ((200 * 15) + (30 * 30)) / 230 = 16.96

SELECT Prices.product_id
    --   ,start_date
    --   ,end_date
    --   ,price
    --   ,SUM(units)
    --   ,SUM(price*units) AS mutiply_price_units
      ,COALESCE(ROUND(SUM(price*units)/SUM(units),2),0) AS average_price

FROM Prices
     LEFT JOIN UnitsSold ON Prices.product_id = UnitsSold.product_id
WHERE UnitsSold.purchase_date BETWEEN Prices.start_date AND Prices.end_date or UnitsSold.product_id IS NULL
GROUP BY product_id

'sql > easy' 카테고리의 다른 글

1978. Employees Whose Manager Left the Company (0)	2024.08.21
1527. Patients With a Condition (0)	2024.06.25
1341. Movie Rating (0)	2024.05.31
550. Game Play Analysis IV (0)	2024.05.29
511. Game Play Analysis I (0)	2024.03.30

1341. Movie Rating

gooreumsea 2024. 5. 31. 18:15

2024. 5. 31. 18:15

https://leetcode.com/problems/movie-rating/description/

포트폴리오 쓴다고, 그동안 쿼리연습을 못했다.

이전 기억 상기시키기에 좋은 쉬운문제

Example 1:

Input: 
Movies table:
+-------------+--------------+
| movie_id    |  title       |
+-------------+--------------+
| 1           | Avengers     |
| 2           | Frozen 2     |
| 3           | Joker        |
+-------------+--------------+
Users table:
+-------------+--------------+
| user_id     |  name        |
+-------------+--------------+
| 1           | Daniel       |
| 2           | Monica       |
| 3           | Maria        |
| 4           | James        |
+-------------+--------------+
MovieRating table:
+-------------+--------------+--------------+-------------+
| movie_id    | user_id      | rating       | created_at  |
+-------------+--------------+--------------+-------------+
| 1           | 1            | 3            | 2020-01-12  |
| 1           | 2            | 4            | 2020-02-11  |
| 1           | 3            | 2            | 2020-02-12  |
| 1           | 4            | 1            | 2020-01-01  |
| 2           | 1            | 5            | 2020-02-17  | 
| 2           | 2            | 2            | 2020-02-01  | 
| 2           | 3            | 2            | 2020-03-01  |
| 3           | 1            | 3            | 2020-02-22  | 
| 3           | 2            | 4            | 2020-02-25  | 
+-------------+--------------+--------------+-------------+
Output: 
+--------------+
| results      |
+--------------+
| Daniel       |
| Frozen 2     |
+--------------+
Explanation: 
Daniel and Monica have rated 3 movies ("Avengers", "Frozen 2" and "Joker") but Daniel is smaller lexicographically.
Frozen 2 and Joker have a rating average of 3.5 in February but Frozen 2 is smaller lexicographically.

-- 1. 가장 많은 수의 영화에 평점 매긴 유저 이름 반환, 동률일경우 알파벳순으르 빠른사람 상위 1명
-- 2. 2020년 2월, 평균평점이 가장 높은 영화이름 동률일경우 알파벳순으르 빠른영화 상위 1개
-- 3. 위/아래 테이블 병합



WITH CTE AS(
                SELECT MovieRating.rating
                      ,MovieRating.created_at
                      ,Users.name
                      ,Movies.title
                
                FROM MovieRating
                     INNER JOIN Movies ON MovieRating.movie_id=Movies.movie_id
                     INNER JOIN Users ON MovieRating.user_id=Users.user_id
            )

(SELECT name AS results
FROM CTE
GROUP BY name
ORDER BY count(name) DESC, name
LIMIT 1)


UNION ALL


(SELECT title AS results
FROM CTE
WHERE DATE_FORMAT(created_at, "%Y-%m") = "2020-02"
GROUP BY title
ORDER BY AVG(rating) DESC, title
LIMIT 1)

'sql > easy' 카테고리의 다른 글

1527. Patients With a Condition (0)	2024.06.25
1251. Average Selling Price (0)	2024.06.03
550. Game Play Analysis IV (0)	2024.05.29
511. Game Play Analysis I (0)	2024.03.30
1321. Restaurant Growth (0)	2024.01.15

550. Game Play Analysis IV

gooreumsea 2024. 5. 29. 12:26

2024. 5. 29. 12:26

https://leetcode.com/problems/game-play-analysis-iv/description/

미뤄뒀던 포스팅을 이제야.... 한 20개 더 밀려있다.

기존의 511. Game Play Analysis I 와 유사한 문제

최초 접속 후, 다음날 다시 접속한 게임플레이어의 비율을 구하면 된다.

Example 1:

Input: 
Activity table:
+-----------+-----------+------------+--------------+
| player_id | device_id | event_date | games_played |
+-----------+-----------+------------+--------------+
| 1         | 2         | 2016-03-01 | 5            |
| 1         | 2         | 2016-03-02 | 6            |
| 2         | 3         | 2017-06-25 | 1            |
| 3         | 1         | 2016-03-02 | 0            |
| 3         | 4         | 2018-07-03 | 5            |
+-----------+-----------+------------+--------------+
Output: 
+-----------+
| fraction  |
+-----------+
| 0.33      |
+-----------+
Explanation: 
Only the player with id 1 logged back in after the first day he had logged in so the answer is 1/3 = 0.33

SELECT ROUND(COUNT(DISTINCT player_id) / (SELECT COUNT(DISTINCT player_id) FROM Activity), 2) AS fraction
FROM Activity
WHERE (player_id, DATE_SUB(event_date, INTERVAL 1 DAY))
  IN (SELECT player_id
           , MIN(event_date) AS first_login 
      FROM Activity 
      GROUP BY player_id)

idea

1. WHERE문의 IN 속에, player_id 별 최초접속일을 모아둔다.

2. event_date에서 하루를 뺀 값이 IN 값에 들어 있는 최초접속일과 일치하는 player_id를 찾도록 WHERE문 조건을 최종 작성한다(최초 접속 후 다음날 접속한 기록이 있다면, 해당 접속 일자에서 -1을 빼면 최초접속일이 될 것이다)

3. WHERE문을 통해 걸러진 플레이어 수/전체 플레이어 수

'sql > easy' 카테고리의 다른 글

1251. Average Selling Price (0)	2024.06.03
1341. Movie Rating (0)	2024.05.31
511. Game Play Analysis I (0)	2024.03.30
1321. Restaurant Growth (0)	2024.01.15
180. Consecutive Numbers (0)	2024.01.15

511. Game Play Analysis I

gooreumsea 2024. 3. 30. 16:53

2024. 3. 30. 16:53

https://leetcode.com/problems/game-play-analysis-i/

쉬운 문제이지만, 윈도우 함수를 간단히 활용해보기에 좋은 문제

# 플레이어의 최초 로그인 날짜 구하기

1) 기본 풀이

SELECT player_id
     , MIN(event_date) AS first_login
FROM Activity
GROUP BY player_id




# 플레이어의 최초 로그인 날짜 구하기

2) 윈도우 함수 + WITH 문 활용

WITH login AS 
(
     SELECT ROW_NUMBER() OVER (PARTITION BY player_id ORDER BY event_date) AS player_login
          , player_id
          , event_date AS first_login
     FROM Activity
)

SELECT player_id
     , first_login
FROM login
WHERE player_login =1

'sql > easy' 카테고리의 다른 글

1341. Movie Rating (0)	2024.05.31
550. Game Play Analysis IV (0)	2024.05.29
1321. Restaurant Growth (0)	2024.01.15
180. Consecutive Numbers (0)	2024.01.15
Leetcode 185 - Department Top Three Salaries (0)	2023.09.20

Leetcode 601 - Human Traffic of Stadium

gooreumsea 2024. 3. 26. 01:31

2024. 3. 26. 01:31

링크: https://leetcode.com/problems/human-traffic-of-stadium/

습득한 점:

연속되는 숫자를 찾는 새로운 아이디어.

GROUP BY, PARTITION BY 차이 재확인.

hard 난이도는 아니었다.

문제:

사람 수 (people)가 100이상일 때, 3개 이상의 연속되는 "id"값에 대한 행을 모두 조회하는 쿼리 작성

결과값은 "visit_date" 기준으로 오름차순 정렬

문제파악:

일단 visit_date는 정렬 빼고는 신경 쓸 필요는 없을 것 같았고,

우선 사람 수가 100명 이상인 테이블을 걸러낸 결과값을

WITH문으로 테이블을 새롭게 구성한 뒤 쿼리 작성을 시작하면 될 것 같다.

대략적으로 2가지 풀이법이 보인다. 셀프 조인 혹은 윈도우 함수 사용하기

풀이:

1. 'people'이 100 이상인 행들을 걸러냈을 때, id 값의 모양을 예상해본다.

데이터 사이사이에 100보다 낮은 값들이 포함되어 있었을 것이니,
아래 표와 같이 row_number()를 활용해서 강제적으로 맨 위부터 순위를 매긴 후
id 값에서 row_number값을 뺀 차이값 diff를 구하면,
연속되는 id값에서 벗어나는 순간에 diff값은 숫자가 바뀌게 된다.

ex) 아래 표를 예시로 든다면, id_1이 4에서 6으로 변할때, 차이값은 0에서 1로 변한다.

ex), id_2에서 5로 변할때, 차이값은 0에서 2로 변한다.

id_1	row_number	diff_1	id_2	row_number	diff_2
1	1	0	1	1	0
2	2	0	2	2	0
3	3	0	5	3	2
4	4	0	6	4	2
6	5	1	7	5	2
7	6	1	9	6	3

일종의 파티션을 나눈다고 생각하면 된다.

이런식의 계산을 이용하려면, 반드시 id 값을 기준으로 오름차순 정렬이 먼저 이루어져 있어야 한다.

WITH Sorted AS (
SELECT id
     , visit_date
     , people
     , id - ROW_NUMBER() OVER (ORDER BY id) AS diff
FROM Stadium
WHERE people >=100
ORDER BY id     
)

2. diff를 기준으로 GROUP BY 이후, 행의 갯수 조회

기존 만들어진 WITH문을 그대로 이용해서 SELECT문에는 count(*)을 추가하고, diff 기준으로 groupby,
HAVING count(*) >= 3을 조건으로 쿼리를 실행하면 diff의 그룹별 행의 갯수가 표현된다.

WITH Sorted AS (
SELECT id
     , visit_date
     , people
     , id - ROW_NUMBER() OVER (ORDER BY id) AS diff
FROM Stadium
WHERE people >=100
ORDER BY id     
)

, Ranked AS (
    SELECT id
         , visit_date
         , people
         , diff
         , COUNT(*) AS consecutive_num
    FROM Sorted
    GROUP BY diff
    HAVING COUNT(*) >=3
)

3. 찾아낸 diff를 활용하여 정답 찾기

"consecutive_num" 은 3이상이면 나타나는 값이니 신경 쓸 필요는 없다.

2번의 테스트 케이스에 따르면, diff 가 2인 것이 연속된 id 4개를 가지고 있다는 것이니,
연속되는 id값의 행들만 찾고 싶다면, diff를 기준으로 Sorted 테이블과 inner 조인 시켜주면 된다.

문제에 날짜기준 오름차순 정렬조건도 있지만, id가 커짐에따라 방문 일자도 하루씩 늘어나기 때문.

WITH Sorted AS (
SELECT id
     , visit_date
     , people
     , id - ROW_NUMBER() OVER (ORDER BY id) AS diff
FROM Stadium
WHERE people >=100
ORDER BY id     
)

, Ranked AS (
    SELECT id
         , visit_date
         , people
         , diff
         , COUNT(*) AS consecutive_num
    FROM Sorted
    GROUP BY diff
    HAVING COUNT(*) >=3
)

SELECT Sorted.id
     , Sorted.visit_date
     , Sorted.people
       
FROM Sorted
   INNER JOIN Ranked ON Sorted.diff = Ranked.diff

PARTITION BY 이용:

WITH Sorted AS (
    SELECT id
         , visit_date
         , people
         , id - ROW_NUMBER() OVER (ORDER BY id) AS diff
    FROM Stadium
    WHERE people >= 100
),
    consecutive_count AS (
        SELECT id
            , visit_date
            , people
            , diff
            , COUNT(*) OVER (PARTITION BY diff) AS consecutive_num
        FROM Sorted
    )

SELECT *
FROM consecutive_count
ORDER BY id

큰 차이는 없지만, PARTITION BY를 활용하면 더욱 직관적으로 쿼리를 작성할 수 있다.

무엇보다 GROUP BY는 조건에 따른 그룹의 첫번째 행만을 남기고, 이외 행은 다 날리게 되지만
(아래 output케이스는 Ranked 테이블에서 HAVING count(*) >=3 조건만 없다면 count(*) id가 2, 5인 행만 남을 것이다)

PARTITION BY는 조건에 해당하는 모든 id 행을 보여준다.

이후 consecutive_num >=3 인 값들만 찾으면 된다.

또한 Sorted테이블 이후에는, 정렬순서가 유지되지 않을 수도 있기에

+ ORDER BY id 추가해주면 된다.

(*** GROUP BY를 활용하는 경우, 이미 id 기준 오름차순 정렬된 테이블에 inner 조인하는 것이 때문에 따로 추가할 필요는 없다)

'sql > hard' 카테고리의 다른 글

[재귀함수] 멸종위기의 대장균 찾기 (0)	2025.06.07
프로그래머스 Lv 3 - 자동차 대여 기록에서 대여중 / 대여 가능 여부 구분하기 (0)	2023.08.17
프로그래머스 Lv 4 - 그룹별 조건에 맞는 식당 목록 출력하기 (0)	2023.07.06

1321. Restaurant Growth

gooreumsea 2024. 1. 15. 23:37

2024. 1. 15. 23:37

https://leetcode.com/problems/restaurant-growth/description/

WITH문을 2번 중첩하여 문제를 풀이했었고,
내 풀이만 다른 분들과 달랐기에, 해결과정이 기억에 많이 남았던 문제 중 하나였다.

지금은 단순 풀이를 위한 쿼리작성이지만, 나중에는 쿼리 최적화 관점에서도 작성해보면 좋을 것 같다.

-> 쿼리 최적화 관련자료

✅ 쿼리 최적화 첫걸음 — 보다 빠른 쿼리를 위한 7가지 체크 리스트

DB에 대한 데이터 분석가의 에티켓

medium.com

1321. Restaurant Growth -> 이전 6일 ~ 당일 amount 합산

# 방문일별 계산
WITH grouped_visit_on AS 
(
        SELECT visited_on 
             , SUM(amount) AS amount
        FROM Customer
        GROUP BY visited_on
)
, visit_7 AS 
(    
# 방문일별 이전 6일 ~ 0일 까지 합산 및 AVG 계산, Named window
        SELECT visited_on
            , SUM(amount) OVER (ORDER BY visited_on ROWS BETWEEN 6 PRECEDING AND 0 FOLLOWING) AS amount 
            , ROUND(AVG(amount) OVER (ORDER BY visited_on ROWS BETWEEN 6 PRECEDING AND 0 FOLLOWING),2) AS average_amount
        FROM grouped_visit_on
)

# 최초 구매일로부터 6일 이후의 값들만 출력 == 1월 7일 부터
SELECT visited_on
     , amount
     , average_amount
FROM visit_7
WHERE visited_on >= (SELECT DATE_ADD(MIN(visited_on), INTERVAL 6 DAY) FROM customer)

# 1월 7일 -> WHERE 조건절 서브쿼리 삽입
#SELECT DATE_ADD(MIN(visited_on), INTERVAL 6 DAY

'sql > easy' 카테고리의 다른 글

550. Game Play Analysis IV (0)	2024.05.29
511. Game Play Analysis I (0)	2024.03.30
180. Consecutive Numbers (0)	2024.01.15
Leetcode 185 - Department Top Three Salaries (0)	2023.09.20
Leetcode 262 - Trips and Users (0)	2023.09.01

180. Consecutive Numbers

gooreumsea 2024. 1. 15. 23:21

2024. 1. 15. 23:21

https://leetcode.com/problems/consecutive-numbers/description/

기존에 테이블 조인 방식으로 풀었던 문제이지만, LEAD() 를 활용해서도 풀어볼 수 있었다.
큰 차이는 없지만, 윈도우함수를 활용하는 방법이 조금 더 직관적으로 이해하기 좋았음.

id	NUM	next	afternext
1	1	1	1
2	1	1	2
3	1	2	1
4	2	1	2
5	1	2	2
6	2	2	null
7	2	null	null

1) 윈도우 함수 풀이: LEAD

SELECT DISTINCT l.NUM AS ConsecutiveNums
FROM(
     SELECT NUM
          , LEAD(NUM,1) OVER (ORDER BY id) AS next
          , LEAD(NUM,2) OVER (ORDER BY id ) AS afternext
     FROM logs
 ) l
WHERE l.Num=next AND l.next=l.afternext




2) JOIN : 기존에 풀었던 방식

SELECT DISTINCT l.num AS ConsecutiveNums
FROM logs AS l
           INNER JOIN logs AS l_next ON l.id + 1 = l_next.id
           INNER JOIN logs AS l_next2 ON l.id + 2 =  l_next2.id

WHERE l.num = l_next.num AND l_next.num = l_next2.num

'sql > easy' 카테고리의 다른 글

511. Game Play Analysis I (0)	2024.03.30
1321. Restaurant Growth (0)	2024.01.15
Leetcode 185 - Department Top Three Salaries (0)	2023.09.20
Leetcode 262 - Trips and Users (0)	2023.09.01
프로그래머스 Lv 4 - 보호소에서 중성화한 동물 (Lv 4 문제 마지막) (0)	2023.08.16

Leetcode 185 - Department Top Three Salaries

gooreumsea 2023. 9. 20. 02:53

2023. 9. 20. 02:53

https://leetcode.com/problems/department-top-three-salaries/

습득한 점:

윈도우 함수를 활용할 때,

DENSE_RANK() OVER (PARTITION BY departmentid ORDER BY salary DESC)

처럼 PARTITION BY와 ORDER BY를 함께 쓸 수 있다는 점을 알게되었음.

+ 순위 정하기 함수의 차이점 - ROW_NUMBER(), RANK(), DENSE_RANK()

SELECT val
     , ROW_NUMBER() OVER (ORDER BY val) AS row_number
     , RANK() OVER (ORDER BY val) AS rank
     , DENSE_RANK() OVER (ORDER BY val) AS dense_rank
FROM Sample;

- row_number는 어떻게 해서든 123456 으로 순위 매김 (중복포함)

- rank는 동일 값에 같은 등수를 부여, 공동 등수의 갯수를 고려한, 다음 순위를 매김.
아래 예시의 경우에는 2등과 5등은 스킵한 뒤 순위를 매김

- dense_rank는 공동 등수를 하나로 보고 다음 순위를 매김

VALUE	ROW_NUMBER()	RANK()	DENSE_RANK()
1	1	1	1
1	2	1	1
2	3	3	2
3	4	4	3
3	5	4	3
4	6	6	4

문제:

A company's executives are interested in seeing who earns the most money in each of the company's departments. A high earner in a department is an employee who has a salary in the top three unique salaries for that department.

Write a solution to find the employees who are high earners in each of the departments.

Return the result table in any order.

요약: # 각 부서에서 직원들의 급여 순으로, 부서별 1위 2위 3위 찾기 (급여가 같은 사람이 2명이상이라면 모두 포함시키기)

문제파악:

1. Foreign key가 id 이므로 Employee와 Department의 id로 테이블 조인

2. 급여가 같은 직원들의 경우에도 모두 찾아내야 하므로 dense_rank 활용

3. 파트별로 순위 매기기 위해서 PARTITION BY ~ 활용

4. WHERE 조건 활용하기 위해선, 테이블 자체를 새로 생성해야 함.

풀이:

난이도가 hard 이지만 어렵진 않았다.

전체적인 틀은 같지만,

FROM 절에 넣어도 되고 WITH 절에 넣어도 괜찮을 것 같다.

1) WITH절 활용

WITH COUNTER AS (
      SELECT Dep.name DepName
          , Emp.name EmpName
          , salary
          , DENSE_RANK() OVER (PARTITION BY departmentid ORDER BY salary DESC) AS denserank
      FROM Employee AS Emp
          INNER JOIN Department AS Dep ON Dep.id = Emp.departmentId
                 )

SELECT DepName AS Department
     , EmpName AS Employee
     , salary
FROM COUNTER
WHERE denserank <=3

2) FROM절 서브쿼리 활용

SELECT t.department
     , t.employee
     , t.salary
     
FROM(
    SELECT department.name AS dapartment
        , employee.name AS employee
        , employee.salary
        , DENSE_RANK() OVER (PARTITION BY departmentid ORDER BY salary DESC) AS dr

    FROM Employee
        INNER JOIN dapartment ON employee.departmentId = dapartment.id
    ) t
WHERE t.dr <=3

'sql > easy' 카테고리의 다른 글

1321. Restaurant Growth (0)	2024.01.15
180. Consecutive Numbers (0)	2024.01.15
Leetcode 262 - Trips and Users (0)	2023.09.01
프로그래머스 Lv 4 - 보호소에서 중성화한 동물 (Lv 4 문제 마지막) (0)	2023.08.16
프로그래머스 Lv 4 - 식품분류별 가장 비싼 식품의 정보 조회하기 (0)	2023.08.16

데이터 시각화 9 (END)

gooreumsea 2023. 9. 8. 06:58

2023. 9. 8. 06:58

마지막 9일차

기존 학습했던 자료들을 복습해볼 수 있었다.

그중에서 꼭 알아두면 좋을 것 위주로 기록해봐야겠다.

여러 국가중 관심가는 국가들만 집합 생성 후,

색상마크에 삽입하면 해당 국가만 색상이 표시되고 나머지 국가는 단색으로 일괄표시된다.

1번 항목의 우측 시각화에서, 행열 전환을 선택했을때 나타나는 시각화

초록색 알약, 차원 값에 시각화를 선택했을때 나타나는 하이라이트를 줄 수도 있다.

툴팁 변경을 통해, 마우스 오버시 나타나는 문구를 커스터마이징 할 수 있다.

'프리온보딩 > 태블로 데이터 시각화' 카테고리의 다른 글

데이터 시각화 8 (0)	2023.09.08
데이터시각화 7 (0)	2023.09.08
데이터 시각화 6 (0)	2023.09.08
데이터 시각화 5 (0)	2023.09.08
데이터 시각화 4 (0)	2023.09.08

데이터 시각화 8

gooreumsea 2023. 9. 8. 06:47

2023. 9. 8. 06:47

지역별 매출현황에서 지역을 선택하면, 나머지 그래프들이 변화하는 대시보드

시도 차원의 집합을 생성 후, 제품중분류별 매출 + 전체대비 매출현황 시트에 색상으로 삽입

집합은 아래그림과 같이 IN/OUT으로 표시되어 시각화된다.

대시보드 동작추가 - 대시보드 내, 지역별 매출현황의 지역을 선택했을 때, 나머지 시각화들이 집합값에 따라 변하게 만들기 위함.

매개변수 생성 - 매개변수에 따라 각 제품 대분류의 드릴다운을 표현하기 위함.

아래 그림의 '허용 가능한 값' 에서 '전체' 를 값에 입력 후 최상단으로 끌어올림 (목록의 최상단에 위치하면 제품 대분류의 전체값을 표시)

제품대분류_드릴다운, 제품 중분류 레이블 계산식을 생성 후 아래그림과 같이 마크에 추가.

이때 제품 중분류 레이블은 퀵테이블 계산을 통해 구성비율을 표시할 수 있도록 체크.

매개변수 동작 추가 - 마지막으로 마우스 시각화에 있는 제품 대분류 값을 선택할 때마다 매개변수 값을 변동시키기 위함.

'프리온보딩 > 태블로 데이터 시각화' 카테고리의 다른 글

데이터 시각화 9 (END) (0)	2023.09.08
데이터시각화 7 (0)	2023.09.08
데이터 시각화 6 (0)	2023.09.08
데이터 시각화 5 (0)	2023.09.08
데이터 시각화 4 (0)	2023.09.08

데이터시각화 7

gooreumsea 2023. 9. 8. 06:03

2023. 9. 8. 06:03

위 사진 처럼, MIN(0)을 행에 입력하면 수직으로 임의의 축이 하나 생성된다.

축 기준점이 있어야 도넛 차트를 만들 수 있다.

아래처럼 차트를 형성하고 '이중축' 옵션을 선택 후, 차트 크기를 조정해주면 도넛차트를 만들 수 있다.

그림과 같이 퀵 테이블 계산 - '누계' 를 선택하면 워터폴 차트를 만들 수 있다.

수익의 크기값을 -로 설정하면 좌측에서 우측그림으로 변한 것을 확인할 수 있다.

이후 좌측 상단 분석탭의 '총계' 그래프에 삽입하면, 총합계가 '열' 에 추가된 것을 확인 할 수 있다.

3번항목의 첫번째 이미지와 같은 범프차트를 만들기 위해, 차트를 중분류 기준으로 계산되도록 설정 후, 퀵테이블 계산을 통해 '순위' 옵션을 선택한다.

이중축 형식을 활용하기 위해, 열의 합계(매출)을 그대로 복사한 뒤, 마크모양을 원으로 설정한다.

레이블 위치도 중앙으로 설정이 필요하다.

이후 이중축 옵션을 선택하여, 그래프를 통합한다.

통합된 그래프의 축이 반전이 되면, 좀 더 보기 좋은 시각화로 판단되기에 축 편집을 통해 '반전' 옵션을 선택 해주고, 축을 동기화시키면

3번항목의 첫번째 그림과 같은 그래프를 나타낼 수 있다.

측정값을 복사 후, 축편집을 통해 반전시키면 아래 그림과 같은 퍼널차트 모양을 만들어낼 수 있다.

영업 시간에 대한 계산식을 위와 같이 생성한다.

태블로의 경우 일단위로 기본설정되어있어서 분을 계산하는 경우엔 1440으로 나눠줘야 한다. (24*60)

특정 시도에 해당하는 시군구만 표현하기위해 '관련된 값만' 이라는 옵션을 선택한다.

레이블을 적절하게 편집해주면, 우측 그림과 같은 차트를 표현할 수 있다.

'프리온보딩 > 태블로 데이터 시각화' 카테고리의 다른 글

데이터 시각화 9 (END) (0)	2023.09.08
데이터 시각화 8 (0)	2023.09.08
데이터 시각화 6 (0)	2023.09.08
데이터 시각화 5 (0)	2023.09.08
데이터 시각화 4 (0)	2023.09.08

데이터 시각화 6

gooreumsea 2023. 9. 8. 05:28

2023. 9. 8. 05:28

기준 일자의 종가 합계 값과, LOOKUP함수를 이용해서 현재 기준 일자의 -1일 자의 집계된 종가를 가져와서 계산

ZN함수는 null이 아니면 식을 반환, null값이면 0을 반환하는 함수

전일 대비 종가 등락을 표현하는 계산식을 형성 뒤, 이를 활용하여 등락을 색상으로 표현하는 계산식을 만들 수도 있다.

합계(종가)(2) 항목에 코드명을 세부항목에 두고,

등가 여부 색상을 색상 마크에 설정.

이후 두개의 그래프를 '이중축' 설정으로 통합하면 아래의 시각화를 표현할 수 있다.

2) Fixed, Include, Exclude

국가 > 시도 > 시군구의 계층으로 이루어진 데이터가 있다고 가정할 때,

Fixed: 현재 뷰는 '시군구' 인데, '시도'를 고려하여 계산식을 작성하고 싶을 때

Include: 현재 뷰는 '시도' 인데, '국가' 수준에서 계산식을 작성하고 싶을 때

Exclude: 현재 뷰는 ' 국가' 인데, '시도'를 고려하여 계산식을 작성하고 싶을 때

Fixed와 Include는 경우에 따라 같은 결과를 나타낼 수 있을 것 같다.

지도에 레이블을 삽입할 때, 백분율의 소숫점 단위로 표현가능함.

더불어, 레이블을 직접 편집하여 서식을 변경가능하다.

- 예를 들어 시도기준, 전국기준의 텍스트 위치도 위/아래로 스위칭 할 수 있음.

고객번호는 시각화에 삽입되어 활용되고 있는 상태에서

Fixed를 활용하면, 고객번호 차원 수준으로 시각화가 가능하다.

MIN 함수를 결합하여 활용하면 과거 구매 고객의 매출 비중의 이후 추이를 확인 할 수 있음.

1. 년/분기별 고객별 최초 구매일을 행에 가져다 놓는다. 고객별 최초 구매일은 { FIXED [고객번호] : MIN([주문 일자]) } 로 구할 수 있다.

2. 재구매 시점까지의 경과 기간을 파악하기 위해, 고객별 최초 구매일과 최초 재구매일의 날짜차이를 계산식으로 구한다.

3. 가로 축으로는 경과 기간을 파악하기 위해, '고객별 재구매 경과기간' 을 열에 놓는다.

4. MAC:Option / Window: Alt 키를 누른 채, 고객번호를 색상 마크에 두고 카운트(고유)(고객번호)를 선택한다.

5. 마지막으로 마크 모양을 사각형으로 설정하면 코호트 차트가 완성된다.

이 차트를 해석하면서, 데이터 리터러시 능력을 반드시 갖춰야 겠구나 라는 생각을 하게 되었다.

if의 경우 아래와 같이 여러 조건에 대한 값을 반환한다.

IF 조건 THEN 결과
ELIF 조건 THEN 결과
ELSE 결과
END

iif는 여러 케이스를 고려하지 않고 True 혹은 False를 구분할때 활용

IIF(조건, TRUE, FALSE)

ex) IIF(Population > 5,000,000, "high", "low")

'프리온보딩 > 태블로 데이터 시각화' 카테고리의 다른 글

데이터 시각화 8 (0)	2023.09.08
데이터시각화 7 (0)	2023.09.08
데이터 시각화 5 (0)	2023.09.08
데이터 시각화 4 (0)	2023.09.08
데이터 시각화 3 (0)	2023.09.08

데이터 시각화 5

gooreumsea 2023. 9. 8. 04:27

2023. 9. 8. 04:27

매개변수 생성시 '허용 가능한 값' 에 원하는 값들을 기재하고 이 값을 새로운 계산식에 활용하면

상단 그림과 같이, 기재했던 값들을 필터로서 활용가능하다.

값들이 서로 분리된 시각화를 표현할 수 있다.

그림에는 이미 표시되어 있지만, 배경이미지 메뉴를 통해 작업중인 데이터 세트에 원하는 이미지를 불러올 수 있다.

그림의 픽셀에 맞게 불러와야 하고, 데이터들은 이미 x,y 값으로서 픽셀값이 주어져 있는 상태.

MAKEPOINT 함수를 통해 위/경도에 점을 생성하고,
BUFFER 함수를 통해 생성된 포인트 별 반경을 시각화 할 수 있다.

MAKEPOINT 함수를 통해 위/경도에 점을 생성하고,

아래 그림과 같이 MAKELINE 함수를 활용하면 각각의 점들을 이을 수 있다.

출발지와 도착지를 시각화하는데 매우 편리할 것 같다.

작업 데이터 세트가 출발지가 하나의 데이터로만 이루어져 있어서 점을 잇기만 해도 표현이 되었지만,

출발지가 다를 경우에는 추가 작업이 필요해 보인다.

'프리온보딩 > 태블로 데이터 시각화' 카테고리의 다른 글

데이터시각화 7 (0)	2023.09.08
데이터 시각화 6 (0)	2023.09.08
데이터 시각화 4 (0)	2023.09.08
데이터 시각화 3 (0)	2023.09.08
데이터 시각화 2 (0)	2023.09.08

데이터 시각화 4

gooreumsea 2023. 9. 8. 04:16

2023. 9. 8. 04:16

측정값을 복사하여 열에 추가하면, 위 그림 처럼 2개의 그래프를 표현할 수 있다.

이후 두번째 측정값 우측 클릭 후 '이중 축' 을 눌러주면 아래 그림과 같이 2개의 그래프가 하나로 통합된 시각화가 가능하다.

시각화를 진행할 연도를 필터로 걸어 2개년도로 설정한 뒤,

행에 위치한 Dollar Price 값을 우측클릭 하면 나오는 기준 탭에서 '첫번째' 항목을 선택하면 아래와 같은 시각화를 만들어낼 수 있다.

2020년도 기준 국가별 가격 변동의 비율차이를 확인 할 수 있다.

미세먼지 농도 수치 평균을 색상 마크에 두고, 마크 모양을 사각형으로 선택했을때, 파이썬의 히트맵과 흡사한 시각화를 나타낼 수 있다.

수치에 따라 색상을 차이나게 선택하면 지역별로, 어떤 달이 미세먼지 농도 수치가 높았는지를 파악하기 쉽다.

'프리온보딩 > 태블로 데이터 시각화' 카테고리의 다른 글

데이터 시각화 6 (0)	2023.09.08
데이터 시각화 5 (0)	2023.09.08
데이터 시각화 3 (0)	2023.09.08
데이터 시각화 2 (0)	2023.09.08
데이터 시각화 1 (0)	2023.07.09

데이터 시각화 3

gooreumsea 2023. 9. 8. 03:59

2023. 9. 8. 03:59

카페인 함유량을 매개변수로서 슬라이드를 통해 조절할 수 있도록 설정한 뒤,

이 매개변수를 활용하여 계산식을 만들고 이를 색상 마크에 넣으면 위와 같은 시각화를 만들어낼 수 있다.

* 계산식에도 매개변수 활용 가능

시각화를 완성한 뒤, 좌측 상단 분석 탭으로 가면 축별로 평균값을 '라인'으로 나타낼 수 있다.

'프리온보딩 > 태블로 데이터 시각화' 카테고리의 다른 글

데이터 시각화 6 (0)	2023.09.08
데이터 시각화 5 (0)	2023.09.08
데이터 시각화 4 (0)	2023.09.08
데이터 시각화 2 (0)	2023.09.08
데이터 시각화 1 (0)	2023.07.09

데이터 시각화 2

gooreumsea 2023. 9. 8. 03:55

2023. 9. 8. 03:55

차원에서 메뉴명을 텍스트 마크에,

칼로리를 색상과, 크기 마크에 각각 놓으면 (측정값: 합계)

칼로리 합계에 따라 색상과 메뉴명 사이즈가 상이한, 워드 클라우드를 표현할 수 있다.

카페인 합계에 따라 색상 표현, 마크의 모양은 원으로 설정한 뒤 메뉴명은 세부정보로 설정.

화면 좌측상단 분석탭의 박스플롯을 작업화면에 드래그하면 위와 같은 시각화를 표현할 수 있음.

칼로리를 열에, 카테고리를 행에 두고

카페인 평균함량을 활용하는 계산식을 IF구문을 활용하여 생성한 뒤, 이를 색상 마크에 표현하면

평균 칼로리 함량 80mg을 기준으로 2가지 색상으로 분리되어 나타나는 시각화를 표현할 수 있음.

매장운영시간을 열에, 매장명을 행에 두고

DATEDIFF 함수를 활용하여, 매장 운영시간을 계산식으로 구한 뒤 이를 색상마크에 넣으면

매장별 운영시간을 색상으로 분리하여 나타낼 수 있다.

'프리온보딩 > 태블로 데이터 시각화' 카테고리의 다른 글

데이터 시각화 6 (0)	2023.09.08
데이터 시각화 5 (0)	2023.09.08
데이터 시각화 4 (0)	2023.09.08
데이터 시각화 3 (0)	2023.09.08
데이터 시각화 1 (0)	2023.07.09

Leetcode 262 - Trips and Users

gooreumsea 2023. 9. 1. 03:08

2023. 9. 1. 03:08

https://leetcode.com/problems/trips-and-users/description/

습득한 점:

SUM함수의 새로운 표현법을 알 수 있었다.

이제 까진 주로 숫자에 대한 계산을 위해 SUM(price*moment) 의 정도로 활용해왔지만,

이번 문제 풀이를 통해,

컬럼 내 존재하는 특정 문자열 데이터의 갯수를 아래 표현과 처럼 셀 수도 있었다.

SUM(status != 'completed') >>> status 컬럼 중 "completed"가 아닌 데이터의 총 갯수

COUNT(status) >>> status 컬럼의 데이터 갯수 총합

문제:

The cancellation rate is computed by dividing the number of canceled (by client or driver) requests with unbanned users by the total number of requests with unbanned users on that day.

Write a solution to find the cancellation rate of requests with unbanned users (both client and driver must not be banned) each day between "2013-10-01" and "2013-10-03". Round Cancellation Rate to two decimal points.

Return the result table in any order.

문제파악:

10/1 ~ 10/3 까지 일자별 여행 취소율을 구하는 문제이다.

취소율은

dividing the number of canceled (by client or driver) requests with unbanned users by the total number of requests with unbanned users on that day.

즉 금지되지 않은 이용자와의 전체 취소요청 건수 / 당일 금지되지 않은 이용자와의 총 요청 건수 로 구한다.

쿼리 작성 중, 테스트 케이스가 통과 안되는 건이 하나 있었다.

테스트 케이스가 참 이상했다.

저 Input대로 라면, 전체 요청건수는 1개, 그중 취소 요청건수는 1개라 취소율은 100%여야 함에도 불구하고,

Expected에는 아예 값 자체가 보이지 않았다....

그래서 그냥 취소율이 1이 되는 경우는 아예 발생하지 않도록 쿼리를 일부 수정했다.

1. banned 컬럼 값이 No 인 값들의 user_id만 찾을 수 있도록 서브쿼리 작성

2. 만들어 둔 서브 쿼리 자체를 WHERE 조건으로 활용

- clinet_id, driver_id 의 컬럼 값들 중, 서브쿼리로 만들어지는 user_id와 일치하는 조건에 만족하는 SELECT 값을 찾을 수 있도록!

(Trips 테이블의 clinet_id, driver_id //// Users 테이블의 user_id는 foreign key 이다)

3. Between 활용하여, 문제에서 원하는 날짜 지정

4. 날짜 별 취소율을 구하는 것이기 때문에 Group by를 request_at기준으로 지정

5. 취소율을 구할 수 있도록, 완료건이 아닌 취소건의 갯수/ status의 총 갯수 를 구한 뒤, Round 활용해서 소수점 처리

6. 정렬조건은 필요없다고 나와있음

- With 구문을 활용하면 서브쿼리를 2번 적지 않을 수 있다.

- Alias 지정할 때, 중간에 빈칸이 있으면 ' ' 으로 묶어줘야 한다.

풀이:

SELECT request_at AS DAY
     , ROUND(SUM(status != 'completed') / COUNT(status),2) AS 'Cancellation Rate'
      
FROM Trips
WHERE client_id IN ( 
                  SELECT users_id
                  FROM Users
                  WHERE banned = 'NO'
                  )
AND driver_id IN ( 
                  SELECT users_id
                  FROM Users
                  WHERE banned = 'No'
                    )
AND request_at BETWEEN DATE("2013-10-01") AND DATE ("2013-10-03")
GROUP BY request_at

'sql > easy' 카테고리의 다른 글

180. Consecutive Numbers (0)	2024.01.15
Leetcode 185 - Department Top Three Salaries (0)	2023.09.20
프로그래머스 Lv 4 - 보호소에서 중성화한 동물 (Lv 4 문제 마지막) (0)	2023.08.16
프로그래머스 Lv 4 - 식품분류별 가장 비싼 식품의 정보 조회하기 (0)	2023.08.16
프로그래머스 Lv 3 - 조회수가 가장 많은 중고거래 게시판의 첨부파일 조회하기 (0)	2023.07.19

프로그래머스 Lv 3 - 자동차 대여 기록에서 대여중 / 대여 가능 여부 구분하기

gooreumsea 2023. 8. 17. 17:09

2023. 8. 17. 17:09

https://school.programmers.co.kr/learn/courses/30/lessons/157340

습득한 점:

레벨 3문제지만, 코드 길이에 관계없이 지금까지 풀었던 문제중에서 가장 까다로웠고,

깨닫게 된 점이 많았다.

문제를 마주하면 이해하기 좋은 코드 작성하고자,

반복적으로 필요하지 않고 해당 함수가 꼭 필요하지 않음에도, With 구문을 습관적으로 활용해서 문제를 풀곤 했었다.

덕분에 이해하기는 편했으나, 코드 줄 수가 너무 길어지는 단점이 있었다.

결과적으론... 이해하는 것이 코드를 작성한 나만 쉽지 않을까? 생각들었다.

DA가 sql 코드 성능을 신경 쓸 필요는 별로 없겠지만, 그래도 기존에 해왔던 파이썬이나 자바처럼 좀 더 컴팩트하게 작성하면 좋지 않을까?

앞으로는 가독성도 가독성이지만, 최대한 컴팩트하게 작성해보고자 한다.

- IF구문의 새로운 활용법:

* 기본적으로 IF(조건,True값,False값) 의 형태로 작성되지만,
IF(컬럼 IN (원하는 서브쿼리),True,False) 의 형태로도 작성될 수 있다.

- GROUP BY 특성:

* GROUP BY를 MAX()와 같은 함수와 사용할 때, run을 눌러서 나타나는 테이블은 컬럼들이 MAX()함수로 계산된 컬럼을 제외하고
다른 컬럼들은 서로 관계성을 지니지 않음.

* 보통 원본 테이블에서 보여지는 그룹 별 첫번째 값들이 보여지게 되어 있음.

문제:

CAR_RENTAL_COMPANY_RENTAL_HISTORY 테이블에서

2022년 10월 16일에 대여 중인 자동차인 경우 '대여중' 이라고 표시하고,

대여 중이지 않은 자동차인 경우 '대여 가능'을 표시하는 컬럼(컬럼명: AVAILABILITY)을 추가하여

자동차 ID와 AVAILABILITY 리스트를 출력하는 쿼리 작성

이때 반납 날짜가 2022년 10월 16일인 경우에도 '대여중'으로 표시

결과는 자동차 ID를 기준으로 내림차순 정렬

문제파악:

2022-10-16일에 대여가 가능한지의 여부를 찾는 문제

CAR_ID를 고유값으로 뽑아내야 해서 많이 헤맷다.

위 예시에서, CAR_ID의 2,3번째 데이터는 대여시작일과 대여종료일 사이에 10-16가 걸쳐있어서

결과테이블에서는 '대여중'으로 표시되어야 하고 나머지 데이터는 표현되지 않아야 한다.

IF구문 내, 서브쿼리를 활용해서,

조건에 해당되는 값이, 서브쿼리로 인해 뽑힌 데이터 내에 단 한개라도 들어있다면, '대여중',

존재하지 않는다면, '대여 가능'으로 표시되도록 작성 후 alias 를 지정한 뒤, 이를 SELECT절에 CAR_ID 컬럼과 함께 삽입했다.

이로써 조건에 맞는 CAR_ID와, 대여 여부를 판단한 AVAILABILITY를 테이블에서 확인할 수 있다.

풀이:

SELECT DISTINCT CAR_ID
              , IF(CAR_ID IN(SELECT CAR_ID
                             FROM CAR_RENTAL_COMPANY_RENTAL_HISTORY
                             WHERE '2022-10-16' BETWEEN START_DATE AND END_DATE),'대여중','대여 가능') AS AVAILABILTIY

FROM CAR_RENTAL_COMPANY_RENTAL_HISTORY
ORDER BY CAR_ID DESC

'sql > hard' 카테고리의 다른 글

[재귀함수] 멸종위기의 대장균 찾기 (0)	2025.06.07
Leetcode 601 - Human Traffic of Stadium (0)	2024.03.26
프로그래머스 Lv 4 - 그룹별 조건에 맞는 식당 목록 출력하기 (0)	2023.07.06

프로그래머스 Lv 4 - 보호소에서 중성화한 동물 (Lv 4 문제 마지막)

gooreumsea 2023. 8. 16. 14:22

2023. 8. 16. 14:22

https://school.programmers.co.kr/learn/courses/30/lessons/59045

습득한 점:

WHERE ~ IN () 처럼, LIKE IN () 도 가능할까 싶었는데, 불가능했다.

대신 아래처럼 AND를 전체로 묶은 뒤, 안쪽을 OR로 엮어줄 수는 있었다.

...

WHERE SEX_UPON_INTAKE LIKE 'Intact%'
AND (SEX_UPON_OUTCOME LIKE 'Spayed%' OR SEX_UPON_OUTCOME LIKE 'Neutered%')

...

문제:

보호소에 들어올 당시에는 중성화1되지 않았지만,

보호소를 나갈 당시에는 중성화된 동물의 아이디와 생물 종, 이름을 조회하는 아이디 순으로 조회하는 쿼리 작성.

즉, 들어올 땐, 중성화X, 나갈땐 중성화O 에 해당하는 데이터를 찾으면 된다.

문제파악:

처음 문제 딱 보고, 보호소에서 나가는 동물 중에 중성화 안된 동물이 있는지 궁금해서 찾아보니 있었다.

## 보호소에서 나가는 동물 중, 중성화 안된 동물 2마리 확인

SELECT *
FROM ANIMAL_OUTS
WHERE SEX_UPON_OUTCOME LIKE 'Intact%'

결국은 들어올 때의 SEX_UPON_INTAKE 컬럼은 "Intacts%" 이고,

동시조건으로 나갈 때의 SEX_UPON_OUTCOME 컬럼은 "Sprayed% 혹은 "Neutral%" 인 데이터를 찾으면 된다.

ANIMAL_ID 기준으로 테이블 2개 조인 후, WHERE 조건에 위의 2개 항목 엮어준 뒤 ORDER BY 까지 작성해주면 된다.

풀이:

보호소에서 나가는 동물 중, 중성화 안된 동물 2마리 확인

SELECT *
FROM ANIMAL_OUTS
WHERE SEX_UPON_OUTCOME LIKE 'Intact%'





찾는 데이터: 들어올 땐, 중성화X, 나갈땐 중성화 O

SELECT INS.ANIMAL_ID
     , INS.ANIMAL_TYPE
     , INS.NAME
#     , SEX_UPON_INTAKE
#     , SEX_UPON_OUTCOME
FROM ANIMAL_INS AS INS
     INNER JOIN ANIMAL_OUTS AS OUTS ON INS.ANIMAL_ID = OUTS.ANIMAL_ID


WHERE SEX_UPON_INTAKE LIKE 'Intact%'
AND (SEX_UPON_OUTCOME LIKE 'Spayed%' OR SEX_UPON_OUTCOME LIKE 'Neutered%')
ORDER BY ANIMAL_ID


혹은 AND SEX_UPON_OUTCOME NOT LIKE 'Intact%'도 가능할 것 같다.

'sql > easy' 카테고리의 다른 글

Leetcode 185 - Department Top Three Salaries (0)	2023.09.20
Leetcode 262 - Trips and Users (0)	2023.09.01
프로그래머스 Lv 4 - 식품분류별 가장 비싼 식품의 정보 조회하기 (0)	2023.08.16
프로그래머스 Lv 3 - 조회수가 가장 많은 중고거래 게시판의 첨부파일 조회하기 (0)	2023.07.19
프로그래머스 Lv 4 - 5월 식품들의 총매출 조회하기 (0)	2023.07.18

프로그래머스 Lv 4 - 식품분류별 가장 비싼 식품의 정보 조회하기

gooreumsea 2023. 8. 16. 13:27

2023. 8. 16. 13:27

https://school.programmers.co.kr/learn/courses/30/lessons/131116

습득한점:

*** LIMIT은 서브쿼리에 들어가면 쿼리 실행자체가 안된다는 점

*** GROUP BY된 상태로 SELECT 함수 인자로 MAX func 활용할 때,
각 그룹의 첫번째 값이 끌려올 뿐, MAX func가 적용되지 않는 점

문제:

FOOD_PRODUCT 테이블에서 식품분류별로 가격이 제일 비싼 식품의 분류, 가격, 이름을 조회하는 쿼리작성.

이때 식품분류가 '과자', '국', '김치', '식용유'인 경우만 출력.

결과는 식품 가격을 기준으로 내림차순 정렬.

문제파악:

각 카테고리(식품분류)에서 최대값을 나타내는 식품명(PRODUCT_NAME)을 찾아야 하는데,

'면' 그룹내 PRICE 값이 같은 항목이 존재함. 그룹별 최대값으로서 PRICE 값은 4950원으로 서로 같지만, 식품명은 다른 상황.

"이때 식품분류가 '과자', '국', '김치', '식용유'인 경우만 출력" 라는 조건이 없었다면, 이 문제는 잘못 설계된 문제

풀이:

처음에는 고유값 PRODUCT_ID를 활용해서 PRICE 값 기준 내림차순 정렬하여 첫번째 값만 찾은 뒤,
그렇게 찾은 PRODUCT_ID를 WHERE 절에 활용하고 싶었지만...

서브쿼리에는 LIMIT 를 사용할 수 없더라.

LIMIT을 억지로 감싸는 방법이 있는 것 같지만, 코드 가독성이 안좋을 것 같다.

결국 그룹별 PRICE 최대값을 찾아, 이를 조건에 넣어 매칭시키기로 했다.

각 식품분류(CATEGORY)별 MAX(PRICE) 값만 추출 후,

이를 첫번째 일치 조건으로 활용하기 위해 서브쿼리로 감싸서 WHERE 구문에 삽입

두번째 식품분류 일치 조건은 AND CATEGORY IN ( '과자', '국', 김치', '식용유' ) 으로 엮여주기

조건1: 추출한 MAX(PRICE)값이 FOOD_PRODUCT 테이블의 PRICE 값과 같은지

조건2: 식품 분류가 '과자', '국', '김치', '식용유' 해당하는지

마지막으로 내림차순 쿼리까지 잘 작성해주면 된다.

SELECT CATEGORY
      ,PRICE AS MAX_PRICE
      ,PRODUCT_NAME
FROM FOOD_PRODUCT
WHERE PRICE IN  
     ( 
     SELECT MAX(PRICE)
     FROM FOOD_PRODUCT
     GROUP BY CATEGORY
     )
AND CATEGORY IN ('과자', '국', '김치', '식용유')
ORDER BY MAX_PRICE DESC

'sql > easy' 카테고리의 다른 글

Leetcode 262 - Trips and Users (0)	2023.09.01
프로그래머스 Lv 4 - 보호소에서 중성화한 동물 (Lv 4 문제 마지막) (0)	2023.08.16
프로그래머스 Lv 3 - 조회수가 가장 많은 중고거래 게시판의 첨부파일 조회하기 (0)	2023.07.19
프로그래머스 Lv 4 - 5월 식품들의 총매출 조회하기 (0)	2023.07.18
프로그래머스 Lv 4 - 서울에 위치한 식당 목록 출력하기 (0)	2023.07.14

PREV 이전 1 2 3 4 NEXT 다음

내 블로그 - 관리자 홈 전환	`Q` `Q`
새 글 쓰기	`W` `W`

글 수정 (권한 있는 경우)	`E` `E`
댓글 영역으로 이동	`C` `C`

이 페이지의 URL 복사	`S` `S`
맨 위로 이동	`T` `T`
티스토리 홈 이동	`H` `H`
단축키 안내	`Shift` + `/` `⇧` + `/`

전체 글

'sql > Advent of SQL 2024' 카테고리의 다른 글

기본 정규표현식 기호

기본 패턴

'Data Analysis > Regex' 카테고리의 다른 글

'sql > easy' 카테고리의 다른 글

'Data Analysis > Regex' 카테고리의 다른 글

'sql > easy' 카테고리의 다른 글

'sql > easy' 카테고리의 다른 글

'sql > easy' 카테고리의 다른 글

'sql > easy' 카테고리의 다른 글

'sql > easy' 카테고리의 다른 글

링크: https://leetcode.com/problems/human-traffic-of-stadium/

습득한 점:

문제:

문제파악:

풀이:

1. 'people'이 100 이상인 행들을 걸러냈을 때, id 값의 모양을 예상해본다.

2.  diff를 기준으로 GROUP BY 이후, 행의 갯수 조회

3. 찾아낸 diff를 활용하여 정답 찾기

PARTITION BY 이용:

'sql > hard' 카테고리의 다른 글

'sql > easy' 카테고리의 다른 글

기존에 테이블 조인 방식으로 풀었던 문제이지만, LEAD() 를 활용해서도 풀어볼 수 있었다.큰 차이는 없지만, 윈도우함수를 활용하는 방법이 조금 더 직관적으로 이해하기 좋았음.

'sql > easy' 카테고리의 다른 글

습득한 점:

문제:

문제파악:

풀이:

'sql > easy' 카테고리의 다른 글

'프리온보딩 > 태블로 데이터 시각화' 카테고리의 다른 글

'프리온보딩 > 태블로 데이터 시각화' 카테고리의 다른 글

'프리온보딩 > 태블로 데이터 시각화' 카테고리의 다른 글

'프리온보딩 > 태블로 데이터 시각화' 카테고리의 다른 글

'프리온보딩 > 태블로 데이터 시각화' 카테고리의 다른 글

'프리온보딩 > 태블로 데이터 시각화' 카테고리의 다른 글

'프리온보딩 > 태블로 데이터 시각화' 카테고리의 다른 글

'프리온보딩 > 태블로 데이터 시각화' 카테고리의 다른 글

습득한 점:

SUM함수의 새로운 표현법을 알 수 있었다.

SUM(status != 'completed') >>> status 컬럼 중 "completed"가 아닌 데이터의 총 갯수

문제:

문제파악:

풀이:

'sql > easy' 카테고리의 다른 글

습득한 점:

문제:

문제파악:

풀이:

'sql > hard' 카테고리의 다른 글

습득한 점:

문제:

문제파악:

풀이:

'sql > easy' 카테고리의 다른 글

습득한점:

문제:

문제파악:

풀이:

'sql > easy' 카테고리의 다른 글

티스토리툴바

단축키

내 블로그

블로그 게시글

모든 영역

2. diff를 기준으로 GROUP BY 이후, 행의 갯수 조회

기존에 테이블 조인 방식으로 풀었던 문제이지만, LEAD() 를 활용해서도 풀어볼 수 있었다.
큰 차이는 없지만, 윈도우함수를 활용하는 방법이 조금 더 직관적으로 이해하기 좋았음.