반응형

Chapter07 병렬 데이터 처리와 성능

자바의 병렬

자바 7 이전의 버전에서는 병렬의 처리가 어려웠다.
분할을 위한 스레드 할당 → 동기화 추가 → 결과 합치기의 과정을 통해 병렬 처리가 실행되는데, 각 병렬처리를 한 후에 스레드를 합칠 때 동기화를 적절히 이뤄줘야 교착 상태를 피할 수 있었다.
7버전 부터 지원하기 시작한 Fork/Join 프레임워크를 활용하면 해당 문제를 쉽고 효율적으로 해결할 수 있다. 이 Fork/Join 프레임워크를 활용한 스트림 API와 병렬 처리에 대해서 배워보자.


병렬 스트림

  • 각각의 스레드에서 처리할 수 있도록 스트림 요소를 여러 청크로 분할한 스트림
  • 멀티코어 프로세서가 각각의 청크를 처리하도록 한다
  • Collections.parallelStream() or Arrays.stream().parallel()
    • Pipeline에있는 parallel 상태에 true가 저장된다.
    • 이후 파이프라인 처리할 때 처리할 때 parallel 체크를 통해 해결한다.
  • 병렬 처리를 고려할 때는 성능 벤치마킹을 하는 것을 권장
  • 성능 최적화
    • 기본형(primitive) 타입의 경우 기본형 특화 스트림 권장 - 오토박싱의 이유
    • 일반적으로 순차적인 처리가 필요한 스트림의 경우 병렬 비용이 더욱 비싸 느릴 가능성이 높음
    • 순차 처리가 필요없는 경우 findAny같은 순서에 상관 없는 쇼트 서킷, unordered 같은 메서드 사용
    • 하나의 요소를 처리하는 데 드는 비용이 비싸다면 고려
    • 스트림 자료구조의 특성을 확인 ex) LinkedList vs ArrayList 일반적으로 좋음
    • 병합 과정의 비용을 생각해야 한다
    | 소스 | 분해성 |
    | --- | --- |
    | ArrayList | Excellent |
    | LinkedList | Bad |
    | IntStream.range | Excellent |
    | Stream.iterate | Bad |
    | HashSet | Good |
    | TreeSet | Good |
    | Stream.generate | iterate보단 낫다 |

parallel처리 관련 이미지

Untitled

Untitled

Untitled

포크/조인 프레임워크

  • 병렬 작업할 때 사용

  • 재귀적으로 큰 작업을 작은 작업으로 분할한 후 서브태스크의 결과를 합쳐서 전체 결과를 만듦

  • 스레드 풀(ForkJoinPool)의 작업자 스레드에 분산 할당하는 ExecutorService

    • ExecutorService를 왜 언급하는가?

      RecursiveTask를 실제로 활용했을 때 해당 추상 클래스의 부모인 ForkJoinTask에서 ForkJoinPool을 활용해서 실제 활용하고있기 때문

      RecursiveTask → ForkJoinTask에서 사용하는 ForkJoinPoolExcutorService

      Untitled

      Untitled

  • 분할 정복(divide-and-conquer) 알고리즘의 병렬화

  • compute() 메서드 오버라이딩 해서 구현

  • 병렬처리 시 주의점

    • join 호출은 두 서브태스크가 모두 시작된 다음에 해야한다.
    • ForkJoinPool의 invoke메서드는 병렬 계산 시작하는 시점에서 한번만 사용
    • 한쪽은 fork() 한쪽은 compute() ⇒ 같은 스레드 재사용 피하기 위함
    • 디버깅이 어렵다 ⇒ 스택이 아닌 다른 스레드 이기 때문
    • 병렬 처리가 무조건 빠르지 않다.
  • 작업 훔치기(work stealing) 특성을 갖고있음

  • ForkJoin을 활용한 RecursiveTask 예시

import java.util.concurrent.ForkJoinTask;
import java.util.concurrent.RecursiveTask;
import java.util.stream.LongStream;

public class ForkJoinSumCalculator extends RecursiveTask<Long> {

    //THRESHOLD 이상의 값 까지만 분해
  public static final long THRESHOLD = 10_000;

  private final long[] numbers;
  private final int start;
  private final int end;

  public ForkJoinSumCalculator(long[] numbers) {
    this(numbers, 0, numbers.length);
  }

  private ForkJoinSumCalculator(long[] numbers, int start, int end) {
    this.numbers = numbers;
    this.start = start;
    this.end = end;
  }

  @Override
  protected Long compute() {
    int length = end - start; //해당 태스크에서 더할 배열의 길이
    if (length <= THRESHOLD) {
      return computeSequentially();
    }
        //각 태스크 분리 left, right
    ForkJoinSumCalculator leftTask =
        new ForkJoinSumCalculator(numbers, start, start + length / 2);
        //생성한 태스크 비동기 실행
    leftTask.fork();
    ForkJoinSumCalculator rightTask =
        new ForkJoinSumCalculator(numbers, start + length / 2, end);
        //두번째 태스크 동기 실행
    Long rightResult = rightTask.compute();
        //비동기 실행했던 left의 결과를 읽거나 처리완료 후 읽기까지 대기
    Long leftResult = leftTask.join();
    return leftResult + rightResult;
  }

    //가장 작은 단위일 때 작은 단위로 쪼갠 태스크의 결과를 계산
  private long computeSequentially() {
    long sum = 0;
    for (int i = start; i < end; i++) {
      sum += numbers[i];
    }
    return sum;
  }

    public static long forkJoinSum(long n) {
    long[] numbers = LongStream.rangeClosed(1, n).toArray();
    ForkJoinTask<Long> task = new ForkJoinSumCalculator(numbers);
    return FORK_JOIN_POOL.invoke(task);
  }
}

//호출 방법
ForkJoinSumCalculator.forkJoinSum(long n));

Spliterator 인터페이스

  • 구성 요소
    • booleaen tryAdvance(Consumer<? super T> action)
      • 요소를 하나씩 순차적으로 돌며 요소가 남아있는지 확인
    • Spliterator trySplit()
      • 일부 요소를 분할해서 새로운 Spliterator 생성
    • long estimateSize()
      • 탐색해야 할 요소 수 정보 제공(RecursiveTask의 THRESHOLD 역할로 보임)
    • int characteristics()
      • 다양한 특성 집합을 포함(ORDERED, DISTINCT 그 외 다수)

7장을 마치며

  • 내부 반복을 통해 명시적으로 스트림 병렬처리
  • 병렬처리가 무조건 빠르지 않음 특성과 병렬처리 후의 결과 등을 잘 확인하여 고려할 것
  • 병렬 처리에는 포크/조인 프레임워크를 활용한다
  • Spliterator를 통해 병렬 처리를 직접 정의할 수 있다.
반응형
반응형

Chapter06 스트림으로 데이터 수집

6장에 들어가며..

이번 장의 초점은 최종 연산인 collect에 맞춰져 있다.

맛보기 - 통화별로 트랜잭션을 그룹화한 코드

<명령형 프로그래밍>
Map<Currency, List<Transaction>> transactionsByCurrencies = new HashMap<>();

for(Transaction transaction : transactions) {
    Currency currency = transaction.getCurrency();
    List<Transaction> transactionsForCurrency = transactionsByCurrencies.get(currency);
    if(transactionsForCurrency == null){
        transactionsForCurrency = new ArrayList<>();
        transactionsByCurrencies.put(currency, transactionsForCurrency);
    }
    transactionsForCurrency.add(transaction);
}

->

<함수형 프로그래밍>
Map<Currency, List<Transaction>> transactionsByCurrencies =
      transactions.stream().collect(Collectors.groupingBy(Transaction::getCurrency));

collect메서드를 통해 Collector 인터페이스를 사용하는데, groupingBy를 이용해서 각 키 버킷, 키 버킷에 대응하는 요소 리스트를 값으로 포함하는 맵이 만들어지게 된다.

Collect

  • 스트림에서 지원하는 메서드
  • collect(리듀싱)
  • collect(Collector인터페이스 사용)

Collector

  • 인터페이스
  • 리듀싱 연산이 수행
  • 스트림의 요소를 어떤 식으로 도출할지 지정

Collectors

  • 유틸리티 클래스
  • 정적 팩토리 메서드
  • 기능
    • 스트림 요소를 하나의 값으로 리듀스하고 요약
    • 요소 그룹화
    • 요소 분할

리듀싱과 요약

스트림.collect를 통해 스트림의 모든 항목을 하나의 결과로 합칠 수 있다.

Collectors.maxBy, minBy - 스트림 값에서 최댓값과 최솟값 검색

Comparator<Dish> dishCaloriesComparator = Comparator.comparingInt(Dish::getCalories);

Optional<Dish> mostCalorieDish =
menu.stream()
    .collect(
        Collectors.maxBy(dishCaloriesComparator)
    );
  • Optional반환
  • 객체의 숫자 필드의 합계나 평균 연산 ⇒ 요약 연산

요약 연산

  • Collectors.summingInt, double, long
  • averagingInt, double, long
  • summarizingInt
    • count, sum, min, average, max
    • getter
IntSummaryStatistics menuStatistics = menu.stream()
                      .collect(
                          Collectors.summarizingInt(Dish::getCalories)
                      );

Collectors.joining - 문자열 연결

  • 각 객체에 toString메서드를 호출해서 모든 문자열을 하나의 문자열로 연결해서 반환
  • StringBuilder가 활용됨

Collectors.reducing - 범용 리듀싱 요약 연산

  • 모든 컬렉터는 reducing 팩토리 메서드로도 정의가 가능하다. 하지만, reducing이 아닌, 다른 팩토리 메서드를 사용하는 이유는 편의성 때문이다.
<인수가 3개인 reducing>
int totalCalories = menu.stream()
            .collect(Collectors.reducing(
                0, Dish::getCalories, (i, j) -> i + j)
            );

<인수가 1개인 reducing>
Optional<Dish> mostCalorieDish = menu.stream()
                     .collect(Collectors.reducing(
                         (d1, d2) ->
                             d1.getCalories() > d2.getCalories() ? d1 : d2)
                     );
  • reducing에 들어가는 인수 3개
    • seed(identity)
    • mapper(Function)
    • BinaryOperator
  • reducing에 들어가는 인수 1개
    • Optional반환 → 최소 2개 이상의 값이 필요하기 때문에
    • 첫번째 스트림 요소 = seed(identity)
    • 두번째 요소부터 BinaryOperator(seed, nextStream)

collect vs reduce

collect는 위에서 설명했던 것처럼 스트림의 요소를 어떤 식으로 도출할지 지정하는 특성을 갖고 있다. 즉 도출하려는 결과를 누적하는 컨테이너를 바꾸도록 설계되어 있는 가변형 메서드인 반면에 reduce는두 값을 하나로 도출하는 불변형 연산 이라는 점에서 의미론 적인 문제가 일어난다. 또 7장에서 다루는 병렬 처리 관련해서도 문제가 발생할 수 있다.

컬렉션 프레임워크 유연성 : 같은 연산도 다양한 방식으로 수행할 수 있다.

but 위에서 말했던 collect와 reduce처럼 용도에 맞는 형식으로 최대한 구현하는 것을 권장한다.

자신의 상황에 맞는 최적의 해법 선택

위에서 말했듯 컬렉션 프레임워크의 유연성 때문에 다양한 방식으로 동일한 결과를 낼 수 있지만, 방법에 따라 성능의 차이나 가독성의 문제가 생길 수 있다. 예를들면 reduce연산을 통해 누적 값을 검색하는 것이 아니라 mapToInt를 통해 IntStream으로 변환 후 .sum을 한다면 언박싱을 할 필요가 없어지므로 성능 향상을 볼 수 있을 것이다.

Collectors.groupingBy - 그룹화

<Type 기준으로 분류>
Map<Dish.Type, List<Dish>> dishesByType = menu.stream()
                          .collect(Collectors.groupingBy(Dish::getType));

<조건 기준 분류>
public enum CaloricLevel { DIET, NORMAL, FAT }

Map<CaloricLevel, List<Dish>> dishesByCaloricLevel =
menu.stream()
    .collect(
        groupingBy( dish -> {
                if (dish.getCalories() <= 400) return CaloricLevel.DIET;
                else if (dish.getCalories() <= 700) return CaloricLevel.NORMAL;
                else return CaloricLevel.FAT;
            }));
  • Dish.Type.values()을 통해 키값이 생성된다고 생각하면 되고, 이를 분류 함수(classification function)라고 부른다.
  • 각 키를 기준으로 분류를 할 수 있다.
    • 위의 값들을 기준으로 좀 더 명확히 하기 위해 설명하자면
      List리스트에 있는 Dish::getType을 통해 Map<K, V>가 설정되며, K가 Dish::getType의 반환타입, V는 해당 객체 자체를 List에 담아 저장하는 것을 의미한다.

image

그룹화된 요소 조작

Collectors.filtering

Map<Dish.Type, List<Dish>> caloricDishesByType = 
menu.stream()
    .collect(groupingBy(Dish::getType,
        Collectors.filtering(dish -> dish.getCalories() > 500, toList())));

Collectors.mapping

Map<Dish.Type, List<Dish>> caloricDishesByType = 
menu.stream()
    .collect(groupingBy(Dish::getType, mapping(Dish:getName, toList())));

Collectors.flatMapping

Map<Dish.Type, List<Dish>> caloricDishesByType = 
menu.stream()
.collect(groupingBy(
        Dish::getType,
        flatMapping(dish -> dishTags.get(dish.getName()).stream,
        toSet())));

컬렉터 결과를 다른 형식에 적용하기

Optional같은 반환타입이 들어왔을 때 해당 값이 있다는 것을 보장한다면 고려할 수 있는 방법

.collect(groupingBy(Dish::getType, -> 분류함수
    collectingAndThen(maxBy(comparingInt(Dish::getCalories)), -> 컬렉터래핑
    Optional::Get))); -> 변환함수

컬렉션 형식을 바꾸는 방법

toCollection(HashSet::new); → TreeSet등 변환이 가능

partitioningBy - 분할

  • 분할은 특수한 종류의 그룹화
  • 분할은 분할 함수(partitioning function)라 불리는 프레디케이트
  • 맵의 키 형식은 Boolean
  • 한개의 인수를 받을 때
    • true false기준으로 구분
  • 두개의 인수를 받을 때
    • 다중 맵으로 필터링할 수 있음
    • Map<Boolean, Map<Dish.Type, List<Dish>>> vegetarianDishesByType = menu.stream() .collect(partitioningBy( Dish::isVegetarian, ->true false groupingBy(Dish::getType)->Type별로 또 나눔 ));

분할의 장점

  • 참, 거짓 두 가지 요소의 스트림 리스트를 모두 유지하는 것이 장점
  • 때문에 분류 목록을 만들 때 활용하기 좋다

Collector 인터페이스

Collector 인터페이스는 리듀싱 연산을 어떻게 구현할지 제공하는 메서드 집합으로 구성된다.

Collector<T, A, R> 인터페이스의 시그니처

  • T는 수집될 스트림 항목의 제네릭
  • A는 누적자, 중간 결과를 누적하는 객체
  • R은 수집 연산 결과 객체의 형식

Collector 인터페이스의 메서드

  • Supplier<A> supplier()
    • 새로운 결과 컨테이너 만들기
    • 빈 누적자(seed) 인스턴스 만들기
    • ex) return () → new ArrayList();
  • BiConsumer<A, T> accumulator()
    • 결과 컨테이너에 요소 추가하기
    • 리듀싱 연산을 수행하는 함수를 반환
    • n번째 요소를 탐색할 때 두 인수, 누적자와 n번째 요소를 함수에 적용한다.
    • A → 누적자 T를 A에 반영한 후 반환
    • ex) return List::add; or return (list, item) → list.add(item);
  • Function<A, R> finisher()
    • 최종 변환값을 결과 컨테이너로 적용하기
    • 누적자 객체를 최종 결과로 변환
  • BinaryOperator<A> combiner()
    • 두 결과 컨테이너 병합
    • 병렬 처리된 누적자를 결합하는 메서드
  • SET<Characteristics> characteristics()
    • collect 메서드가 어떤 최적화(ex : 병렬화)를 이용해서 리듀싱 연산을 수행할 것인지 결정하도록 돕는 힌트
    • Characteristics은 각 특성을 담고있는 Enum 을 넣어서 힌트를 제공.
      • UNORDERED - 방문 순서나 누적 순서에 영향을 받지 않는다.
      • CONCURRENT - 다중 스레드에서 accumulator 함수를 동시에 호출할 수 있으며 병렬 리듀싱이 수행 가능하다.
      • IDENTITY_FINISH - 리듀싱 과정의 최종 결과에 누적자 객체를 바로 사용할 수 있는 것

응용하기

직접 List를 담는 ToListCollector를 구현해보자

//<version1 직접 interface 구현체 만들기>
import java.util.*;
import java.util.function.BiConsumer;
import java.util.function.BinaryOperator;
import java.util.function.Function;
import java.util.function.Supplier;
import java.util.stream.Collector;

public class ToListCollectorTest<T> implements Collector<T, List<T>, List<T>> {

    @Override
    public Supplier<List<T>> supplier() {
        return ArrayList::new;
    }

    @Override
    public BiConsumer<List<T>, T> accumulator() {
        return List::add;
    }

    @Override
    public BinaryOperator<List<T>> combiner() {
        return (list1, list2) -> {
            list1.addAll(list2);
            return list1;
        };
    }

    @Override
    public Function<List<T>, List<T>> finisher() {
        return Function.identity();
    }

    @Override
    public Set<Characteristics> characteristics() {
        return Collections.unmodifiableSet(EnumSet.of(Characteristics.IDENTITY_FINISH, Characteristics.CONCURRENT));
    }
}

-----------------------------------------

//<version2 간단한 리듀싱은 구현체 필요없음>
List<Dish> dishes = menuStream.collect(
        ArrayList::new,
        List::add,
        List::addAll
);

6장을 마치며

  • collect는 스트림의 요소를 요약 결과로 누적하는 다양한 방법을 인수로 갖는 최종 연산이다.
  • Collectors라는 Collector구현체를 통해 다양한 리듀싱 연산을 손쉽게 할 수 있다.
  • groupingBy, partitioningBy로 스트림의 요소를 그룹화,분할할 수 있다.
  • 다수준의 그룹화, 분할, 리듀싱 연산에 특화되어있다.
  • Collector 인터페이스를 직접 구현해 커스텀 컬렉터를 개발, 기존의 컬렉터를 튜닝할 수 있다.
반응형
반응형

Chapter05 스트림 활용

필터링

스트림의 요소를 선택하는 방법 필터링

스트림 인터페이스가 지원하는 filter 메서드의 필터링 방법

  • Predicate
    • 불린을 반환하는 함수를 인수로 받아서 필터링할 수 있다.
      • stream().filter(Dish::isVegetarian)
      • stream().filter(menu.price > 1000)
  • 고유 요소 - distinct()
    • 고유 여부는 스트림에서 만든 객체의 hashCode, equals로 결정된다.

슬라이싱

스트림의 요소를 선택하거나 스킵하는 스트림

  • Predicate - java9
    • takeWhile() - false가 등장하는 시점 직전까지의 데이터를 슬라이싱
    • dropWhile() - false 요소를 발견한 값 이후 슬라이싱
  • 스트림 축소
    • .limit(n) - 발견하는 요소의 개수 발견 시 종료 → 정렬되지 않은 값에도 사용하기 용이함
  • 요소 건너뛰기
    • .skip(n) - 발견하는 n개의 요소 스킵

매핑

특정 객체에서 특정 데이터를 선택하는 작업

  • 스트림의 각 요소에 함수 적용

      List<Menu> menu ...
    
      List<String> dishNames = menu.stream()
                                                              .map(Dish::getName)
                                                              .collect(toList());
      => Stream<Menu> -> .map(Dish::getName) -> Stream<String>
  • 평면화

    • flatMap() → Stream의 객체를 감싸는 것이 아니라 객체 자체를 반환하도록 한다.

      words.stream()
            .map(word -> word.split(""))//각 단어를 개별 문자를 포함하는 배열로 변환
                                                                    //Stream<String[]> or Stream<Stream<String>>
            .map(Arrays::stream) //String[]배열을 stream으로 감싸기
            .distinct()
            .collect(toList());
            //List<Stream<String>> 반환 -> 실패
      
      words.stream()
            .map(word -> word.split(""))
            .flatMap(Arrays::stream) // flatMap을 통해 만들어진 Stream<Stream<String>>을
                                                            //Stream<String>으로 평면화
            .distinct()
            .collect(toList());

flatMap은 각 배열을 스트림이 아니라 스트림의 콘텐츠로 매핑한다.(스트림의 언박싱 개념으로 이해)

검색

  • 특정 속성이 데이터 집합에 있는지 여부를 검색하는 데이터 처리 기법 반환값은 Boolean

    • allMatch - 모두만족
    • anyMatch - 하나라도만족
    • noneMatch - 모두만족x
    • findFirst
    • findAny
  • 쇼트서킷

    limit, allMatch, noneMatch, findFirst, findAny등의 Stream연산은 스트림의 모든 요소를 처리하지 않고도 결과 반환이 가능하다. 이러한 연산들을 쇼트서킷 연산이라고 부른다.

요소 검색

findAny 메서드는 현재 스트림에 있는 임의의 요소를 반환한다.

Dish dish = menu.stream()
        .filter(Dish::isVegetarian)
        .findAny();
 -> 컴파일 에러 (형태 불일치 findAny() -> Optional<Dish> 반환)

쇼트서킷을 통해 결과를 바로 받았지만, 이번에는 Optional이라는 개념이 나온다.

Optional이란?

만약 List

menu 안에 아무 값도 없었다면, 또는 filter를 통해 야채를 걸렀을 때 무조건 유효한 값이 나오느냐? 묻는다면 나오지 않을 수도 있다. 아무 값이 없으면 즉시 null pointer 에러가 발생할 수 있기 때문에 null 을 반환하지 않도록 검사할 수 있는 클래스인 Optional이 자바8 버전 부터 등장하게 된 것이다.

  • isPresent() : Optional이 값을 갖고 있다면 true 반환
  • ifPresent(Cunsumer block) : 값이 있을 때 주어진 블록을 실행한다.
  • T get() : 값이 존재하면 값을 반환, 값이 없으면 NoSuchElementException 발생
  • T orElse(T other) : 값이 있으면 값을 반환하고, 값이 없으면 기본값을 반환

첫 번째 요소 찾기

일부 스트림은 논리적인 아이템 순서가 정해져 있을 수 있는데 해당 순서에서 첫 번째 요소를 찾으려면 findFirst()를 사용하면 된다.

해당하는 값이 빛을 볼 때는 병렬 스트림을 할 때 발휘할 것이다.

리듀싱

스트림의 요소를 처리해서 값으로 도출하는 연산 ⇒ 리듀싱 연산 or 폴드

요소의 합

int sum = 0;
for(int x : numbers){
        sum += x;
}

->

int sum = numbers.stream()
                                .reduce(0, (a, b) -> a + b);
  • 초깃값(identity) 0
  • 두 요소를 조합해서 새로운 값을 만드는 BinaryOperator
    • 누적합, 누적곱, max, min 등등

→ 정수 reduce가 아닌 Map리듀스도 가능한데 이후 7장에서 다룸

숫자형 스트림

기본형을 일반 스트림에 담는다면..

  • 박싱 언박싱 비용 증가
  • 일관된 데이터가 있기에 .sum()추가
  • .boxed()
  • .mapToInt()
  • .rangeClosed()

기본형 스트림의 반환형태 OptionalInt

  • .max()등 IntStream의 처리 이후 조건에 들어맞는 것이 하나도 없을 때의 경우를 위해 Optional로 반환

스트림을 만드는 다양한 방법

  • Stream.of()

    • Stream.empty()
  • Arrays.stream()

  • Stream.ofNullable()

  • 무한 스트림

    • Stream.iterate(seed, UnaryOperator)

      • 기존의 값을 가진 seed를 활용해서 무한 스트림 생성
      • limit()
      • takeWhile()

      !무한 스트림을 사용할 때 주의점 .limit()같은 쇼트서킷 메서드를 활용해야한다.

      //fibonachi
      Stream.iterate(new int[]{0, 1}, t -> new int[]{t[1], t[0]+t[1]})
                    .limit(20)
                    .forEach(System.out::println);
    • Stream.generate()

      • 기존의 값이 없는 무한 스트림 생성
      • 물론 똑같이 값을 다른 객체에서 받거나 하는 방식으로 구현할 수는 있겠지만, 객체의 기존 상태를 바꾸지 않는 불변성이 깨지게 될 것이다. 이러한 방법은 병렬Safe하지 않기 때문에 권장하지 않는다.
  • 필터링

  • 슬라이싱

  • 매핑

  • 검색

  • 매칭

  • 리듀싱

  • 기본형 스트림

  • 스트림 생성

스트림 연산의 개념에 대한 최종 정리

스트림 API의 동작방식의 특징으로는 크게 세가지

  • Lazy - 게으름
    • 최초 시작 시 연산을 바로 하는 것이 아닌 파이프라인만 설정해준 후 중간 → 최종 연산을 거쳐감
  • Short Circuit - 끊어진 순회
    • 각 스트림의 요소에 대한 중간연산 파이프라인을 처리 후 최종연산 → 최종연산의 조건에 부합하는 스트림이 있다면 그 상태에서 스트림 순회 종료!
  • Loop Fusion - 혼합된 루프
    • 중간 연산의 메서드 체인들을 한번에 처리하므로 필터 → 모든객체 필터 → 정렬 → 모든객체 정렬 의 방식이 아님

때문에

List<Dish> menu = Dish.menu;
        //1, 2, 3, 4
    List<String> names = menu.stream()
            .filter(dish -> {
              System.out.println("filtering:" + dish.getName());
              return dish.getCalories() > 300;
            })
            .map(dish -> {
              System.out.println("mapping:" + dish.getName());
              return dish.getName();
            })
            .sorted()
            .limit(3)
            .collect(Collectors.toList());
    System.out.println(names);

쇼트서킷이 들어간다면 sorted같은 중간연산은 사용하기 애매함

이번에 스트림 특성으로 Lazy, Short Circuit, Loop fusion 이렇게 세가지를 좀 알아보았는데, 각 특성 모두가 한번에 활용되는 것은 아니고 용도에 맞게 잘 사용하는 것이 이로울 것 같다.

https://velog.io/@joosing/lazy-java-stream

반응형
반응형

Chapter04 스트림 소개

컬렉션의 역할

컬렉션은 자바에서 빠져서는 안되는 데이터를 그룹화하는 도구다.

모든 자바 애플리케이션에서 만들고 처리하고 있는 컬렉션이지만, 이 컬렉션에서 지원해주는 연산을 지원하지않는다.

때문에 우리가 해당 연산을 처리할 때 데이터를 처리하는 코드를 구현하는데, 해당 구현 방식이 다른 개발자가 봤을 때 명시적이지 않아 명확하지 않을 수 있다. 또 많은 요소를 포함하는 컬렉션은 처리 성능을 높이려면 병렬처리가 불가피한데, 병렬 처리 코드는 어렵다.

헛둘님

스트림이란 무엇인가

스트림은 자바 8 API에 추가된 기능이다.

스트림 API의 장점

  • 컬렉션 데이터 반복을 편리하게 처리할 수 있다.
  • 데이터를 멀티스레드를 활용하지 않아도 투명하게 병렬로 처리할 수 있다.
  • 선언형으로 코드를 구현할 수 있다.
    • 루프와 if조건문 등의 블록 구현이 필요없음
  • 여러 빌딩 블록 연산을 연결해서 복잡한 데이터 처리 파이프라인을 만들 수 있다.
  • 선언형과, 블록연산을 파이프라인으로 연결하기 때문에 가독성과 명확성이 유지된다.

gpt답변

image

자바 8의 스트림API의 특징

  • 선언형 : 더 간결하고 가독성이 좋아진다.
  • 조립할 수 있음 : 유연성이 좋아진다.
  • 병렬화 : 성능이 좋아진다.

스트림 시작하기

자바 8부터 Collections에서 스트림을 반환하는 stream() 메서드가 추가되었다.

스트림을 정의하자면 데이터 처리 연산을 지원하도록 소스에서 추출된 연속된 요소 이다.

  • 연속된 요소 : 특정 요소 형식으로 이루어진 연속된 값 집합의 인터페이스를 제공한다.
    • 컬렉션의 주제는 데이터 스트림의 주제는 계산 이다.
  • 소스 : 스트림은 컬렉션, 배열 등의 자원 데이터 제공 소스를 소비할 뿐이다. 소스를 그대로 사용하기 때문에 정렬된 컬렉션으로 스트림을 생성하면 정렬이 그대로 유지된다.
  • 데이터 처리 연산 : 데이터베이스와 비슷한 연산을 지원한다. filter, map, reduce, find, match, sort… 등으로 데이터를 조작할 수 있는 연산을 지원한다.
  • 파이프라이닝(Pipelining) : 스트림 연산 대부분은 파이프라인을 구성할 수 있도록 스트림 자신을 반환한다.
    • 게으름, 쇼트서킷 등과 같은 최적화도 얻을 수 있다.(5장 설명)
    • 연산 파이프라인은 데이터 소스에 적용하는 데이터베이스 질의와 비슷하다.
  • 내부 반복 : 반복자를 이용해서 명시적으로 반복하는 컬렉션과 달리 스트림은 내부 반복을 지원한다.

스트림의 특징을 예제에 적용

import static java.util.stream.Collectors.toList;
public static List<String> getLowCaloricDishesNamesInJava8(List<Dish> dishes) {
    return dishes.stream() // 메뉴(요리 리스트)에서 스트림을 획득
                // 파이프라인 연산 시작
        .filter(d -> d.getCalories() < 400) // 1. 고칼로리 요리를 필터링으로 제외
        .sorted(comparing(Dish::getCalories)) // 2. 요리명 추출
        .map(Dish::getName) // 3. 선착순 세개만 선택
        .collect(toList()); // 4. 을 통해 나온 결과를 다른 리스트로 저장
  }
!!
.collect(toList()) -> add, remove 가능
.collect(Collectors.toUnmodfiableList()) -> 자바10
.toList() -> 자바16

불변 리스트, 변환가능한 리스트
List <- new ArrayList 변환가능
List.of() Arrays.asList() -> 불변리스트 set가능
toUnmodfiableList -> 불변리스트지만 List.of와 다름
  • 데이터 소스 : 요리 리스트 → 연속된 요소를 스트림에 제공
  • filter, sorted, map, collect : 데이터 처리 연산 - collect()를 제외한 연산은 파이프라인을 형성할 수 있도록 스트림을 반환
    • filter : 람다를 인수로 스트림에서 특정 요소를 제외시킨다.
    • map : 람다를 이용해서 한 요소를 다른 요소로 변환하거나 정보를 추출
    • limit : 정해진 개수 이상의 요소가 스트림에 저장되지 못하게 크기를 축소
    • collect : 스트림을 다른 형식으로 변환한다. toList()는 스트림을 리스트로 변환

스트림과 컬렉션

컬렉션과 스트림은 모두 연속된 요소 형식의 값을 저장하는 자료구조의 인터페이스를 제공한다.

여기서 연속된 이라는 표현은 순차적으로 값에 접근한다는 것을 의미한다.

이 둘은 연속된 값을 접근해서 처리하는 방식인데 무엇이 다른가? 했을 때

데이터를 언제 계산하느냐가 컬렉션과 스트림의 가장 큰 차이라고 꼽을 수 있다.

스트림 vs 컬렉션

  • 스트림
    • 요청할 때만 요소를 계산하는 고정된 자료구조
    • 적극적 생성 : 모든 값을 계산할 때까지 기다림
    • 내부 반복(internal iteration)
  • 컬렉션
    • 모든 요소는 컬렉션에 추가하기 전에 계산되어야 한다.
    • 게으른(Laziness) 생성 : 필요할 때만 값을 계산
    • 외부 반복(external iteration)

딱 한 번만 탐색할 수 있다.

Iterator와 동일하게 한번만 사용되고 버려진다. 재탐색을 위해서는 초기 데이터 소스에서 새로운 스트림을 만들어야 함

List<String> title = Arrays.asList("Java8", "In", "Action");
Stream<String> s = title.stream();
s.forEach(System.out::println);
s.forEach(System.out::println); -> IllegalStateException 발생!

외부 반복 보다 내부 반복이 좋다

명시적으로 처리 된 컬렉션 목록을 가져와서 처리하고, 처리한 컬렉션을 다시 다른 컬렉션에 담아서 처리하고… 방식이 상당히 번거롭다.

작업을 실행할 때 명시적으로 값 처리를 바로 바로 담아서 넣어줄 수 있고, 값을 처리할 때 명시적으로 어떤 일을 행하는지 볼 수 있다.

또 병렬처리를 관리하는 부분에서 좋다.

예시 ) 외부 반복 vs 내부 반복

<외부 반복>
List<String> highCaloricDishes = new ArrayList<>();
Iterator<String> iterator = menu.iterator();
while(iterator.hasNext()){
        Dish dish = iterator.next();
        if(dish.getCalories() > 300){
                highCaloricDishes.add(d.getName());
        }
}

->

<내부 반복>
List<String> highCaloricDish = menu.stream()
        .filter(dish -> dish.getCalories() > 300)
        .map(Dish::getName)
        .collect(toList());

스트림 연산

이제 스트림의 연산 방식을 예시와 함께 명칭으로 구분을 해보자.

public static List<String> getLowCaloricDishesNamesInJava8(List<Dish> dishes) {
    return dishes.stream() // 요리 리스트에서 스트림 얻기
        .filter(d -> d.getCalories() < 400) // 중간 연산
        .sorted(comparing(Dish::getCalories)) // 중간 연산
        .map(Dish::getName) // 중간 연산
        .collect(toList()); // 최종 연산
  }
  • 중간 연산
    • 단말 연산을 스트림 파이프라인에 실행하기 전까지는 아무 연산도 수행하지 않는다는 것, 즉 게으르다 중간 연산을 합친 다음에 합쳐진 중간 연산 결과를 기반으로 최종 연산으로 한번에 처리하기 때문이다.
    • 쇼트서킷 기법을 통해 limit연산을 통해 갯수제한이 가능하다
    • 루프 퓨전 : 서로 다른 연산들을 한 과정으로 병합시키기도 한다.
  • 최종 연산
    • 중간 연산을 다 마친 후에 나온 결과를 최종 처리하는 연산이다.

스트림 이용하기

스트림은 세 가지 방법으로 요약할 수 있다.

  • 질의를 수행할 데이터 소스
  • 스트림 파이프라인을 구성할 중간 연산 연결
  • 스트림 파이프라인을 실행하고 결과를 만들 최종 연산

중간 연산 종류

  • filter : Predicate
  • map : Function
  • limit : 개수제한
  • sorted : 정렬
  • distinct : 중복 제거

최종 연산 종류

  • forEach : 각 요소를 소비하면서 람다 적용
  • count : 스트림의 요소 개수 반환
  • collect : 스트림을 리듀스해서 컬렉션을 만든다.
반응형
반응형

Chapter03 람다 표현식

목차

  • 람다란 무엇인가?
  • 어디에, 어떻게 람다를 사용하는가?
  • 실행 어라운드 패턴
  • 함수형 인터페이스, 형식 추론
  • 메서드 참조
  • 람다 만들기

람다란 무엇인가?

람다의 특징

  • 익명
    • 보통의 메서드와 달리 이름이 없으므로 익명 이라 표현한다.
  • 함수
    • 특정 클래스에 종속되지 않기 때문에 함수라고 부른다. But 메서드의 특성처럼 파라미터 리스트, 바디, 반환 형식, 예외 리스트 등을 포함한다.
  • 전달
    • 람다 표현식을 메서드 인수로 전달하거나 변수로 저장할 수 있다.
  • 간결성
    • 익명 클래스처럼 불필요한 코드를 생성할 필요가 없다.
<익명 클래스 활용>
Comparator<Apple> byWeight = new Comparator<Apple>(){
        public int compare(Apple a1, Apple a2) {
                return a1.getWeight().compareTo(a2.getWeight());
        }
}

->

<람다 활용>
Comparator<Apple> byWeight =
        (Apple a1, Apple a2) -> a1.getWeight().compareTo(a2.getWeight());

(Apple a1, Apple a2) -> a1.getWeight().compareTo(a2.getWeight());

  • 파라미터 리스트
    • ()안의 파라미터 개수
  • 화살표
    • 람다의 파라미터와 바디의 구분자
  • 람다 바디
    • 두 사과의 무게를 비교

예제를 통한 람다 표현식

1. (String s) → s.length() 

2. (Apple a) → a.getWeight() > 150

3. (int x, int y) → {
        System.out.println("Result:");
        System.out.println(x + y);
}

4. () -> 42

5. (Apple a1, Apple a2) -> a1.getWeight().compareTo(a2.getWeight());

어디에, 어떻게 람다를 사용할까?

함수형 인터페이스

메서드를 파라미터화 할 수 있는 인터페이스

함수형 인터페이스의 특징으로는 추상 메서드를 하나만 선언하는 것이다.

함수형 인터페이스 활용

2장에서 구현했던 필터 메서드

public static List<Apple> filter(List<Apple> inventory, ApplePredicate p) {
    List<Apple> result = new ArrayList<>();
    for (Apple apple : inventory) {
        if (p.test(apple)) {
            result.add(apple);
        }
    }
    return result;
}

람다를 통한 filter사용

List<Apple> greenApples
        = filter(inventory, (Apple a) -> GREEN.equals(a.getColor()));

Predicate의 자리에 람다가 들어간다.

그래서 함수형 인터페이스 이야기가 왜 나오는데?

람다가 인터페이스의 추상 메서드를 구현할 수 있는 추상 메서드의 구현체(디스크립터)가 될 수 있다.

함수 디스크립터

뜻 그대로 함수를 설명하는 것이라 생각하면 된다.

함수 Runnable의 run이 있을 때

파라미터 : null 반환 : void 으로 했을 때 해당 형태만 일치한다면, 해당 함수의 내부를 어떻게 사용할지 람다로 설명을 하는 것이다.

이 때 파라미터와 반환이 같은 것을 같은 시그니처를 갖는 함수라 볼 수 있는데 시그니처만 같게 한다면 람다를 생성할 수 있다는 뜻이다.

일치하는 시그니처

public Callable<String> fetch() {
        return () -> "Tricky example ;-)";
}

파라미터 : x

반환 : String

일치하지 않는 시그니처

Predicate<Apple> p = (Apple a) -> a.getWeight();

파라미터 : Apple

반환 : boolean

@FunctionalInterface

함수형 인터페이스를 구현할 때 해당 어노테이션을 인터페이스 위에 붙였을 때 함수형 인터페이스가 불가하면 컴파일 에러를 발생시킨다.

ex) 추상메서드 2개

람다 활용 : 실행 어라운드 패턴

public static String processFile(BufferedReaderProcessor p) throws IOException {
    try (BufferedReader br = new BufferedReader(new FileReader(FILE))) {
        return p.process(br);
    }
}

함수형 인터페이스 사용

함수형 인터페이스의 추상 메서드 시그니처를 함수 디스크립터라고 한다.

람다 표현식을 사용하려면 함수 디스크립터를 기술하는 함수형 인터페이스 집합이 필요하다.

이를 위해 자바에서는 java.util.function 패키지로 여러 함수형 인터페이스를 제공한다.

  • Predicate T → boolean
  • Consumer → void
  • Function<T, R> T → R
  • Suplier → T
  • UnaryOperator → T

기본형 특화

기본형의 경우 함수형 인터페이스 특성 상 제네릭을 받아서 디스크립터가 구성되는데, 이를 행하기 위해 박싱, 언박싱 과정이 불필요하게 들어가게된다.

때문에 이러한 불필요한 연산을 피할 수 있도록 돕는 IntPredicate, IntFunction 등 각 인터페이스에 맞게 지원한다.

형식 검사, 형식 추론, 제약

형식 검사

List<Apple> heavierThan150g =
filter(inventory, (Apple, apple) -> apple.getWeight() > 150);

filter(List<Apple> list, Predicate<Apple> p){
        ...        
        p.test();
        ...
}

interface Predicate<T>{
        boolean test(T t);
}

람다가 사용되는 콘텍스트를 이용해서 람다의 형식을 추론할 수 있다.

  1. 람다가 사용된 콘텍스트가 무엇인가?
  2. 대상 형식은 Predicate
  3. Predicate 인터페이스의 추상 메서드는 무엇인가?
  4. Apple을 파라미터로 받아 boolean을 반환한다.
  5. 함수 디스크립터는 Apple → boolean이기 때문에 형식 검사가 성공적으로 완료된다.

특별한 void 호환 규칙

람다의 바디에 일반 표현식이 있으면 void를 반환하는 함수 디스크립터와 호환된다

void를 반환하는 함수 디스크립터는 다른 값이 반환되어도 사용이 가능함

형식 추론

Comparator<Apple> c = 
        (Apple a1, Apple a2) -> a1.getWeight().compareTo(a2.getWeight());

->

Comparator<Apple> c = 
        (a1, a2) -> a1.getWeight().compareTo(a2.getWeight());

컴파일러가 람다의 표현식과 관련된 함수형 인터페이스를 추론한다.

지역 변수 사용

람다는 자기 바깥에 있는 접근 가능한 변수에 대해서도 사용이 가능하다

이와 같은 동작을 람다 캡처링 이라고 부른다.

쓰면 안되는 예시

<컴파일 에러>
int n = 0;
Runnable r = () -> System.out.println(n);
n++;

->

int n = 0;
do {
    int finalN = n;
    n++;
    Runnable r = () -> System.out.println(finalN);
    r.run();
} while (n != 5);

메서드 참조

기존에 있던 메서드 정의를 재활용해서 람다처럼 코드뭉치를 전달할 수 있다.

inventory.sort((Apple a1, Apple a2) -> a1.getWeight().compareTo(a2.getWeight()));

->

inventory.sort(comparing(Apple::getWeight));

그래서 왜 사용하는데?

기존 메서드 구현을 명시적으로 참조함으로써 가독성을 높일 수 있고, 재사용도 가능하기에 효율이 좋다.

사용가능한 메서드 참조 형식

  • 정적 메서드 참조
    • static 유틸메서드 등
    • List::of
    • 정적 팩토리 메서드
  • 다양한 형식의 인스턴스 메서드 참조
    • String::length
  • 기존 객체의 인스턴스 메서드 참조
    • this::getWeight

기존의 표현식을 메서드 참조로 바꾸는 예시

람다 : (args) -> ClassName.staticMethod(args)

메서드 참조 : ClassName::staticMethod

생성자 참조

Apple apple1 = new Apple();

Apple apple1 = Apple::new;

위의 메서드 참조와 형식은 같다.

람다 표현식을 조합할 수 있는 유용한 메서드

몇몇 함수형 인터페이스에서 지원하는 유용한 유틸리티 메서드 소개

Comparator

  • comparing() → Comparator.comparing()
  • comparing().reversed() → 역정렬
  • thanComparing() → 두번째 비교자를 통한 추가비교

Predicate

  • negate() → 결과반전
  • and() → 비교연산 추가
  • or() → 비교연산 추가

Function

  • andThen() → 함수를 입력 후 다른 함수의 입력으로 전달
  • compose() → andThen()의 반대순서로 함수의 입력전달
반응형
반응형

2장 동작 파라미터화 코드 전달하기

동작 파라미터는

  • 리스트의 모든 요소에 대해서 ‘어떤 동작’을 수행할 수 있다.
  • 리스트 관련 작업을 끝낸 다음에 ‘어떤 다른 동작’을 수행할 수 있다.
  • 에러가 발생하면 ‘정해진 어떤 다른 동작’을 수행할 수 있다.

간단하게 표현하면 메서드의 인수로 원하는 동작을 줄 수 있는 것이다.

변화하는 요구사항에 대응하기

파라미터를 추가해가며 요구사항에 대응하기

요구 시나리오#1 - 사과목록에서 녹색 사과만 필터

enum Color { RED, GREEN }

public static List<Apple> filterGreenApples(List<Apple> inventory){
		List<Apple> result = new ArrayList<>();
		for(Apple apple : inventory){
				if(GREEN.equals(apple.getColor()){
						result.add(apple);
				}
		}
		return result;
}

요구 시나리오#2 - 사과 목록에서 빨간사과도 필터링

기존에 있던 filterGreenApple()로직과 동일한 filterRedApple() 메서드 추가 후 RED.equals만 변경

filterRedApple(){
		...
		if(RED.equals(apple.getColor())
		...
}

요구 시나리오#3 - 색을 파라미터화

public static List<Apple> filterGreenApples(List<Apple> inventory, Color color){
		...
		if(apple.getColor().equals(color))
		...

요구 시나리오#4 - 과일의 무게 기준으로 구분

public static List<Apple> filterApplesByWeight(List<Apple> inventory, Color weight){
{
		...
		if(apple.getWeight() > weight) {
		...

이렇게 4개의 요구사항 시나리오를 통해 만들어진 각 메서드들은 코드가 계속 중복되고있다.

<aside> 💡 소프트웨어 공학의DRY(Don’t Repeat Yourself)원칙을 어기는 것이다.

</aside>

원칙을 지키기 위해 이 코드를 성능을 개선하기 위해서는 코드를 구현한 메서드 전체 구현을 고쳐야 한다. 이는 엔지니어링적으로 생각했을 때 상당히 비효율적인 방법이다.

반복을 제거하기 위한 방법

public static List<Apple> filterApples(List<Apple> inventory, Color color, int weight, boolean flag){
		List<Apple> result = new ArrayList<>();
		for(Apple apple: inventory){
				if((flag && apple.getColor().equals(color)) ||
				(!flag && apple.getWeigth() > weight)){
						result.add(apple);
				}
		}
		return result;
}

List<Apple> greenApples = filterApples(inventory, GREEN, 0, true);

List<Apple> heavyApples = filterApples(inventory, null, 150, flase);

로 두 경우 모두 체크가 가능하다.

이 코드는 flag의 이미가 무엇인지 명확히 이해하기도 힘들고, 요구사항이 세부적으로 더 변경되거나 한다면 코드를 수정하기가 곤란해질 것이다.

2.2 동작 파라미터화

이번엔 사과의 필터를 참 또는 거짓을 반환하는 함수인 프레디케이트를 넣어보자

interface ApplePredicate {

    boolean test(Apple a);

 }

public class AppleHeavyWeightPredcate implements ApplePredicate{
		public boolean test(Apple apple) {
				return apple.getWeight() > 150;
		}
}

public class AppleGreenColorPredicate implements ApplePredicate{
		public boolean test(Apple apple) {
				return GREEN.equals(apple.getColor());
		}
}

이렇게 전략적으로 filter를 동작 파라미터로 넣는형식을 전략 디자인 패턴(strategy design pattern)이라고 하고, 주요 체크로직을 캡슐화하여 숨겨둘 수 있고, 내부적으로만 주요로직을 수행하기 때문에 로직 변경이 필요할 때의 범위 설정이 용이하다.

이제 해당 전략을 받는 메서드를 재구현하면

public static List<Apple> filterApples(List<Apple> inventory, ApplePredicate p){

		List<Apple> result = new ArrayList<>();
		for(Apple apple : inventory){
				if(p.test(apple)){
						result.add(apple);
				}
		}
		return result;
}

의 코드가 되고 유연성이 늘어난다.

동작 코드를 메서드에 넣음으로써

for문에 의한 탐색 로직이 여러개 있을 필요가 없어졌고, 필요하다면 주요 로직만 ApplePredicate의 구현체로 구현하고, 활용하면 될 것이다.

public class AppleRedAndHeavyPredicate implements ApplePredicate{
		public boolean test(Apple apple){
				return "red".equals(apple.getColor())
						&& apple.getWeight() > 150;
		}
}

현재 코드로 봤을 때 매 객체는 p.test(apple)로 test안에 Apple객체를 전달 받아서 구현체를 전달받은 AppleRedAndHeavyPredicate의 구현체인 곳에서 Apple객체를 활용하고 있다.

return "red".equals(apple.getColor())
						&& apple.getWeight() > 150;
<주요 비교로직>
return apple.getWeight() > 150;
return "green".equals(apple.getColor());
<리스트를 도는 로직>
public static List<Apple> filterApples(List<Apple> inventory, ApplePredicate p){
		List<Apple> result = new ArrayList<>();
		for(Apple apple: inventory){
				if(p.test(apple)){
						result.add(apple);
				}
		}
		return result;
}

주요 비교로직이 동작 파라미터화(코드뭉치) 되어

동작 파라미터를 filterApples(ApplePredicate)에 넘겨줘서 해당 판단 비교로직을 if문에 넣는다.

로 정리가 된다.

퀴즈

static class AppleToStringPredicate implements  ApplePredicate{
    
    @Override
    public String toString(Apple apple) {
      return apple.getWeight();
    }
    
  }

  public static void prettyPrintApple(List<Apple> inventory, ApplePredicate p){
    for(Apple apple : inventory){
      String output = p.toString(apple);
      System.out.println(output);
    }
  }

2.3 복잡한 과정 간소화

이전의 과정에서 코드뭉치를 담는 일을 수행하려면 interface를 선언하고 해당 인터페이스를 구현하는 구현체, 구현체의 내부 로직 구현 등 해야 할 일이 많다.

익명클래스

익명클래스를 사용하면 블록 내부에 일회용 클래스를 선언할 수가 있는데, 선언과 동시에 인스턴스화가 된다. 즉 즉석에서 필요할 때 해당 클래스로 구현체를 만들어서 사용할 수도 있다.

List<Apple> redApples = filterApples(inventory, new ApplePredicate(){
		public boolean test(Apple apple)(
				return RED.equals(apple.getColor());
		}
});

하지만 결국 이렇게 클래스를 구현한다면 코드가 많이 복잡해지게 되고, 다른 개발자들에게는 좋지 않은 읽고싶지않은 코드가 될 것이다.

익명 클래스도 나쁜 방법은 아니지만 이를 더 간결하게 활용할 수 있는 람다가 나오고 람다를 주로 활용하게 된 것이다.

람다

람다 표현식을 사용하게 되면 아까 만났던 코드가 아래와 같이 변한다

List<Apple> result = filterApples(inventory, (Apple apple) -> RED.equals(apple.getColor()));

상당히 간결해지면서 가독성 또한 좋아졌다.

리스트 형식으로 추상화

public interface Predicate<T> {
		boolean test(T t);
}

public static <T> List<T> filter(List<T> list, Predicate<T> p) {
		List<T> result = new ArrayList<>();
		for(T e: list){
				if(p.test(e)){
						result.add(e);
				}
			}
		return result;
}
List<Apple> redApples = filter(inventory, (Apple apple) → RED.equals(apple.getColor()));
List<Integer> evenNumbers = filter(numbers, (Integer i) → i % 2 == 0);

형식으로 불러오는게 가능하다.

이렇게 직접 함수형 인터페이스를 선언 후 동작파라미터를 T타입으로 넘겨준다면 깔끔한 추상화가 될 것이다.

2장을 마치며

<aside> 💡 - 동작 파라미터화에서는 메서드 내부적으로 다양한 동작을 수행할 수 있도록 코드를 메서드 인수로 전달한다.

  • 동작 파라미터화를 이용하면 변화하는 요구사항에 더 잘 대응할 수 있는 코드를 구현할 수 있으며 나중에 엔지니어링 비용을 줄일 수 있다.
  • 코드 전달 기법을 이용하면 동작을 메서드의 인수로 전달할 수 있다.

</aside>


  • 가장 대표적인 함수형 인터페이스 4가지

<aside> 💡 자바에서 지원하는 함수형 인터페이스로는 대표적으로 크게 네가지가 있다.

  • Supplier<T> - 공급자 : 매개변수는 없고 반환 값만 있다
    • get()
  • Consumer<T> - 사용자 : 매개변수는 있고, 반환 값이 없다
    • accept()
  • Function<T, R> - 함수 : 일반적인 함수형태, 하나의 매개변수를 받아 결과를 반환
    • apply()
  • Predicate<T> - 매개변수 하나를 받아서 boolean타입으로 반환한다
    • test()

T는 제네릭 타입을 뜻하고, R은 리턴 타입을 뜻한다.

추가로 Bi가 붙은 형태가 있는데 다른 방법은 똑같고 매개변수가 두개 들어간다는 의미이다.

</aside>

반응형
반응형

1.1 자바 8 버전 이후의 자바

자바8의 코드 간략화

<Java8 이전>
Collections.sort(inventory, new Comparator<Apple>(){
		public int compare(Apple a1, Apple a2) {
				return a1.getWeight().compareTo(a2.getWeight());	
		}
});

->

<Java8>
inventory.sort(comparing(Apple::getWeight));

위의 코드 예시와 같이 자바8에서는 비교 코드를 더욱 간략하게 표현이 가능해졌다.

자바언어의 가장 큰 변화를 가져왔던 자바 8이 들어오면서 바뀐 변화에 대해서 살펴볼 것이다.

  • 멀티 코어를 활용한 연산 처리를 활용하기 쉬워졌다.
  • 자바8 이전 버전에서는 싱글 코어가 아닌 방법을 활용하려면 스레드를 활용해서 병렬 실행 환경을 관리하는 형태였는데, 이는 구현부터 관리까지 비용이 많이 들었다. 이를 쉽게 해결하기 위한 방식을 소개해준다.
  • 우리가 배울 자바8은 큰 틀로 보았을 때 세가지 기능이 추가되었다.
    • 스트림 API(Stream API)
    • 메서드에 코드를 전달하는 기법
    • 인터페이스의 디폴트 메서드

또 기존 버전과의 큰 변화점을 설명하자면

첫째, 병렬 연산이 쉬워졌다.

병렬연산을 지원하는 Stream API가 있는데 이를 활용하면 기존의 멀티코어 환경에서 사용하는 synchronized 키워드를 사용하지 않아도 된다.

또 Stream API에서 메서드에 코드를 전달하는 기법과 인터페이스의 디폴트 메서드를 전달해 줄 수 있을 것이다.

둘째, 코드가 간결해졌다.

메서드에 코드를 전달하는 기법이 생기면서(메서드 참조, 람다)

앞의 예시에서 보았던 짧은 코드가 된 것이다.

1.2 왜 아직도 자바는 변화하는가

많은 언어들이 등장하고 사라지는 와중에 자바 언어는 처음부터 객체지향의 특성을 살리고, 스레드와 락을 이용한 동시성도 지원을 했었다. 이로 인해 자바는

대중적인 언어로 발전했고, 빅데이터 트랜드가 생긴 이후로는

빅 데이터 처리를 할 때 효율적인 방법인 병렬프로세싱이 필요한데, 자바는 병렬에는 약했었다. 이와 같이 변화하는 트랜드에 맞춰서 개발 언어도 발전한 것이다.

자바 8버전의 프로그래밍 개념

첫번째 개념 - 스트림 처리

이는 한번에 하나의 항목을 처리하던 기존 방식이 아닌, 스트림 파이프라인을 통해 값을 처리할 때 여러 cpu에 할당하여 병렬 처리를 돕기도 하고, 스트림을 통해 한 데이터객체에 대한 동작처리를 다양하게 처리할 수 있다.

두번째 개념 - 동작 파라미터화

객체의 동작을 행할 때 동작 안에 다른 동작을 넣는 방법이라고 생각하면 된다. 객체 안의 메서드에서 다른 메서드를 같이 실행하는 것이다.

8버전 전에는 이러한 방식을 구현하려면 동작을 구현한 객체를 생성해서 해당 객체를 파라미터로 넣었어야 했다.

세번째 개념 - 병렬성

성능에 악영향을 끼치는 synchronized 키워드를 사용하지 않고도 병렬처리가 가능한데, 이 이유는 stream은 공유되지 않는 가변 데이터를 통해 처리가 이루어지기 때문에 해당 스트림이 진행되는 동안은 값이 변하지 않고 처리 마지막에 값이 변한다.

1.3 자바 함수

프로그래밍 언어에서는 값을 바꾸며, 전달하는 것이 핵심 가치인데, 이 핵심 가치를 이룰 수 있는 것에 일급 이라는 말이 붙는다.

이전의 버전에서는 메서드나 클래스 등이 일급 객체가 될 수 없었는데, 클래스나 메서드 등 자체의 값을 전달할 수 있는 값이 되도록 일급화 시키는게 가능해졌다.

메서드와 람다를 일급으로

<Java8 이전>
File[] hiddenFiles = new File(".").listFiles(new FileFilter(){
		public boolean accept(File file){
				return file.isHidden();
		}

}

->

<Java8>
File[] hiddenFiles = new File(".").listFiles(File::isHidden);

이러한 변경에서 사용한 기법을 메서드참조라고 하는데 File객체에 있는 isHidden()메서드가 구현되어있다면 위와 같이 불러올 수 있는 것이다.

이전의 자바 버전에서는 ::형태를 사용하지 못했기 때문에 이급 메서드였다.

하지만 버전이 바뀌고 8버전부터는 메서드참조가 가능하기 때문에 일급 메서드로 바뀌었다.

장점

  • 코드의 간결성
  • 직관적

람다(익명 함수)

람다도 값으로 취급할 수 있는데

(int x) -> x + 1

의 값이 있다면 ‘x라는 인수로 호출하면 x+1를 반환하라’라는 명령을 가진 함수를 만들 수 있는 것이다.

이런 람다 문법으로 구현된 프로그램을 함수형 프로그래밍, 즉 ‘함수를 일급값으로 넘겨주는 프로그램을 구현한다.’라고 한다.

코드 넘겨주기

전체 범위에서 특정 항목을 선택해서 반환하는 동작을 필터라고 하는데 이런 필터를 자바 8 이전에는 상당히 긴 코드로 구현되었을 것이다.

필터를 새로 생성하면 또 새로 메서드를 구현해야할 것이다. 비슷한 코드니 Copy&Paste를 할텐데 이렇게 구현을 지속하게되면 코드를 수정해야할 때 구현한 모든 메서드 내부를 수정하거나 할텐데 이는 상당히 비효율적이다.

자바 8버전 에서는 반복을 제거하면서 가독성까지 챙길 수 있는데 예시를 보면서 이해해보자

<Java8 이전>
public static List<Apple> filterGreenApples(List<Apple> inventory) {
    List<Apple> result = new ArrayList<>();
    for (Apple apple : inventory) {
      if ("green".equals(apple.getColor())) {
        result.add(apple);
      }
    }
    return result;
  }

  public static List<Apple> filterHeavyApples(List<Apple> inventory) {
    List<Apple> result = new ArrayList<>();
    for (Apple apple : inventory) {
      if (apple.getWeight() > 150) {
        result.add(apple);
      }
    }
    return result;
  }

->

<Java8 이후>
public static boolean isGreenApple(Apple apple) {
    return "green".equals(apple.getColor());
  }

  public static boolean isHeavyApple(Apple apple) {
    return apple.getWeight() > 150;
  }

  public static List<Apple> filterApples(List<Apple> inventory, Predicate<Apple> p) {
    List<Apple> result = new ArrayList<>();
    for (Apple apple : inventory) {
      if (p.test(apple)) {
        result.add(apple);
      }
    }
    return result;
  }

이 코드에서 다른 점은

if ("green".equals(apple.getColor())) {
        result.add(apple);
      }

if (apple.getWeight() > 150) {
        result.add(apple);
      }
->

if (p.test(apple)) {
        result.add(apple);
      }

이 두곳이 주요한데, Predicate(함수형 인터페이스) p를 상속받은 filterApple이 되었고 해당 p에 있는 test를 실행할 뿐이다.

이를 호출할 때는 filterApples(inventory, Apple::isGreenApple);

형식으로 호출하는데, 여기서 알게 된 사실은 자바8에서는 이와 같이 메서드동작 자체를 전달할 수 있다는 것을 알 수 있게 되었다.

가장 대표적인 함수형 인터페이스 4가지

<aside> 💡 자바에서 지원하는 함수형 인터페이스로는 대표적으로 크게 네가지가 있다.

  • Supplier<T> - 공급자 : 매개변수는 없고 반환값만 있다
    • get()
  • Consumer<T> - 사용자 : 매개변수는 있고, 반환값이 없다
    • accept()
  • Function<T, R> - 함수 : 일반적인 함수형태, 하나의 매개변수를 받아 결과를 반환
    • apply()
  • Predicate<T> - 매개변수 하나를 받아서 boolean타입으로 반환한다
    • test()

T는 제네릭타입을 뜻하고, R은 리턴타입을 뜻한다.

추가로 Bi가 붙은 형태가 있는데 다른 방법은 똑같고 매개변수가 두개 들어간다는 의미이다.

</aside>

메서드 전달에서 람다로

아까 위에서 구현했던 함수형 인터페이스의 자리에 메서드가 아니라 람다로 익명 메서드를 사용해도 동일하게 동작할 수 있다.

public static List<Apple> filterApples(List<Apple> inventory, Predicate<Apple> p) {
    List<Apple> result = new ArrayList<>();
    for (Apple apple : inventory) {
      if (p.test(apple)) {
        result.add(apple);
      }
    }
    return result;
  }

<aside> 💡 filterApples(inventory, (Apple a) → GREEN.equals(a.getColor()));

filterApples(inventory, () → GREEN.equals(Apple::getColor));

filterApples(inventory, () → Apple::Weight() < 80);

</aside>

람다의 코드가 너무 길다면 메서드참조를 하는 것이 코드의 명확성을 위해 더 좋을 것이다.

1.4 스트림

거의 모든 자바 애플리케이션을 컬렉션을 만들고 활용한다. 이 컬렉션을 통해서 값을 추출하고 필터하고, 등등 여러 작업을 시행하는데 이 동작을 코드로 작성하려면 자바8 이전에는 많은 코드 구현이 필요했다.

자바8부터는 스트림API가 도입되면서 해당 코드들을 전부 돌면서 데이터를 확인해야하는 for문 제거가 가능하고, 또 라이브러리 내부에서 모든 데이터가 처리되기 때문에 기존의 방식보다 더욱 간편하고 흐름을 읽기가 쉬운 코드로 변경될 것이다.

또 api자체에서 지원하는 병렬처리도 손쉽게 가져올 수 있을 것이다.

멀티스레딩은 어렵다

자바8이전의 멀티스레딩 환경은 구현부터 어려움이 있었는데, 스트림API에서 지원하는 병렬처리로 손쉽게 멀티스레딩 환경을 구축할 수 있게 되었다.

1.5 디폴트 메서드와 자바 모듈

자바8 이전의 List 인터페이스는 List의 스트림을 처음에는 지원하지 않았기 때문에 .sort라는 코드가 없었는데, 이를 자바8에서는 어떻게 구현을 했을까 한다면

default void sort(Comparator<? super E> c) {
        Object[] a = this.toArray();
        Arrays.sort(a, (Comparator) c);
        ListIterator<E> i = this.listIterator();
        for (Object e : a) {
            i.next();
            i.set((E) e);
        }
    }

인터페이스에 sort메서드를 추가하는 방법도 있겠지만, 이를 넣는다면 List인터페이스를 상속하는 모든 코드에 sort의 세부 구현을 우리가 해야한다.

이를 방지하기 위해서 자바8 개발자는 default메서드를 인터페이스에도 넣을 수 있게 변경이 되었고, 이 인터페이스 변경과 함께 a.sort()같은 형태로도 구현이 가능하게 되었다.

코드를 보면 받은 객체를 Arrays.sort()로 보내주는 형식이다.

반응형

+ Recent posts