Optimization ruby program #138

beglov · 2024-04-27T08:44:58Z

Запуск программы на обработку файла data_large.txt:

$ ruby task-1.rb 
Work data_large finish in 30.44

spajic

👍

spajic · 2024-04-29T22:09:35Z

case-study.md

+### Находка №1 - Не эффективное получение сессий пользователя
+- увидел в flat отчете ruby-prof-а
+- для ускорения работы я решил сформировать на этапе парсинга файла хэш с ключом по ИД пользователя который будет хранить все сессии конкретного пользователя
+- время выполнения снизилось c 22.8 до 1.05 секунд


Да, и тут самое ещё приятное, что асимптотика качественно улучшается и приближается к линейной.

spajic · 2024-04-29T22:10:45Z

case-study.md

+### Находка №3 - Не эффективный подсчёт количества уникальных браузеров
+- видно в callstack отчете ruby-prof-а
+- можно использовать хэш у которого в качестве ключей будут названия браузеров
+- время выполнения снизилось c 0.7 до 0.53 секунд


Хоршо подбирать объём данных так, чтобы программа успевала покрутиться пару секунд. Если она завершается слишком быстро (“не успевает поработать”) могут возникнуть какие-то перекосы (например, на полном объёме основная часть времени тратится в основном цикле, а если данных мало - то большая часть уходит на инициализацию и финализацию, например на чтение из файла и запись потом в файл)

И плюс когда время уже на миллисекунды - больше влияние погрешностей.

Возникали аналогичные мысли, но все же не стал менять объем входных данных в процессе оптимизации программы, т.к. тогда не будет отслеживаться как изменилось время обработки изначально выбранного объёма данных
+ изначально все же была выбрана метрика "время обработки программой файла размером 40000 строк" и показалось правильным не менять её в процессе оптимизации программы

spajic · 2024-04-29T22:13:59Z

task-1.rb

  end

-  report['uniqueBrowsersCount'] = uniqueBrowsers.count
+  report['uniqueBrowsersCount'] = uniqueBrowsers.keys.size


Можно просто Set и set.size

spajic · 2024-04-29T22:17:06Z

task-1.rb

+    time = Benchmark.realtime do
+      work
+    end
+    assert time < 0.0004, "The Ruby method took more than 0.0004 seconds to execute"


это очень мало, не надёжно из-за погрешностей

Да, пожалуй. Но в тоже время не хотелось сильно замедлять прогон тестов, что будет особенно актуально на рабочем проекте, где прогон тестов уже может проходить довольно долго.

spajic · 2024-04-29T22:18:35Z

task-1.rb

+  end
+
+  def dates
+    @dates ||= @sessions.map { |s| s['date'] }.sort.reverse


обратите внимание, что map создаёт второй массив, sort - второй, а reverse - третий

spajic · 2024-04-29T22:18:53Z

task-1.rb

+  end
+
+  def browsers
+    @browsers ||= upcase_browsers.sort.join(', ')


можно SortedSet

ruby/set#2 - говорят, что выпилили из-за низкой производительности

beglov added 11 commits April 25, 2024 19:54

Setup Feedback-Loop

787a072

Optimization collect user sessions

daa7d12

Optimization collect sessions to array

1c051be

Optimization calculation unique browsers

3a99688

Optimization collect_stats_from_users method calls

bfa03e3

Optimization construct users and users_objects arrays

af29389

Optimization sessions date parsing

6811e3a

Remove double line split

7819e3c

Mission complete!

ff73c51

Add case-study.md

c68cf74

map optimization

bc4ef12

spajic approved these changes Apr 29, 2024

View reviewed changes

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Optimization ruby program #138

Optimization ruby program #138

beglov commented Apr 27, 2024

spajic left a comment

spajic Apr 29, 2024

spajic Apr 29, 2024

beglov May 1, 2024 •

edited

Loading

spajic Apr 29, 2024

spajic Apr 29, 2024

beglov May 1, 2024

spajic Apr 29, 2024

spajic Apr 29, 2024

vocrsz Apr 30, 2024

Optimization ruby program #138

Are you sure you want to change the base?

Optimization ruby program #138

Conversation

beglov commented Apr 27, 2024

spajic left a comment

Choose a reason for hiding this comment

Choose a reason for hiding this comment

Choose a reason for hiding this comment

beglov May 1, 2024 • edited Loading

Choose a reason for hiding this comment

Choose a reason for hiding this comment

Choose a reason for hiding this comment

Choose a reason for hiding this comment

Choose a reason for hiding this comment

Choose a reason for hiding this comment

Choose a reason for hiding this comment

beglov May 1, 2024 •

edited

Loading