216 পড়া

VEATIC: ভিডিও-ভিত্তিক আবেগ এবং প্রসঙ্গ ডেটাসেটে ট্র্যাকিংকে প্রভাবিত করে: সম্পর্কিত কাজ

অতিদীর্ঘ; পড়তে

এই গবেষণাপত্রে, গবেষকরা মানব প্রভাবিত স্বীকৃতির জন্য VEATIC ডেটাসেট প্রবর্তন করেছেন, বিদ্যমান ডেটাসেটের সীমাবদ্ধতাগুলিকে মোকাবেলা করে, প্রসঙ্গ-ভিত্তিক অনুমান সক্ষম করে৷
featured image - VEATIC: ভিডিও-ভিত্তিক আবেগ এবং প্রসঙ্গ ডেটাসেটে ট্র্যাকিংকে প্রভাবিত করে: সম্পর্কিত কাজ
Kinetograph: The Video Editing Technology Publication HackerNoon profile picture
0-item

লেখক:

(1) ঝিহাং রেন, ক্যালিফোর্নিয়া বিশ্ববিদ্যালয়, বার্কলে এবং এই লেখকরা এই কাজে সমানভাবে অবদান রেখেছেন (ইমেল: peter.zhren@berkeley.edu);

(2) জেফারসন ওর্তেগা, ক্যালিফোর্নিয়া বিশ্ববিদ্যালয়, বার্কলে এবং এই লেখকরা এই কাজে সমানভাবে অবদান রেখেছেন (ইমেল: jefferson_ortega@berkeley.edu);

(3) ইফান ওয়াং, ক্যালিফোর্নিয়া বিশ্ববিদ্যালয়, বার্কলে এবং এই লেখকরা এই কাজে সমানভাবে অবদান রেখেছেন (ইমেল: wyf020803@berkeley.edu);

(4) ঝিমিন চেন, ক্যালিফোর্নিয়া বিশ্ববিদ্যালয়, বার্কলে (ইমেল: zhimin@berkeley.edu);

(5) ইউনহুই গুও, ডালাসে টেক্সাস বিশ্ববিদ্যালয় (ইমেল: yunhui.guo@utdallas.edu);

(6) স্টেলা এক্স ইউ, ইউনিভার্সিটি অফ ক্যালিফোর্নিয়া, বার্কলে এবং ইউনিভার্সিটি অফ মিশিগান, অ্যান আর্বার (ইমেল: stellayu@umich.edu);

(7) ডেভিড হুইটনি, ক্যালিফোর্নিয়া বিশ্ববিদ্যালয়, বার্কলে (ইমেল: dwhitney@berkeley.edu)।

লিঙ্কের টেবিল

2. সম্পর্কিত কাজ

সম্প্রতি, বেশ কয়েকটি ডেটাসেট রয়েছে যা মুখের এবং প্রসঙ্গ উভয় তথ্য সহ ফ্রেম সরবরাহ করে, যেমন CAER [৩৩] এবং ইমোটিক [৩২]। CAER [৩৩] হল একটি ভিডিও ভিত্তিক ডেটাসেট যা প্রতিটি ভিডিও ফ্রেমের শ্রেণীবদ্ধ লেবেল ধারণ করে, এবং EMOTIC [৩২] হল একটি চিত্র-ভিত্তিক ডেটাসেট যাতে শ্রেণীগত অভিব্যক্তি লেবেল এবং ক্রমাগত ভ্যালেন্স-উত্তেজনা-আধিপত্য রেটিং উভয়ই রয়েছে। এই ডেটাসেটের বিপরীতে, আমাদের ডেটাসেট ভিডিও-ভিত্তিক এবং এতে ক্রমাগত ভ্যালেন্স এবং উত্তেজনা রেটিং রয়েছে। পূর্ববর্তী ডেটাসেটের সাথে আমাদের ডেটাসেটের মধ্যে একটি বিশদ তুলনা সারণি 1 এ পাওয়া যাবে।


বিভিন্ন আবেগ ডেটাসেটের উপর ভিত্তি করে, অধ্যয়নগুলি কীভাবে স্বয়ংক্রিয়ভাবে আবেগ অনুমান করা যায় তার উপর ফোকাস করা শুরু করেছে। অডিও [70, 68, 65], ভিজ্যুয়াল [40, 54, 55, 37] এবং পাঠ্য [68, 22] এর মতো অনেকগুলি পদ্ধতি থেকে মানুষের প্রভাব অনুমান করা যেতে পারে। ভিজ্যুয়াল ইনপুটগুলির জন্য, বিশেষত, তিনটি প্রধান কাজ রয়েছে।


সারণী 1. বিদ্যমান আবেগ স্বীকৃতি ডেটাসেটের সাথে VEATIC ডেটাসেটের তুলনা। VEATIC-এ প্রচুর পরিমাণে ভিডিও ক্লিপ এবং একটি দীর্ঘ ভিডিও মোট সময়কাল রয়েছে। এটি প্রথম বৃহৎ প্রসঙ্গ-সচেতন আবেগ স্বীকৃতি ভিডিও ডেটাসেট যার ধারাবাহিক ভ্যালেন্স এবং উত্তেজনাপূর্ণ টীকা রয়েছে। অন্যান্য প্রসঙ্গ-সচেতন আবেগ স্বীকৃতি ভিডিও ডেটাসেটের তুলনায় VEATIC-এর আরও অনেক টীকা রয়েছে৷ (*: মিশ্র অর্থ ক্রমাগত এবং শ্রেণীবদ্ধ উভয় টীকা ধারণ করে।)


ভ্যালেন্স-উত্তেজনা অনুমান কার্যটির লক্ষ্য প্রতিটি চিত্র/ফ্রেমের ভ্যালেন্স এবং উত্তেজনার পূর্বাভাস দেওয়া [71, 69, 29, 30]; অভিব্যক্তি স্বীকৃতির কাজটি প্রতিটি চিত্র/ফ্রেমের আবেগগত বিভাগগুলিকে শ্রেণীবদ্ধ করার উপর দৃষ্টি নিবদ্ধ করে [66, 57, 67]; এবং অ্যাকশন ইউনিট (AU) সনাক্তকরণ কাজটি প্রতিটি চিত্র/ফ্রেমের মুখ থেকে মুখের পেশী ক্রিয়া সনাক্ত করতে চায় [25, 56, 35, 64]। বর্তমানে, বেশিরভাগ প্রস্তাবিত পদ্ধতি আবেগগত অবস্থা অনুমান করার জন্য মুখের অংশের উপর অত্যন্ত নির্ভর করে। প্রকৃতপক্ষে, মুখের অংশে মানুষের মানসিক অবস্থা সম্পর্কে সমৃদ্ধ তথ্য রয়েছে। যাইহোক, প্রাসঙ্গিক কারণগুলি প্রয়োজনীয় তথ্যও সরবরাহ করে যা মানুষের জন্য অন্যদের সংবেদনশীল অবস্থাগুলি সঠিকভাবে অনুমান এবং উপলব্ধি করার জন্য প্রয়োজনীয় [8, 9, 10]। বেশ কিছু গবেষণা [33, 32, 40] প্রভাবিত অনুমানের উত্স হিসাবে প্রসঙ্গ তথ্যকে অন্তর্ভুক্ত করতে শুরু করেছে। এই গবেষণায়, আমরা নতুন টাস্ক অর্জনের জন্য মুখের এবং প্রসঙ্গ তথ্য উভয়ই গ্রহণ করেছি, অর্থাৎ, প্রতিটি ভিডিও ফ্রেমের জন্য ভ্যালেন্স এবং উত্তেজনা অনুমান করতে।


একজন ব্যক্তির প্রভাব অনুমান করার জন্য, আমাদের সাধারণত অডিও সেগমেন্ট, ভিডিও ফ্রেম বা শব্দের সাময়িক তথ্যের সাথে মোকাবিলা করতে হবে। অনেক অধ্যয়ন [68, 69, 29, 30] প্রক্রিয়া করার জন্য দীর্ঘ স্বল্পমেয়াদী মেমরি (LSTM) [23], গেটেড রিকারেন্ট ইউনিট (GRU) [11], বা পৌনঃপুনিক নিউরাল নেটওয়ার্ক (RNN) [24, 50] ব্যবহার করা শুরু করে। সাময়িক তথ্য। ভিজ্যুয়াল ট্রান্সফরমার (ViT) [14] এর উত্থানের সাথে, মনোযোগ সরানো হয়েছে। অনেক ভিডিও বোঝার কাজ [19, 1, 36] অস্থায়ী তথ্য বোঝার জন্য এবং অত্যাধুনিক কর্মক্ষমতা অর্জনের জন্য ViT ব্যবহার করেছে। আমাদের বেসলাইন পদ্ধতিটি ভিডিও ক্লিপগুলিতে অস্থায়ী তথ্য প্রক্রিয়া করার জন্য একটি হাতিয়ার হিসাবে ViT গ্রহণ করেছে।



এই কাগজটি CC 4.0 লাইসেন্সের অধীনে arxiv-এ উপলব্ধ


Trending Topics

blockchaincryptocurrencyhackernoon-top-storyprogrammingsoftware-developmenttechnologystartuphackernoon-booksBitcoinbooks