خانه » استخراج گفتار از ویدئو با استفاده از پایتون

استخراج گفتار از ویدئو با استفاده از پایتون

در این مطلب ، من به شما نحوه استخراج گفتار از یک فایل ویدئو را نشان می دهم. پس از شناخت گفتار ها ، آنها را به یک سند متنی تبدیل خواهیم کرد. این یک پروژه ساده یادگیری ماشین است که به شما کمک می کند برخی از اصول کتابخانه تشخیص گفتار Google را درک کنید. شناخت گفتار موضوعی محبوب تحت مفاهیم یادگیری ماشین است. تشخیص گفتار در بسیاری از زمینه ها بیشتر مورد استفاده قرار می گیرد. به عنوان مثال ، زیرنویس هایی که در Netflix یا فیلم های YouTube مشاهده می کنیم ، بیشتر توسط ماشین هایی با استفاده از هوش مصنوعی ایجاد می شوند. دیگر نمونه های عالی تشخیص دهنده گفتار دستیارهای صوتی شخصی مانند Google’s Home Mini ، Amazon Alexa ، Apple’s Siri هستند.

برای این پروژه به یک فیلم ضبط شده نیاز خواهیم داشت. با استفاده از کتابخانه ای به نام MoviePy ، صدا را از فیلم جدا می کنیم. و در مرحله بعدی ، ما آن فایل صوتی را با استفاده از کتابخانه تشخیص گفتار Google به متن تبدیل می کنیم. اگر آماده هستید ، با نصب کتابخانه ها شروع کنیم.

ما قصد داریم از دو کتابخانه برای این پروژه استفاده کنیم:

  • Speech Recognition
  • MoviePy

قبل از وارد کردن آنها به فایل پروژه ، باید آنها را نصب کنیم. نصب کتابخانه در پایتون بسیار آسان است. حتی می توانید چند کتابخانه را در یک خط کد نصب کنید. خط زیر را در پنجره ترمینال خود بنویسید:

pip install SpeechRecognition moviepy

برای اطلاعات بیشتر در مورد کتابخانه Speech Recognition اینجا را کلیک کنید.

MoviePy کتابخانه ای است که می تواند رایج ترین قالب های صوتی و تصویری ، از جمله GIF را بخواند.

حالا به سراغ کد نویسی پروژه می رویم.

گام اول – اضافه کردن کتابخانه ها

import speech_recognition as sr 
import moviepy.editor as mp

تمام چیزی که نیاز داریم همین کتابخانه ها است. همین قدر سبک.

گام دوم – تبدیل ویدیو به صدا

قالب های ویدئویی زیادی وجود دارد ، برخی از آنها را می توان به صورت زیر لیست کرد:

  • (MP4 (mp4, m4a, m4v, f4v, f4a, m4b, m4r, f4b, mov
  • (3GP (3gp, 3gp2, 3g2, 3gpp, 3gpp2
  • OGG (ogg, oga, ogv, ogx
  • (WMV (wmv, wma, asf

ما باید فرمت ویدئوی خود را بدانیم تا بدون مشکل کار تبدیل را انجام دهیم. علاوه بر قالب ویدئو ، دانستن برخی از قالب های صوتی نیز خوب است. در اینجا برخی از آنها ذکر شده است:

  • MP3
  • AAC
  • WMA
  • AC3

اکنون ، ما در مورد هر دو قالب ایده داریم. وقت آن است که با استفاده از کتابخانه MoviePy تبدیل را انجام دهید. باور نمی کنید این تبدیل چقدر آسان است.

ابتدا ویدیو مورد نظر را اپلود می کنیم. سپس یه فایل برای ذخیره سازی فایل صورتی ایجاد می کنیم و فرمت آن را تعیین می کنیم.

clip = mp.VideoFileClip(r”video_recording.mov”) 
 
clip.audio.write_audiofile(r”converted.wav”)

توصیه می کنم آن را به فرمت wav تبدیل کنید.این فرمت با کتابخانه تشخیص گفتار که در مرحله بعدی به آن می پردازیم ، بسیار عالی کار می کند.

گام سوم – تشخیص گفتار

r = sr.Recognizer()

حالا فایل صورتی که در مرحله قبلی ایجاد کردیم را وارد می کنیم.

audio = sr.AudioFile("converted.wav")

در این مرحله تشخیص گفتار از یک فایل صوتی انجام می شود.

with audio as source:
  audio_file = r.record(source)
result = r.recognize_google(audio_file)

گام اخر- دریافت خروجی

در این مرحله ، ما فقط گفتار تشخیص داده شده را به یک سند متنی ارسال خواهیم کرد. این به شما کمک می کند تا کارهای خود را ذخیره کنید. من همچنین یک دستور ()print در انتهای کد اضافه کرده ام. تا بدانیم که چه زمانی فایل آماده است و کار به پایان رسیده است.

with open('recognized.txt',mode ='w') as file: 
   file.write("Recognized Speech:") 
   file.write("\n") 
   file.write(result) 
   print("ready!")

تبریک می گویم. شما برنامه ای ایجاد کرده اید که یک فیلم را به یک فایل صوتی تبدیل می کند و سپس گفتار را از آن استخراج می کند. و در آخر ، فایل صوتی را به به یک متن تبدیل می کند. به امید اینکه از خواندن این مطلب و کار روی پروژه لذت ببرید. خوشحالم اگر امروز چیز جدیدی یاد گرفتید.

۱ دیدگاه دربارهٔ «استخراج گفتار از ویدئو با استفاده از پایتون»

دیدگاه‌ خود را بنویسید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *

به بالای صفحه بردن