تبدیل فایل های پی دی اف (PDF) به ورد (Word) با استخراج کردن متن از داخل آن ها با استفاده از مرورگر Google Chrome (گوگل کروم) + مقایسه برنامه های تبدیل کننده
تبدیل فایل های پی دی اف (PDF) به ورد (Word) با استخراج کردن متن از داخل آن ها با استفاده از مرورگر Google Chrome (گوگل کروم) + مقایسه برنامه های تبدیل کننده
تبدیل کردن فایلهای پی دی اف (PDF) به ورد (Word) و استفاده از متون داخل آن، همیشه یکی از سوالات کاربرانی بوده است که از اسناد و فایلهای متنی استفاده میکنند. پیش از آن که به سراغ آموزش بروید، بهتر است مقایسهای بین برنامههایی که اجازه برداشتن متن و تبدیل فایلهای PDF به Word (که از فرمتهای DOCX و DOC استفاده میکنند) را میدهند را نشان دهیم. در جدول زیر ۸ برنامه رایج آمده است و از بررسی ۳۶ فایل PDF فارسی که ۱۸ تای آن با فونت ساده و ۱۸ تای آن با فونت پیچیده بوده است (برای اطلاعات بیشتر درباره نتایج اینجا را کلیک کنید)، به دست آمده:
نام برنامه | لینک آموزش | فارسی با فونت جاسازی شده | فارسی بدون فونت جاسازی شده | متن به صورت تصویر | انگلیسی با فونت ساده | انگلیسی با فونت پیچیده |
---|---|---|---|---|---|---|
گوگل کروم | در این پست | بدون مشکل | معمولاً بدون مشکل | غیرممکن | بدون مشکل | بدون مشکل |
آدوب ریدر | در این پست | بدون مشکل | معمولاً بدون مشکل | غیرممکن | بدون مشکل | بدون مشکل |
Xilisoft PDF to Word Converter | در این پست | بدون مشکل | ممکن است | غیرممکن | بدون مشکل | بدون مشکل |
e-PDF To Text Converter | در این پست | بدون مشکل | ممکن است | غیرممکن | بدون مشکل | بدون مشکل |
PdfGrabber | کلیک کنید | معمولاً غیرممکن | معمولاً غیرممکن | غیرممکن | بدون مشکل | بدون مشکل |
PDFZilla | کلیک کنید | معمولاً غیرممکن | معمولاً غیرممکن | غیرممکن | بدون مشکل | بدون مشکل |
Able2Extract Professional | کلیک کنید | معمولاً غیرممکن | معمولاً غیرممکن | غیرممکن | بدون مشکل | بدون مشکل |
Able2Doc Professional | کلیک کنید | معمولاً غیرممکن | معمولاً غیرممکن | غیرممکن | بدون مشکل | بدون مشکل |
بدیهی است که درصورتی که فایل PDF شما به صورت تصویری (نه متنی) باشد مثلاً اسناد یا صفحات اسکن شده، امکان کپی کردن محتوای آن را نخواهید داشت مگر با استفاده از برنامههای پیشرفته OCR که خارج از بحث این پست است. اکثر PDF ها به صورت متنی هستند. البته بعضی از برنامهها مانند PdfGrabber قابلیت استفاده از ریز برنامه OCR را دارد که برای متونی با زبان رایج (انگلیسی و ...) و خط کاملاً خوانا است اما به دلیل این که این برنامهها این امکان را به صورت تعبیه شده ندارند، از ذکر آنها در جدول خودداری کرده ایم. همچنین آموزش برنامههای PdfGrabber و PDFZilla و Able2Extract و Able2Doc در پستهای جداگانه منتشر شده که در جدول بالا قابل رجوع هستند.
برای هرچه کامل تر شدن این پست، ما هر چهار روش (استفاده از برنامه آدوبی ریدر، گوگل کروم، و ) را در قسمتهای جداگانه آموزش خواهیم داد. درصورتی که از یک روش نتیجهای نگرفتید روش بعدی را امتحان کنید. به هر حال استفاده از اولین روش پیشنهاد میشود:
با این که عنوان این پست "تبدیل فایل PDF به Word" است، اما ما به صورت خودکار فایل PDF را به ورد تبدیل نخواهیم کرد. در عوض، ابتدا متون PDF را برداشته سپس در برنامه مورد نظر (در اینجا برنامه Word مایکروسافت آفیس) خواهیم چسباند. توجه کنید که طبق جدول بالا، شرط برداشتن صحیح متنهای فارسی استفاده از فونتهای رایج است. این محدودیت برای نوشتههای انگلیسی وجود ندارد.
قدم اول (کپی کردن متن، بر روی بلوک مورد نظر کلیک کنید تا باز شود):
درصورتی که هنوز آدوب ریدر (یا آدوبی ریدر) محصول شرکت آدوبی را در کامپیوتر خود ندارید و قصد نصب آن را دارید، مراحل زیر را دنبال کنید:
۱- به یکی از سایتهای دانلود آدوبی ریدر بروید. ما لینک دانلود آدوبی ریدر از سایت p30download را پیشنهاد میکنیم. حجم این برنامه حدود ۷۵ مگابایت است.
در قسمت "لینک های دانلود" فایل را دانلود کنید. رمز فایل www.p30download.com است.
۲- فایل فشرده دانلود شده را با استفاده از برنامههایی مانند WinRar یا ۷zip غیرفشرده یا اکسترکت کنید. در این مرحله درصورت نیاز، باید رمز را وارد کنید.
۳- فایل نصب کننده را اجرا کرده و برنامه را به صورت عادی نصب کنید.
۱- برنامه Adobe Reader را اجرا کنید. درصورتی که برای بار اول برنامه را اجرا میکنید، ممکن است با یک پنجره تایید شرایط استفاده مواجه شوید. بر روی Accept کلیک کنید.
۲- پنجره برنامه آدوبی ریدر را کوچک تر کرده سپس فایل PDF خود را کشیده و داخل برنامه بیندازید. برای این کار میتوانید بر روی فایل کلیک کرده، آن را نگه داشته سپس در داخل برنامه رها کنید.
همچنین این کار را میتوانید با کلیک راست کردن روی فایل PDF و رفتن به قسمت Open with سپس قسمت Choose default program و انتخاب برنامه Adobe Reader نیز انجام دهید تا از این پس برنامه پیش فرض برای اجرای فایلهای PDF آدوبی ریدر باشد.
۳- حال فایل PDF مانند تصویر زیر باز خواهد شد. قسمتی از متنی که میخواهید آن را بردارید را انتخاب کرده یا با کلیدهای ترکیبی Ctrl + A کل متن را کپی کنید. سپس کلیدهای ترکیبی Ctrl + C را بزنید تا متن انتخاب شده کپی شود. برای کپی کردن همچنین میتوانید بر روی صفحه راست کلیک کرده سپس Copy را بزنید.
یا
درصورتی که هنوز گوگل کروم را در کامپیوتر خود ندارید و قصد نصب آن را دارید، مراحل زیر را دنبال کنید. اگر اینترنت پر سرعت دارید به بخش A و اگر اینترنت شما کم سرعت است به بخش B بروید:
۱- اگر از اینترنت پرسرعت (حداقل ۱۲۸ کیلوبیت) استفاده میکنید، این گزینه پیشنهاد میشود. ابتدا به لینک دانلود گوگل کروم بروید.
۲- بر روی دانلود Chrome یا Download Chrome کلیک کرده سپس فایل دانلود شده را باز کنید.
۳- پس از اتمام فرایند دانلود اجزای مرورگر و نصب کردن آن که توسط نصب کننده دانلود شده انجام میشود، مرورگر گوگل کروم باز خواهد شد.
۱- اگر سرعت اینترنت شما کم است یا قطعی زیادی دارد، این گزینه میتواند نیاز شما را رفع کند. به یکی از سایتهای دانلود گوگل کروم بروید. ما لینک دانلود گوگل کروم از سایت p30download را پیشنهاد میکنیم. حجم این برنامه حدود ۴۰ مگابایت است.
در قسمت "لینک های دانلود" و بخش "نرم افزار Google Chrome با قابلیت بهروزرسانی خودکار"، با توجه به نوع ویندوز خود (۳۲ یا ۶۴ بیتی. ۳۲ بیتی رایج است)، فایل را دانلود کنید. رمز فایل www.p30download.com است.
۲- فایل فشرده دانلود شده را با استفاده از برنامههایی مانند WinRar یا ۷zip غیرفشرده یا اکسترکت کنید. در این مرحله درصورت نیاز، باید رمز را وارد کنید.
۳- فایل نصب کننده را اجرا کرده و برنامه را نصب کنید.
قدم دوم (چسباندن متن پس از کپی کردن آن):
پس از کپی کردن متن با استفاده از یکی از برنامههای بالا، در مکان یا برنامه مورد نظر (در اینجا برنامه ورد) محتوای کپی شده را پیست کنید. برای چسباندن محتوا میتوانید روی محل مورد نظر کلیک راست کرده و Paste را انتخاب کنید یا با استفاده از کلیدهای ترکیبی Ctrl + V این کار را انجام دهید. درصورتی که از ورد استفاده میکنید، پیشنهاد میشود برای متون فارسی، متن را انتخاب کرده سپس بر روی علامت مشخص شده در تصویر زیر کلیک کنید تا متن راست چین شود.
توجه کنید که در نمونه فایل PDF نشان داده شده، از فونت معمولی استفاده شده به همین دلیل بدون هیچ مشکلی محتوای فایل به درستی کپی شده است. البته ممکن است برخی از کاراکترها مانند () {} [] <> \/ و ... جهتهای اشتباهی داشته باشند که باید به صورت دستی تصحیح شوند.
برنامه Xilisoft PDF to Word converter یکی از بهترین برنامههای تبدیل PDF به Word است که زبان فارسی را نیز پشتیبانی میکند. البته با استفاده از این برنامه بسیاری از استایلهای PDF اصلی را از دست خواهید داد ولی با این حال متن کامل را در اختیار خواهید داشت.
۱- مرورگر گوگل کروم را باز کنید.
۲- پنجره گوگل کروم را کوچک تر کرده سپس فایل PDF خود را کشیده و داخل مرورگر بیندازید. برای این کار میتوانید بر روی فایل کلیک کرده، آن را نگه داشته سپس در داخل مرورگر رها کنید.
همچنین این کار را میتوانید با کلیک راست کردن روی فایل PDF و رفتن به قسمت Open with سپس قسمت Choose default program و انتخاب مرورگر Google Chrome نیز انجام دهید تا از این پس برنامه پیش فرض برای اجرای فایلهای PDF مرورگر گوگل کروم باشد.
۳- حال فایل PDF مانند تصویر زیر باز خواهد شد. فایلهای PDF توسط ابزار تعبیه شده (Built-in) ای نمایش داده میشوند که در داخل مرورگر گوگل کروم، به صورت پیشفرض فعال است. درصورت غیرفعال بودن این ابزار، کروم با استفاده از سایر پلاگینها فایلهای PDF را نشان خواهد داد. قسمتی از متنی که میخواهید آن را بردارید را انتخاب کرده یا با کلیدهای ترکیبی Ctrl + A کل متن را کپی کنید. سپس کلیدهای ترکیبی Ctrl + C را بزنید تا متن انتخاب شده کپی شود. برای کپی کردن همچنین میتوانید بر روی صفحه راست کلیک کرده سپس Copy را بزنید.
قدم دوم (چسباندن متن پس از کپی کردن آن):
پس از کپی کردن متن با استفاده از یکی از برنامههای بالا، در مکان یا برنامه مورد نظر (در اینجا برنامه ورد) محتوای کپی شده را پیست کنید. برای چسباندن محتوا میتوانید روی محل مورد نظر کلیک راست کرده و Paste را انتخاب کنید یا با استفاده از کلیدهای ترکیبی Ctrl + V این کار را انجام دهید. درصورتی که از ورد استفاده میکنید، پیشنهاد میشود برای متون فارسی، متن را انتخاب کرده سپس بر روی علامت مشخص شده در تصویر زیر کلیک کنید تا متن راست چین شود.
توجه کنید که در نمونه فایل PDF نشان داده شده، از فونت معمولی استفاده شده به همین دلیل بدون هیچ مشکلی محتوای فایل به درستی کپی شده است. البته ممکن است برخی از کاراکترها مانند () {} [] <> \/ و ... جهتهای اشتباهی داشته باشند که باید به صورت دستی تصحیح شوند.
برنامه Xilisoft PDF to Word converter یکی از بهترین برنامههای تبدیل PDF به Word است که زبان فارسی را نیز پشتیبانی میکند. البته با استفاده از این برنامه بسیاری از استایلهای PDF اصلی را از دست خواهید داد ولی با این حال متن کامل را در اختیار خواهید داشت.
۱- به یکی از سایتهای دانلود Xilisoft PDF to Word converter بروید. ما لینک دانلود برنامه از سایت p30download را پیشنهاد میکنیم. حجم این برنامه حدود ۱۵ مگابایت است.
در قسمت "لینک های دانلود" فایل را دانلود کنید. رمز فایل www.p30download.com است.
۲- فایل فشرده دانلود شده را با استفاده از برنامههایی مانند WinRar یا ۷zip غیرفشرده یا اکسترکت کنید. در این مرحله درصورت نیاز، باید رمز را وارد کنید.
۳- فایل نصب کننده را اجرا کرده و برنامه را به صورت عادی نصب کنید.
۴- اگر برنامه باز شد، آن را ببندید. فایل imfc0.dll که در پوشه Crack فایل دانلود شده است را کپی کرده سپس در پوشهای که فایل اجرایی برنامه نصب شده در آن واقع است (یعنی محل نصب برنامه)، بجای فایل اصلی با نام imfc0.dll، فایل کپی شده با همین نام را کپی کنید.
۵- برنامه را باز کرده سپس از طریق نوار ابزار Help به Enter License Code بروید. ممکن است پنجره وارد کردن شماره سریال به صورت مستقیم پس از اجرا کردن برنامه باز شود.
۶- چون فایل بررسی کننده شماره سریال را در مرحله ۴ عوض کرده ایم، بنابراین هر عبارت دلخواه را که در هر دو فیلد وارد کرده و بر روی Register کلیک کنید، برنامه به عنوان "خریداری شده" بدون محدودیت قابل استفاده خواهد بود.
۱- برنامه را اجرا کرده سپس فایل PDF مورد نظر را کشیده و در کادر اصلی برنامه رها کنید. یا بر روی Add Files کلیک کرده و PDF های مورد نظر را انتخاب کنید.
۲- دقت کنید که در قسمت Profile فرمت docx انتخاب شده باشد یعنی مقدار آن Word Document *.docx باشد یا اگر برای وردهای سازگار با نسخههای ۲۰۰۳ و پایین تر میخواهید، آن را به doc تغییر دهید. در قسمت Output نیز مسیر پوشه فایل خروجی را با کلیک کردن بر روی Browse انتخاب کنید. در نهایت بر روی علامت PDF برای شروع تبدیل کلیک کنید. پس از آن، یک پیغام باز خواهد شد که میگوید همه برنامههای ورد باز را ببندید سپس بر روی Ok کلیک کنید.
حال فرایند تبدیل شروع خواهد شد، درصد صفحات تبدیل شده را میتوانید در قسمت Status ردیف فایل PDF مورد نظر در کادر اصلی ببینید. تا اتمام فرایند صبر کنید سپس فایل تبدیل شده را باز کنید.
اگر میخواهید محدوده خاصی از صفحات را تبدیل کنید در گوشه پایین سمت راست در قسمت Page Range ابتدا تیک Range را زده سپس صفحات مورد نظر را طبق الگوری FROM-TO وارد کنید. یعنی ابتدا صفحه شروع، یک علامت خط تیره و بعد از آن صفحه پایانی را بنویسید. اگر صفحه خاصی مد نظر شماست، به تنهایی شماره آن صفحه را وارد کنید مثلا ۲ برای صفحه دوم.
برنامه e-PDF To Text Converter یکی از معدود برنامههایی است که زبان فارسی را برای فایلهای PDF پشتیبانی میکند اما مشکلی که وجود دارد این است که با استفاده از این برنامه، ما فایل PDF را به فایل متنی (Text) تبدیل خواهیم کرد چون این برنامه قابلیت تبدیل مستقیم PDF به فایل ورد را ندارد. واضح است که تمام استایل دهی فایل PDF از بین خواهد رفت و فقط متن آن تبدیل خواهد شد.
- به یکی از سایتهای دانلود e-PDF To Text Converter بروید. ما لینک دانلود برنامه از سایت p30download را پیشنهاد میکنیم. حجم برنامه فقط ۱ مگابایت است
در قسمت "لینک های دانلود" فایل را دانلود کنید. رمز فایل www.p30download.com است.
۲- فایل فشرده دانلود شده را با استفاده از برنامههایی مانند WinRar یا ۷zip غیرفشرده یا اکسترکت کنید. در این مرحله درصورت نیاز، باید رمز را وارد کنید.
۳- فایل نصب کننده را اجرا کرده و برنامه را به صورت عادی نصب کنید.
۴- پس از اتمام نصب، برنامه را باز کنید. با پنجرهای مشابه تصویر زیر مواجه خواهید شد. فایل Keygen را باز کنید و روی Gen کلیک کنید (سمت راست). سریال ساخته شده در فیلد دوم را کپی کردن و در برنامه، در فیلد دوم بچسبانید. فیلد اول را بیخیال شوید! در آخر بر روی Ok کلیک کنید تا برنامه کرک شود.
۱- برنامه را اجرا کرده سپس فایل PDF مورد نظر را کشیده و در کادر اصلی برنامه رها کنید. یا بر روی Add Files کلیک کرده و PDF های مورد نظر را انتخاب کنید.
۲- باید یک تغییر مهم در برنامه ایجاد کنیم پس بر روی Settings در پایین برنامه کلیک کنید.
۳- برنامه به صورت پیشفرض دادههای خروجی را طبق کدگذاری کاراکتری ASCII7 ذخیره میکند. در قسمت Output Encodings برای پشتیبانی از زبان فارسی گزینه UTF-8 را تیک بزنید. برای ذخیره تنظیمات بر روی OK کلیک کنید. همچنین پنجره تنظیمات میتوانید دامنه صفحات تبدیل شونده را به صورت دستی تعیین کنید. برای این کار تیک گزینه Selected Pages را بجای گزینه All Pages (همه صفحات) زده و در قسمت From صفحه شروغ و در قسمت To صفحه پایانی را انتخاب کنید. برای ذخیره تنظیمات روی OK کلیک کنید.
۳- حال نوبت تبدیل صفحات است. بر روی Convert PDFs در پایین پنجره برنامه کلیک کنید.
۴- پس از اتمام فرایند تبدیل، فایل TXT (پسوند فایلهای متنی ساده) در کنار فایل PDF ذخیره خواهد شد. این فایل بصورت خودکار باز خواهد شد، قسمتی از متن یا با کلیدهای ترکیبی Ctrl + A کل متن را انتخاب کنید. سپس با کلیدهای ترکیبی Ctrl + C یا کلیک راست و انتخاب Copy متون را کپی کنید.
پس از کپی کردن متن، در مکان یا برنامه مورد نظر (در اینجا برنامه ورد) محتوای کپی شده را پیست کنید. برای چسباندن محتوا میتوانید روی محل مورد نظر کلیک راست کرده و Paste را انتخاب کنید یا با استفاده از کلیدهای ترکیبی Ctrl + V این کار را انجام دهید. درصورتی که از ورد استفاده میکنید، پیشنهاد میشود برای متون فارسی، متن را انتخاب کرده سپس بر روی علامت مشخص شده در تصویر زیر کلیک کنید تا متن راست چین شود.
درصورتی که برنامه یا روشی دیگر برای تبدیل فایلهای PDF فارسی یا استخراج متن از آنها سراغ دارید، خوشحال میشویم که در قسمت نظرات آن را برای ما ارسال کنید تا با نام خودتان قرار گیرد.
منبع : http://bytegate.ir/
Comments (0 posted)
Post your comment